文段解析

为什么你的 agent 跑不了长程任务?

长程 Agent 任务的核心问题不是 AI 不够强,而是工程上缺少三样东西:状态持久化、任务拆解、验证机制。

为什么你的 agent 跑不了长程任务?

三个核心问题

1. 任务能驳完成

Agent 在执行大量任务的时候可能在过程中断。Token 超限、网络异常、服务中断——任何一个都会让任务停在半路。

2. 完成的真实性

Agent 有时会混淆「应该做了」和「实际上做了」。尤其是当一个操作失败了,但 Agent 没有收到明确的错误信号时,它可能会继续「以为」自己成功了。

3. 执行路径不确定性

即使给了相同的 prompt 和明确的步骤,Agent 的执行路径也可能不同。有时候跑着跑着忘了同步,有时候同步的目标路径错了,覆盖了其他 Agent。

Harness Engineering 的核心设计

  1. 任务拆解:把大任务拆成小任务,每个子任务独立执行
  2. 并行执行:多个子任务同时执行,提高效率
  3. File As Progress:把每个任务的中间状态写入文件,agent 重启后能恢复进度
  4. 多层重试:区分暂时错误和永久错误,采取不同策略
  5. 自动验证:每个子任务完成后自动验证,不让错误累积

一个关键洞察

长程任务的问题不是 AI 不够强,而是工程上缺少三样东西:状态持久化、任务拆解、验证机制。

把这三样做好,Agent 就能跑长程任务。