为什么你的 agent 跑不了长程任务?
三个核心问题
1. 任务能驳完成
Agent 在执行大量任务的时候可能在过程中断。Token 超限、网络异常、服务中断——任何一个都会让任务停在半路。
2. 完成的真实性
Agent 有时会混淆「应该做了」和「实际上做了」。尤其是当一个操作失败了,但 Agent 没有收到明确的错误信号时,它可能会继续「以为」自己成功了。
3. 执行路径不确定性
即使给了相同的 prompt 和明确的步骤,Agent 的执行路径也可能不同。有时候跑着跑着忘了同步,有时候同步的目标路径错了,覆盖了其他 Agent。
Harness Engineering 的核心设计
- 任务拆解:把大任务拆成小任务,每个子任务独立执行
- 并行执行:多个子任务同时执行,提高效率
- File As Progress:把每个任务的中间状态写入文件,agent 重启后能恢复进度
- 多层重试:区分暂时错误和永久错误,采取不同策略
- 自动验证:每个子任务完成后自动验证,不让错误累积
一个关键洞察
长程任务的问题不是 AI 不够强,而是工程上缺少三样东西:状态持久化、任务拆解、验证机制。
把这三样做好,Agent 就能跑长程任务。