AINews：Harness Engineering 真的有独立价值吗？

转载说明：本文译自 Latent Space 发布的 AINews: Is Harness Engineering real?。原文发布时间：2026-03-05。AINews：Harness Engineering 真的有独立价值吗？我以前在金融行业时，常见一个争论：如果一位交易员赚了 300 万美元，这里面到底有多少来自她个人的能力，又有多少来自她所处的位置、机构和品牌？换句话说，是否换一个足够胜任的人坐在同一个席位上，也能做出差不多的成绩？现在，同样的争论正在 “Harness Engineering” 里上演。它可以看作 Agent Engineering 里偏系统的一支，也是 Agent Labs 的核心工作之一。这个争论的主轴，就是 Big Model 和 Big Harness 之间的张力。曾有一位你肯定知道的 AI framework 创始人在 OpenAI 的一场活动上私下跟我说：“我甚至不确定这些人到底想不想让我这个物种存在。” 题外话，先给 Harness 下个定义：“在各种工程领域里，harness 本质上都是同一种东西：它负责连接、保护、编排各个组件，但它本身并不直接完成核心工作。” 和 Big Model 阵营聊多了，你会很直观地感受到这种思路： Boris Cherny 和 Cat Wu 的几期播客里都不断强调 Claude Code 的 harness 有多薄。他们的思路是：尽量让模型本身直接释放能力，因为只有模型提供方最清楚怎么把模型威力发挥到最大。Boris：“源码里并没有什么特别神秘的东西，而且本来就是 JavaScript，你完全可以反编译。我们的整体思路就是：所有 secret sauce 都在模型里，这只是包在模型外面的一层尽可能薄的 wrapper。我们真的已经做不到更简了，这就是最极简的版本。”Cat [01:09:21]：“这基本上就是刻意做成最简单的形态。”Boris [01:09:25]：“它实际上还在不断变得更简单，而不是更复杂。我们大概每三四周就会从头重写一次。很像忒修斯之船，每个零件都在换，因为 Claude 自己就很擅长给自己写代码。” OpenAI 自己关于 Harness Engineering 的文章也强调，上手并不复杂。再考虑到他们通过 “execuhire” 把 OpenClaw 吸进体系里，OpenAI 现在事实上也是全球最成功开源 harness 之一的主要受益者。 Noam Brown 的观点更直接：“在 reasoning model 出现之前，大家为了让 GPT-4o 这类非 reasoning 模型表现出推理行为，需要做大量 agent 系统工程，设计很多多轮调用和脚手架。后来我们直接把 reasoning model 做出来了，于是这些复杂行为很多就不再需要，甚至反而会让效果变差。你把同样的问题直接交给 reasoning model，它自己就能做。现在大家又开始在 reasoning model 上面加新的 scaffolding，但我认为其中很大一部分最终也会被更强的模型能力本身替代。像 model router 也是一样，我们已经公开说过，希望未来走向一个统一模型世界；在那种世界里，理论上你就不该再需要额外的 router。” METR 的结果显示，Claude Code 和 Codex 并没有明显胜过一个基础 scaffold： Scale AI 的 SWE-Atlas 也给出一个有意思的信号：Opus 4.6 在 Claude Code 里比通用 SWE-Agent 高 2.5 分，但 GPT-5.2 的结果恰好反过来。这意味着你选哪种 harness，在误差范围内可能只是噪声：但 Big Harness 阵营并不同意这套叙事： Harness 就是产品本身几乎所有生产级 agent 最终都会收敛到同一个核心循环：while (model returns tool calls): execute tool -> capture result -> append to context -> call model again Claude Code、Cursor 的 agent、Manus，这些系统的核心都可以被压缩进这个循环里。 Jerry Liu 的说法是：“Model Harness is Everything。你能不能从 AI 里真正获得价值，最大的障碍其实是你自己能不能把模型的上下文和工作流工程化。你使用的工具越偏横向，这一点就越明显。” 《Improving 15 LLMs at Coding in One Afternoon. Only the Harness Changed》这篇工作则说明：只要 harness…