AINews:Harness Engineering 真的有独立价值吗?
这篇文章由 Latent Space 的一篇长文评论和一整期 AINews 组成,前半段讨论 Harness Engineering 是否具有独立价值,后半段则系统梳理了模型发布、开源生态、推理系统、编码 Agent、多模态研究以及社区反馈等多个方向的最新动态。Harness Engineering 之争文章用金融行业…
转载说明:本文译自 Latent Space 发布的 AINews: Is Harness Engineering real?。原文发布时间:2026-03-05。AINews:Harness Engineering 真的有独立价值吗? 我以前在金融行业时,常见一个争论:如果一位交易员赚了 300 万美元,这里面到底有多少来自她个人的能力,又有多少来自她所处的位置、机构和品牌?换句话说,是否换一个足够胜任的人坐在同一个席位上,也能做出差不多的成绩? 现在,同样的争论正在 “Harness Engineering” 里上演。它可以看作 Agent Engineering 里偏系统的一支,也是 Agent Labs 的核心工作之一。这个争论的主轴,就是 Big Model 和 Big Harness 之间的张力。曾有一位你肯定知道的 AI framework 创始人在 OpenAI 的一场活动上私下跟我说:“我甚至不确定这些人到底想不想让我这个物种存在。” 题外话,先给 Harness 下个定义:“在各种工程领域里,harness 本质上都是同一种东西:它负责连接、保护、编排各个组件,但它本身并不直接完成核心工作。” 和 Big Model 阵营聊多了,你会很直观地感受到这种思路: Boris Cherny 和 Cat Wu 的几期播客里都不断强调 Claude Code 的 harness 有多薄。他们的思路是:尽量让模型本身直接释放能力,因为只有模型提供方最清楚怎么把模型威力发挥到最大。Boris:“源码里并没有什么特别神秘的东西,而且本来就是 JavaScript,你完全可以反编译。我们的整体思路就是:所有 secret sauce 都在模型里,这只是包在模型外面的一层尽可能薄的 wrapper。我们真的已经做不到更简了,这就是最极简的版本。”Cat [01:09:21]:“这基本上就是刻意做成最简单的形态。”Boris [01:09:25]:“它实际上还在不断变得更简单,而不是更复杂。我们大概每三四周就会从头重写一次。很像忒修斯之船,每个零件都在换,因为 Claude 自己就很擅长给自己写代码。” OpenAI 自己关于 Harness Engineering 的文章也强调,上手并不复杂。再考虑到他们通过 “execuhire” 把 OpenClaw 吸进体系里,OpenAI 现在事实上也是全球最成功开源 harness 之一的主要受益者。 Noam Brown 的观点更直接:“在 reasoning model 出现之前,大家为了让 GPT-4o 这类非 reasoning 模型表现出推理行为,需要做大量 agent 系统工程,设计很多多轮调用和脚手架。后来我们直接把 reasoning model 做出来了,于是这些复杂行为很多就不再需要,甚至反而会让效果变差。你把同样的问题直接交给 reasoning model,它自己就能做。现在大家又开始在 reasoning model 上面加新的 scaffolding,但我认为其中很大一部分最终也会被更强的模型能力本身替代。像 model router 也是一样,我们已经公开说过,希望未来走向一个统一模型世界;在那种世界里,理论上你就不该再需要额外的 router。” METR 的结果显示,Claude Code 和 Codex 并没有明显胜过一个基础 scaffold: Scale AI 的 SWE-Atlas 也给出一个有意思的信号:Opus 4.6 在 Claude Code 里比通用 SWE-Agent 高 2.5 分,但 GPT-5.2 的结果恰好反过来。这意味着你选哪种 harness,在误差范围内可能只是噪声: 但 Big Harness 阵营并不同意这套叙事: Harness 就是产品本身 几乎所有生产级 agent 最终都会收敛到同一个核心循环:while (model returns tool calls): execute tool -> capture result -> append to context -> call model again Claude Code、Cursor 的 agent、Manus,这些系统的核心都可以被压缩进这个循环里。 Jerry Liu 的说法是:“Model Harness is Everything。你能不能从 AI 里真正获得价值,最大的障碍其实是你自己能不能把模型的上下文和工作流工程化。你使用的工具越偏横向,这一点就越明显。” 《Improving 15 LLMs at Coding in One Afternoon. Only the Harness Changed》这篇工作则说明:只要 harness…
正在初始化 WebAssembly 引擎…
首次编译原生模块可能需要数秒
就绪后,页面交互将以接近原生的速度运行