这篇文章介绍了 Anthropic 在 Claude 网页搜索链路中引入“动态过滤”后的机制变化、评测结果与工程落地方式。核心机制变化Claude 在网页搜索阶段会先编写并执行代码,对检索结果做后处理,再将有效信息注入上下文。新流程从“直接吞入大量 HTML 推理”转为“先筛再读”,目标是降低噪声并节省 token。该…
转载声明: 本文翻译自 Anthropic 官方博客《Increase web search accuracy and efficiency with dynamic filtering》(发布时间:February 17, 2026)。原文链接:https://claude.com/blog/improved-web-search-with-dynamic-filtering 在发布 Opus 4.6 和 Sonnet 4.6 的同时,Anthropic 还更新了 web search 与 web fetch 工具。现在,Claude 在网页搜索过程中可以原生编写并执行代码,在结果进入上下文窗口之前先完成过滤,从而同时提升答案准确性与 token 使用效率。 通过动态过滤增强网页搜索 网页搜索本身是高度消耗 token 的任务。使用基础搜索工具时,智能体通常需要先发起查询,再把大量结果拉入上下文、抓取多个网站完整 HTML,然后基于这些内容推理后再回复。问题在于,这些被拉入上下文的信息中往往包含大量无关内容,最终会拉低回答质量。 为此,Anthropic 在 web search 与 web fetch 工具中引入了“自动编写并执行代码做后处理”的机制。模型不再直接对整页 HTML 逐段推理,而是先对检索结果做动态筛选,只把相关信息加载进上下文,其余部分直接丢弃。 Anthropic 表示这种方法此前已在其他 agentic 工作流中验证有效,并已通过 code execution 和 programmatic tool calling 等能力在 API 侧提供原生支持。现在同样的思路被扩展到网页搜索与抓取场景。评估 Claude 的网页搜索能力 Anthropic 在仅启用网页搜索(不启用其他工具)的条件下,对 Sonnet 4.6 与 Opus 4.6 进行了动态过滤开/关对比。在 BrowseComp 与 DeepsearchQA 两个基准上,动态过滤平均提升了 11% 的性能,同时把输入 token 使用量降低了 24%。BrowseComp:在网页中找到单一目标答案 BrowseComp 用来测试智能体是否能跨越大量网站,找到一个刻意设置得“很难搜到”的具体信息点。 开启动态过滤后,Claude 准确率显著提升:Sonnet 4.6:33.3% -> 46.6%Opus 4.6:45.3% -> 61.6% DeepsearchQA:在网页中系统性找到多个答案 DeepsearchQA 给出的是一个查询对应多个正确答案的研究型任务,而且这些答案都必须通过网页搜索获得。它重点考察智能体能否完成多步检索规划并避免漏掉答案。指标采用 F1 分数,用来平衡精确率与召回率。 开启动态过滤后,Claude 的 F1 分数提升如下:Sonnet 4.6:52.6% -> 59.4%Opus 4.6:69.8% -> 77.3% token 成本会随着模型为过滤上下文而编写代码的规模而变化。按加权价格计算,Sonnet 4.6 在两个基准上的 token 成本下降,而 Opus 4.6 上升。Anthropic 建议在业务侧使用具有代表性的真实查询集进行评估,才能准确估算成本。客户案例:Quora Quora 旗下的 Poe 是一个多模型 AI 平台,向数百万用户提供 200+ 模型的统一入口。Quora 内部评测显示,开启动态过滤的 Opus 4.6 在其评估中取得了与其他前沿模型对比时的最高准确率。其产品与研究负责人 Gareth Jones 表示,该模型更像研究员,会主动编写 Python 解析、过滤与交叉验证搜索结果,而不是直接在上下文里对原始 HTML 生推理。web search 与 web fetch 工具中的动态过滤 在 Claude API 中,Sonnet 4.6 与 Opus 4.6 使用新版 web search/web fetch 工具时,动态过滤默认开启。对于复杂网页检索任务(例如技术文档梳理、引用核验),可预期获得与上文类似的效果改进。 原文给出的 API 示例:{ "model": "claude-opus-4-6", "max_tokens": 4096, "tools": [ { "type": "web_search_20260209", "name": "web_search" }, { "type": "web_fetch_20260209", "name": "web_fetch" } ], "messages": [ { "role": "user", "content": "Search for the current prices of AAPL and GOOGL, then c…