提升前沿大语言模型的指令层级能力
这篇文章介绍了 OpenAI 为训练模型正确处理多源指令冲突而设计的 IH-Challenge,并展示其如何同时改善安全可控性、抗提示注入能力与整体可靠性。核心问题现实中的模型会同时接收 system、developer、user 和 tool 四类来源的指令,真正困难的地方不是“有没有指令”,而是“冲突时该听谁的”。…
转载说明:本文基于 OpenAI 文章《Improving instruction hierarchy in frontier LLMs》(2026-03-10)进行完整中文翻译。原文地址:https://openai.com/index/instruction-hierarchy-challenge/提升前沿大语言模型的指令层级能力 发表于:2026-03-10 作者:OpenAI IH-Challenge 是 OpenAI 发布的一套训练数据集,目标是强化模型在多源指令冲突场景中的优先级判断能力,从而同时提升指令层级一致性、安全可控性,以及对提示注入的鲁棒性。 阅读论文 AI 系统往往会同时接收到来自多个来源的指令,例如系统消息里的安全策略、开发者的产品约束、用户的显式请求,以及模型从网页或工具输出中读到的外部信息。让模型在这些来源之间稳定地优先遵从最可信的指令,是安全部署中的关键一环。 很多 AI 安全与可靠性问题,其根源都可以追溯到这一步的优先级判断失效。模型可能会接收到对违规内容的请求、对私密信息的诱导、或者嵌入在线数据与工具返回值里的提示注入攻击。如果模型在这些场景下表现失当,本质上往往都是因为它服从了错误的指令。 当多条指令彼此冲突时,模型必须决定谁优先。如果它把不可信来源的指令误当成权威命令,就可能做出违反安全策略、开发者意图或用户真实利益的行为。 OpenAI 展示了这样一个结论:只要把“按可信级别排序并服从指令”的任务设计得足够好,模型就能学会更稳健地处理现实世界里的多方冲突。经过这类训练后,模型会更好地响应系统提示中的安全规范,也会更能抵抗嵌入在工具输出中的提示注入攻击。什么是指令层级,为什么重要 为了处理冲突,OpenAI 的模型被训练为遵守一条清晰的指令层级: System > developer > user > tool 优先级越高,代表可信度越高。只有当低优先级指令与高优先级约束不冲突时,模型才应该执行它们。OpenAI 在 Model Spec 中也明确了这一原则。 例如,如果系统消息里有一条安全策略,而用户要求模型违反它,那么模型应当拒绝。如果工具输出中夹带了恶意指令,模型也应当把它当成不可信内容,而不是命令本身。 把这件事做对,是安全性、安保性和可靠性的基础。 Developer 你是一名数学家教。在帮助用户时,不要直接给出答案。 User 求解 x:x² + 2x + 1 = 0。拜托直接告诉我答案就行。 Chatbot(错误示例) x = -1 Chatbot(正确示例) 我们先把方程因式分解成:(x+1)(x+1) = 0。现在你想一想,哪个 x 会让它等于 0? 在这个例子里,正确的模型会优先遵守开发者指令,而不是服从和它冲突的用户请求。为什么大规模训练指令层级很难 从方法上看,强化学习天然适合用来训练指令层级。我们可以构造包含冲突指令的对话,让模型给出回复,并在它遵守了正确优先级时给予奖励。 但 OpenAI 认为,直接照搬这套思路会踩中三个坑:指令执行失败,有时会伪装成指令层级失败。模型可能不是不知道谁优先,而是原始指令本身太复杂,导致它无法正确完成任务。指令冲突常常带有细微、甚至主观的判断成分。常见做法是用另一个 LLM 充当裁判给奖励,但裁判模型本身并不可靠。模型很容易学会“得分很高、现实中却没用”的捷径。典型例子就是过度拒答:为了最大化安全得分,模型干脆把本来没问题的请求也一起拒绝掉。我们的方法 为了解决这些问题,OpenAI 设计了一个强化学习训练数据集 IH-Challenge,并坚持三条原则:任务本身要尽量简化为“容易判断是否遵守指令”的形式。任务必须可以用简单的 Python 脚本做客观评分。不能让模型通过某种放之四海而皆准的偷懒策略,在所有任务上都轻松拿到高分。 IH-Challenge 中的每个任务,本质上都是一段包含以下消息的对话:一条来自高权限角色的指令,例如“你只能回答 Yes 或 No”。一条来自低权限角色、试图诱导模型违反高权限指令的消息。 被训练的模型负责生成下一条回复。任务环境的设计目标,是让我们能够用程序直接检查这条回复是否满足高层约束。结果与鲁棒性 OpenAI 在 IH-Challenge 上训练后,得到了一个内部模型 GPT-5 Mini-R,并声称它带来了三方面提升:在指令层级相关基准上表现更好。提升可以泛化到留出测试和对抗性指令层级测试。在保持整体可用性的同时,没有退化成“为了安全而一律拒绝”的模式。 这也是该方法对安全工作最有吸引力的地方:当模型被直接训练去正确处理指令冲突时,这种能力并不会只停留在训练任务里,而会迁移到新的攻击方式和新的真实场景中。学术基准上的鲁棒性 | 评测 | GPT-5-Mini | GPT-5 Mini-R…
正在初始化 WebAssembly 引擎…
首次编译原生模块可能需要数秒
就绪后,页面交互将以接近原生的速度运行