深入了解 OpenAI 的内部数据智能体
这篇文章展示的不是一个“会写 SQL 的小助手”,而是一套围绕企业数据平台构建的完整数据智能体方法论。为什么 OpenAI 要自己做数据智能体OpenAI 内部有 3,500 多名数据平台用户、7 万个数据集和超过 600 PB 的数据,光是找到正确的表就已经很耗时。即便找到了正确的表,错误连接、筛选条件下推失误和空值…
转载说明:本文基于 OpenAI 于 2026 年 1 月 29 日发布的文章 Inside OpenAI’s in-house data agent 进行完整中文整理与补全,并参考了 OpenAI 的中文落地页:https://openai.com/zh-Hans-CN/index/inside-our-in-house-data-agent/。深入了解 OpenAI 的内部数据智能体 作者:Bonnie Xu、Aravind Suresh 和 Emma Tang 数据为系统如何学习、产品如何演进以及企业如何做出选择提供动力。但要快速、准确地获取答案,并结合相关上下文,往往比想象中更为困难。随着 OpenAI 业务范围的扩展,为了简化这项工作,我们建立了专属定制内部 AI 数据智能体,通过 OpenAI 的平台进行探索和推理。 我们的智能体是一款定制内部专用工具(非外部产品),围绕 OpenAI 的数据、权限和工作流而构建。我们将展示 OpenAI 如何构建和使用这一工具,以帮助大家了解 AI 如何以切实可行的方式,支持团队完成日常工作。我们用于构建和运行这一智能体的 OpenAI 工具(Codex、我们的 GPT‑5 旗舰模型、Evals API(在新窗口中打开) 和 Embeddings API(在新窗口中打开))与我们面向全球各地开发人员提供的工具相同。 我们的数据智能体可支持员工在几分钟(而非几天)内从问题中提取洞察数据。这降低了所有职能部门(而不仅仅是我们的数据团队)提取数据和进行细致分析的门槛。如今,OpenAI 的工程、数据科学、市场进入、财务和研究团队都依赖智能体来解答**高价值数据问题。**例如,它可以通过直观的自然语言格式,回答如何评估发布流程和理解业务运行状况等问题。该智能体结合了 Codex 驱动的表格级知识,以及产品和组织的背景信息。其持续学习记忆系统意味着它能够不断优化。 Image 1: 屏幕截图显示用户在 2025 年 10 月 6 日询问 ChatGPT 周活跃用户 (WAU) 数据,并与 DevDay 2023 期间的数据进行比较。智能体报告称,2025 年的 WAU 约为 8 亿,2023 年的 WAU 约为 1 亿,备注信息表明变化幅度超过 7 亿,增长约 8 倍,随后还附上说明背景信息。 在这篇文章中,我们将深入分析为什么我们需要定制 AI 数据智能体,代码增强型数据上下文和自学习功能为何如此重要,以及我们在此过程中汲取的经验教训。为什么我们需要定制工具 OpenAI 的数据平台为工程、产品和研究部门的 3,500 多名内部用户提供服务,涵盖 70,000 个数据集中超过 600 PB 的数据。在此规模下,寻找合适的表格可能是分析过程中最耗时的环节之一。 正如一位内部用户所解释的: “我们有很多非常相似的表格,我曾耗费大量时间去厘清它们的不同之处,以及具体应选择哪一个表格。有的表格包括已注销用户,有的则不包括这些用户。有的表格存在重叠字段,很难分辨具体内容。” 即使选择了正确的表格,生成正确的结果也并非易事。分析师必须对表格数据和表格关系进行推理,以确保正确应用转换和筛选功能。常见的故障模式 — 多对多连接、筛选条件下推错误和未处理的空值,都可能会在不知不觉中输出无效结果。鉴于 OpenAI 庞大的组织架构,分析师不应将时间浪费在调试 SQL 语义或查询性能上:他们的重点应放在定义指标、验证假设和制定数据驱动的决策。 Image 2: SQL 代码屏幕截图,其中定义了两个 CTE — order_enriched 和 monthly_segment,用于连接客户地理数据,推导订单月份字段,以及计算订单数量、总收入、含税收入以及从发货到签收的平均天数等月度汇总指标。 这条 SQL 语句长达 180 多行。要确认我们是否连接正确的表格并查询相关列,并非易事。工作原理 让我们逐步了解 OpenAI 的智能体及其如何整理上下文并不断自我完善。 我们的智能体由 GPT‑5.2 驱动,旨在通过 OpenAI 的数据平台进行推理。无论员工在何处办公,都可以使用这一工具:它能够充当 Slack 智能体、通过 Web 界面、嵌入集成开发环境 (IDE)、经由 MCP 连接的 Codex CLI(在新窗口中打开) 以及直接 通过 MCP 连接器在 OpenAI 的内部 ChatGPT 应用中调用(在新窗口中打开)。 Image 3: 标题为“数据智能体运作原理”的图表。Agent-UI、Local Agent-MCP、Remote Agent-MCP 和 Slack Agent 等入口点均已输入到 Agent-API。API 可连接内部数据知识和企业背景信息,与数据仓库和平台源同步,并通过 Ag…
正在初始化 WebAssembly 引擎…
首次编译原生模块可能需要数秒
就绪后,页面交互将以接近原生的速度运行