苦涩的教训（The Bitter Lesson）

转载提示：本文转载自原文。原作者：Rich Sutton。原文发布日期：2019-03-13。本文已按站点规范移除推广/导流内容，仅保留核心观点、论证链路与示例。苦涩的教训（The Bitter Lesson）过去七十年的 AI 研究反复给出同一结论：最终胜出的，往往是能够持续利用计算规模的通用方法，而不是将大量人类领域知识硬编码进系统的方案。其根本原因在于算力成本长期指数下降（可视作摩尔定律及其延伸）。短期看，注入人类先验常常“马上有效”；长期看，随着算力扩大，这类做法容易成为扩展瓶颈。计算机棋类：从“懂棋”到“大规模搜索” 在国际象棋中，1997 年击败卡斯帕罗夫的方法核心是深度、海量搜索。很多强调“人类棋理结构”的研究路线当时并不服气，认为“暴力搜索”不优雅、也不像人类下棋。但历史结果是明确的：一旦搜索在工程上做对并规模化，基于手工先验的路线很快失去竞争力。围棋也经历了类似过程，只是晚了约二十年。早期大量尝试都在避免搜索、突出人为知识；真正突破来自把搜索与学习（尤其自博弈学习）推到规模极限。语音识别与视觉：同一模式反复出现语音识别早期曾有大量基于语音学、人类发音机理等知识注入路线；随后统计方法（如 HMM）与更大计算量路线胜出，并最终演进到深度学习。计算机视觉也类似：边缘、几何部件、SIFT 等手工特征时代逐步退场，卷积网络等可扩展学习范式成为主流。共同规律是：人工注入知识通常在短期有收益；但当可扩展计算与学习机制成熟后，通用方法会取得更高上限。为什么这条教训“苦涩” 这条规律之所以“苦涩”，是因为它与研究者的直觉和投入常常冲突：研究者往往倾向把自己理解的知识直接写进系统；这种做法短期有效，且带来心理满足；但长期会平台化，甚至阻碍后续进步；真正突破常来自相反方向：扩大搜索与学习规模。因此，成功常常意味着“放弃自己偏好的人类中心路线”，这在情感上并不轻松。两个更普适的结论第一，真正值得押注的是可随算力持续扩展的通用方法。在 Sutton 的论述中，最关键的两类是：Search（搜索）Learning（学习）第二，人类心智与世界结构本身高度复杂，难以被少量手工抽象彻底覆盖。与其试图把“我们已经知道的结构”硬塞进系统，不如构建能够自动发现并逼近复杂性的元方法。目标不应是“把我们的发现直接编码到 Agent”，而应是“让 Agent 学会像我们一样发现”。结语 “The Bitter Lesson” 并不是否定领域知识的价值，而是提醒：当时间尺度拉长、算力持续增长，扩展性会压倒“短期看起来聪明”的人工设计。对今天的 Agent 系统而言，这意味着：尽量把系统做成可扩展、可迭代、可替换的学习与搜索框架，而不是沉没在难以维护的手工规则中。