Pass@k 与 Pass^k:如何衡量 Agent 的可靠性

这篇文章强调:评估 Agent 的生产可用性,不能只看 pass@k,还应重点关注 pass^k 所代表的一致性成功概率。两个指标的本质差异pass@k 衡量“k 次里至少一次成功”,天然偏乐观。pass^k 衡量“k 次全部成功”,更贴近连续任务场景。为什么生产环境更需要 pass^k用户体验依赖稳定连续成功,而非偶…

正在初始化 WebAssembly 引擎…
首次编译原生模块可能需要数秒
就绪后,页面交互将以接近原生的速度运行