写一个函数,AI 几乎无敌;但维护一个系统,为何 AI 开始崩溃?
目前,人工智能已经进入到“下半场”。随着 AI 编程能力不断提升,OpenClaw 等产品逐渐兴起,“CLI everything”正在成为现实,即 AI 不需要操作电脑,而是将所有的接口改为命令行界面(CLI),一个个技能正转变成一个个软件功能。
现在,Agent 已不仅仅是执行单次任务的对话工具,而是正在向长期运营、与真实世界交互、执行复杂任务的系统发展。然而,一个新的问题出现了:在持续演进的过程中,AI 能不断适应新环境并保持开发能力稳定吗?
腾讯“CEO/总裁办公室”首席 AI 科学家姚顺雨曾在一篇题为“The Second Half”的博客中提到,真实编程任务是连续依赖的,不是独立并行的,但当下学界没有这样的基准来评估 AI 在该场景下所需要的能力,甚至缺乏勇气打破任务间相互独立的假设——长久以来被广泛接受,用于简化问题。
近期,美国南加州大学、加利福尼亚大学河滨分校、斯坦福大学、普林斯顿大学、OpenHands 等联合团队发布了一项全新评估基准 EvoClaw,为上述问题上提出了新方案。研究团队从开源项目中提取高质量代码演进历史,让 Agent 在同一代码库上连续完成数十个相互依赖的功能迭代。
结果显示,顶尖 AI 能在独立评估任务中表现优异(得分 80%+),一旦进入长周期的真实场景,即便是综合得分最高的 Claude Opus 4.6 也只获得了 38.03% 的得分。这意味着,AI 对于执行自由度更高的任务容易偏离轨迹,其距离真正能够处理长周期、连续的软件演进工作仍存在显著差距。
(来源:arXiv)
这项研究揭示,AI 在长期演进中极易陷入滚雪球式的技术债。尽管能持续添加新功能,却无法控制回归错误累积,最终导致系统失控。这也意味着,AI 编程正从写代码向系统治理转折。
相关论文以《EvoClaw:面向持续软件演进的 AI 智能体评估基准》(EvoClaw: Evaluating AI Agents on Continuous Software Evolution)为题,近期发表在预印本网站 arXiv[1]。
图丨相关论文(来源:arXiv)
现有 AI 编程评测与真实体验错位,问题出在哪里?
为何独立测评获得高分的顶尖模型,在 EvoClaw 测评中集体失利?问题的根源在于评测范式变了。
在以往研究中,主流编程测评基准(benchmark)多数聚焦于独立任务:给定一个议题(issue)或拉取请求(PR,Pull Request),模型在静态的代码快照上完成修复,验证通过即完成测评。
但以往基准测评成绩与现实开发能力之间,存在着一道不容忽视的鸿沟:静态环境是一种相对理想的状态,而真实环境则是更为复杂和动态的。随着时间的演进,即便是数月前的微小 bug,经过版本迭代后也可能像滚雪球那样越来越大,进而导致系统崩溃。
(来源:arXiv)
该论文第一作者、南加州大学博士生邓港大对 DeepTech 表示:“现有的 commit 以及 release 粒度,要么过于琐碎要么过于粗糙。因此,这些开发历史并不能体现软件演进的过程。”
图丨邓港大(来源:受访者)
研究团队首次将时间维度引入 AI 编程能力的评估体系,采用了一种全新层级——里程碑(Milestone),对软件演进的历史进行重构,能够兼具语义完整性和演进依赖关系保留能力的功能单元。其要求 AI 在同一代码库上按序完成多个功能单元,这样不仅保留了每一步产出还成为下一步的起点。
(来源:arXiv)
为了支持从大量开源代码库中提取出高质量软件演进历史,研究人员基于顶尖 AI 强大的能力,提出了一套 Agent 驱动的自动化流水线 DeepCommit,首次实现将嘈杂的 Git 开发记录重构为可验证、功能内聚的里程碑任务依赖图(Milestone DAG),并为每一个里程碑构造出评估环境。主要包括三个阶段:Git 历史预处理、Agent 驱动的 DAG 构建以及里程碑环境配置与验证。
实际上,用 Milestone 对 Agent 历史演进进行重构并非易事,因为它不只是要构造一个静态的、可纯粹被观测的 DAG,而是要一连串可以被执行的评估环境,还要在演进依赖变更的同时保证正确性。
这意味着,当打乱 commit 的整体顺序并把它重新聚类连接时,可能会面临 commit 无法应用、接口对不齐以及编译大面积报错的情况。针对该问题,研究人员设计了一套迭代式修复循环:Agent 主动分析报错日志、动态修改 Dockerfile 确保可执行。
更关键的是,它会基于原有 DAG 补充被遗漏的隐式依赖,通过调整 Milestone 的先后约束关系让接口冲突问题得以妥善解决。经过反复迭代,最终实现正确收集 87.1% 的原有测试用例。
“与单个编程任务场景相比,稳定、可靠、有效的长周期自主编程是更前沿的研究热点,例如 Anthropic、OpenAI 就明确表明他们已经将重心转移到训练模型的长周期编程能力。”邓港大表示。
图丨 DeepCommit 流水线架构图(来源:arXiv)
研究人员将 DeepCommit 自动生成的演进图与人类专家的手动标注进行对比,让他们感到意外的是,二者采用了不同的组织逻辑且互为补充。
具体而言,人类专家的 Milestone 通常在局部时间窗口内,先定议题再归拢提交,是一种自上而下的语义切分;DeepCommit 为保证绝对准确性,从提交之间的依赖关系出发,自下而上地重建软件演进脉络,更强调拓扑结构与执行约束。
对评测而言,这恰恰说明 DeepCommit 关键在于从代码开发历史中提炼出一套可执行、可验证的里程碑结构。从结果来看,DeepCommit 能筛选出高质量、适合评估的 Milestone 任务,并且在真实环境中可执行、可验证,为评测可靠性提供了保障。
一进入真实开发,模型成绩为何集体“腰斩”?
EvoClaw 覆盖五种主流语言,包括 Python、Java、Go、Rust 和 TypeScript,选取的项目横跨最长真实开发周期达 750 天。
在评测指标方面,研究团队未采取简单的通过率,而是引入了两个更核心的维度——召回率(Recall)与精确率(Precision)的 F1 加权作为每个 Milestone 的评分。其中,召回率用于衡量功能实现完备性,而精确率则捕捉模型在新增功能时破坏既有代码的程度。
研究团队对 Claude Code、OpenHands 等多种框架和模型组合进行测试。结果显示,在独立评测中得分普遍在 80%-90% 的顶尖模型,在进行 EvoClaw 基准测试后集体断崖式下降,其中最高得分的 Claude Opus 4.6 仅获得 38.03% 得分。
图丨 EvoClaw 主要实验结果(来源:arXiv)
GPT 5.3 Codex 以 28.88% 的综合得分仅次于 Opus4.6,位居第二。分仓库来看,GPT 5.3 Codex 在两个 Rust 项目(Nushell、ripgrep)上表现较弱,在其余仓库上则能接近甚至超过 Opus4.6。在完整解决率方面,得分最高的 Gemini 3 Pro 也只有 13.37%,并且绝大部分能正确实现的都是没有前置依赖的任务。
据了解,研究人员将整体开销控制在合理范围内,以 Claude Opus 4.5 为例,完整测评一次的成本约为 500 美元,Kimi K2.5 以及 Gemini 3 Flash 则在 50 美元以内,小模型的开销会更低。
(来源:arXiv)
那么,如果给模型更长的开发窗口,它最终能 100% 把项目搞定吗?
研究给出了否定答案:无论开发窗口多长,所有模型的表现最终都会撞上“天花板”。任务执行顺序越靠后、所处 DAG 层级越深,分数和解决率就越低。饱和函数外推结果证明,即便是最优的 Opus 4.6,累计分数也会被卡死在 45% 左右的渐近线上。
“尽管 Opus 4.6 在 Anthropic 官网中提到比 4.5 在长周期的任务中表现更好,但是并没有给出详细的评估指标,EvoClaw 算是从另一个角度验证了他们的说法。”邓港大表示。
此外,从实验中还看到了不同模型家族之间存在显著差异。具体而言,Claude 与 GPT 在持续演化场景中的表现,会随着版本更新稳步提升。其中,Opus 4.6 在长周期的编程上证明了其对系统的维护性能最佳;GPT 5.3 由于在 Rust 数据集上表现不佳而拉低了分数,排名在第二位。
(来源:arXiv)
比较出乎意料的是,Gemini 家族呈现出完全不同的趋势:从 3 Flash 到 3 Pro 再到 3.1 Pro,每一代都在早期启动更快、前期表现更好,但其长程表现几乎没有显著提升。邓港大解释道:“Gemini 长周期运行表现的明显衰退,意味着其不仅指令遵循变差,越来越忽视软件规格说明(SRS)的需求,同时对所构造的软件系统缺乏维护。”
当研究人员把整体分数进一步分解为召回率与精确率时,一个更有意思的现象出现了:召回率几乎呈不断上升趋势,接近线性增长。这意味着,哪怕代码库变得越来越混乱、越来越脆弱,Agent 依然擅长实现当前给定的新目标功能。
真正的瓶颈在于精确率:Agent 难以维护现有系统,回归错误积累的速度超过了它们修复这些问题的能力,而这正是长期开发最终停滞的根本原因。
图丨左:错误链示意图;右:错误链分布(来源:arXiv)
为深入理解模型在迭代中失控的根本原因,研究团队提出了错误链(Error Chains)的分析框架。他们从首次出错开始跟踪每个测试,并观察错误在后续 Milestone 中被继承、扩散、跳过还是修复。
结果发现,新问题的产生速度并不会加快,模型甚至会实质性地被动修复部分历史错误,但前置错误的累积速度远超修复速度,最终陷入“技术债破产”。
为 AI Harness 调试提供通用评估
近期,有个非常火热的概念 “Harness Engineering”,希望把软件开发的全部流程配置成适合 Agent 参与的环境。EvoClaw 基准测试提供了这样一个通用且评估长周期代码演进的 playground,适合调试 AI Harness 框架。
例如,本次研究中所提到的失败案例,如果 Agent 突然表现出非常积极的迭代,或不断编辑、不断验证,很可能是 Agent 遇到了困难。在这种情况下,可以通过在对应位置构造护栏,来尽早发现问题、及时人工介入,从而提高效率。
既然模型的架构让 Agent 具有“实现新功能远强于维护长期旧功能”的通用性质,那么,未来是否会催生出新的软件形态以及开发模式?
例如,软件会更强调灵活性、兼容性,更可靠的大规模改动重组;或者是更加的一次性,具体业务逻辑都是实时生成、不需要维护,重点在于强化可复用的组件、基础设施。
研究团队认为,在开发模式上,适当放宽对软件质量的约束,可减少人类的介入次数,来换取更大的吞吐量,最终加速软件的迭代。
邓港大指出,“该研究证明我们正走在一条在正确的道路上,AI 的长期编程能力还没有遇到瓶颈,能够随时间稳定提升。有潜力在突然某一天,由榜单分数的量变,变成改变世界的质变。”
随着技术的发展,未来 AI 有可能会从逐渐减少人类参与软件开发,到 AI 自主提出新的需求来演进代码库,再到 AI 彻底超越人类、抛弃人类,最终实现不断自我进化。
参考资料:
1. 相关论文:https://arxiv.org/pdf/2603.13428
2. 项目主页:https://evo-claw.com/
3.https://ysymyth.github.io/The-Second-Half/
排版:刘雅坤