断崖式下跌！最强AI也搞不定长期开发：代码堆得越多系统崩得越快

写一个函数，AI 几乎无敌；但维护一个系统，为何 AI 开始崩溃？

目前，人工智能已经进入到“下半场”。随着 AI 编程能力不断提升，OpenClaw 等产品逐渐兴起，“CLI everything”正在成为现实，即 AI 不需要操作电脑，而是将所有的接口改为命令行界面（CLI），一个个技能正转变成一个个软件功能。

现在，Agent 已不仅仅是执行单次任务的对话工具，而是正在向长期运营、与真实世界交互、执行复杂任务的系统发展。然而，一个新的问题出现了：在持续演进的过程中，AI 能不断适应新环境并保持开发能力稳定吗？

腾讯“CEO/总裁办公室”首席 AI 科学家姚顺雨曾在一篇题为“The Second Half”的博客中提到，真实编程任务是连续依赖的，不是独立并行的，但当下学界没有这样的基准来评估 AI 在该场景下所需要的能力，甚至缺乏勇气打破任务间相互独立的假设——长久以来被广泛接受，用于简化问题。

近期，美国南加州大学、加利福尼亚大学河滨分校、斯坦福大学、普林斯顿大学、OpenHands 等联合团队发布了一项全新评估基准 EvoClaw，为上述问题上提出了新方案。研究团队从开源项目中提取高质量代码演进历史，让 Agent 在同一代码库上连续完成数十个相互依赖的功能迭代。

结果显示，顶尖 AI 能在独立评估任务中表现优异（得分 80%+），一旦进入长周期的真实场景，即便是综合得分最高的 Claude Opus 4.6 也只获得了 38.03% 的得分。这意味着，AI 对于执行自由度更高的任务容易偏离轨迹，其距离真正能够处理长周期、连续的软件演进工作仍存在显著差距。

（来源：arXiv）

这项研究揭示，AI 在长期演进中极易陷入滚雪球式的技术债。尽管能持续添加新功能，却无法控制回归错误累积，最终导致系统失控。这也意味着，AI 编程正从写代码向系统治理转折。

相关论文以《EvoClaw：面向持续软件演进的 AI 智能体评估基准》（EvoClaw: Evaluating AI Agents on Continuous Software Evolution）为题，近期发表在预印本网站 arXiv[1]。

图丨相关论文（来源：arXiv）

现有 AI 编程评测与真实体验错位，问题出在哪里？

为何独立测评获得高分的顶尖模型，在 EvoClaw 测评中集体失利？问题的根源在于评测范式变了。

在以往研究中，主流编程测评基准（benchmark）多数聚焦于独立任务：给定一个议题（issue）或拉取请求（PR，Pull Request），模型在静态的代码快照上完成修复，验证通过即完成测评。

但以往基准测评成绩与现实开发能力之间，存在着一道不容忽视的鸿沟：静态环境是一种相对理想的状态，而真实环境则是更为复杂和动态的。随着时间的演进，即便是数月前的微小 bug，经过版本迭代后也可能像滚雪球那样越来越大，进而导致系统崩溃。

（来源：arXiv）

该论文第一作者、南加州大学博士生邓港大对 DeepTech 表示：“现有的 commit 以及 release 粒度，要么过于琐碎要么过于粗糙。因此，这些开发历史并不能体现软件演进的过程。”

图丨邓港大（来源：受访者）

研究团队首次将时间维度引入 AI 编程能力的评估体系，采用了一种全新层级——里程碑（Milestone），对软件演进的历史进行重构，能够兼具语义完整性和演进依赖关系保留能力的功能单元。其要求 AI 在同一代码库上按序完成多个功能单元，这样不仅保留了每一步产出还成为下一步的起点。

（来源：arXiv）

为了支持从大量开源代码库中提取出高质量软件演进历史，研究人员基于顶尖 AI 强大的能力，提出了一套 Agent 驱动的自动化流水线 DeepCommit，首次实现将嘈杂的 Git 开发记录重构为可验证、功能内聚的里程碑任务依赖图（Milestone DAG），并为每一个里程碑构造出评估环境。主要包括三个阶段：Git 历史预处理、Agent 驱动的 DAG 构建以及里程碑环境配置与验证。

实际上，用 Milestone 对 Agent 历史演进进行重构并非易事，因为它不只是要构造一个静态的、可纯粹被观测的 DAG，而是要一连串可以被执行的评估环境，还要在演进依赖变更的同时保证正确性。

这意味着，当打乱 commit 的整体顺序并把它重新聚类连接时，可能会面临 commit 无法应用、接口对不齐以及编译大面积报错的情况。针对该问题，研究人员设计了一套迭代式修复循环：Agent 主动分析报错日志、动态修改 Dockerfile 确保可执行。

更关键的是，它会基于原有 DAG 补充被遗漏的隐式依赖，通过调整 Milestone 的先后约束关系让接口冲突问题得以妥善解决。经过反复迭代，最终实现正确收集 87.1% 的原有测试用例。

“与单个编程任务场景相比，稳定、可靠、有效的长周期自主编程是更前沿的研究热点，例如 Anthropic、OpenAI 就明确表明他们已经将重心转移到训练模型的长周期编程能力。”邓港大表示。

图丨 DeepCommit 流水线架构图（来源：arXiv）

研究人员将 DeepCommit 自动生成的演进图与人类专家的手动标注进行对比，让他们感到意外的是，二者采用了不同的组织逻辑且互为补充。

具体而言，人类专家的 Milestone 通常在局部时间窗口内，先定议题再归拢提交，是一种自上而下的语义切分；DeepCommit 为保证绝对准确性，从提交之间的依赖关系出发，自下而上地重建软件演进脉络，更强调拓扑结构与执行约束。

对评测而言，这恰恰说明 DeepCommit 关键在于从代码开发历史中提炼出一套可执行、可验证的里程碑结构。从结果来看，DeepCommit 能筛选出高质量、适合评估的 Milestone 任务，并且在真实环境中可执行、可验证，为评测可靠性提供了保障。

一进入真实开发，模型成绩为何集体“腰斩”？

EvoClaw 覆盖五种主流语言，包括 Python、Java、Go、Rust 和 TypeScript，选取的项目横跨最长真实开发周期达 750 天。

在评测指标方面，研究团队未采取简单的通过率，而是引入了两个更核心的维度——召回率（Recall）与精确率（Precision）的 F1 加权作为每个 Milestone 的评分。其中，召回率用于衡量功能实现完备性，而精确率则捕捉模型在新增功能时破坏既有代码的程度。

研究团队对 Claude Code、OpenHands 等多种框架和模型组合进行测试。结果显示，在独立评测中得分普遍在 80%-90% 的顶尖模型，在进行 EvoClaw 基准测试后集体断崖式下降，其中最高得分的 Claude Opus 4.6 仅获得 38.03% 得分。

图丨 EvoClaw 主要实验结果（来源：arXiv）

GPT 5.3 Codex 以 28.88% 的综合得分仅次于 Opus4.6，位居第二。分仓库来看，GPT 5.3 Codex 在两个 Rust 项目（Nushell、ripgrep）上表现较弱，在其余仓库上则能接近甚至超过 Opus4.6。在完整解决率方面，得分最高的 Gemini 3 Pro 也只有 13.37%，并且绝大部分能正确实现的都是没有前置依赖的任务。

据了解，研究人员将整体开销控制在合理范围内，以 Claude Opus 4.5 为例，完整测评一次的成本约为 500 美元，Kimi K2.5 以及 Gemini 3 Flash 则在 50 美元以内，小模型的开销会更低。

（来源：arXiv）

那么，如果给模型更长的开发窗口，它最终能 100% 把项目搞定吗？

研究给出了否定答案：无论开发窗口多长，所有模型的表现最终都会撞上“天花板”。任务执行顺序越靠后、所处 DAG 层级越深，分数和解决率就越低。饱和函数外推结果证明，即便是最优的 Opus 4.6，累计分数也会被卡死在 45% 左右的渐近线上。

“尽管 Opus 4.6 在 Anthropic 官网中提到比 4.5 在长周期的任务中表现更好，但是并没有给出详细的评估指标，EvoClaw 算是从另一个角度验证了他们的说法。”邓港大表示。

此外，从实验中还看到了不同模型家族之间存在显著差异。具体而言，Claude 与 GPT 在持续演化场景中的表现，会随着版本更新稳步提升。其中，Opus 4.6 在长周期的编程上证明了其对系统的维护性能最佳；GPT 5.3 由于在 Rust 数据集上表现不佳而拉低了分数，排名在第二位。

（来源：arXiv）

比较出乎意料的是，Gemini 家族呈现出完全不同的趋势：从 3 Flash 到 3 Pro 再到 3.1 Pro，每一代都在早期启动更快、前期表现更好，但其长程表现几乎没有显著提升。邓港大解释道：“Gemini 长周期运行表现的明显衰退，意味着其不仅指令遵循变差，越来越忽视软件规格说明（SRS）的需求，同时对所构造的软件系统缺乏维护。”

当研究人员把整体分数进一步分解为召回率与精确率时，一个更有意思的现象出现了：召回率几乎呈不断上升趋势，接近线性增长。这意味着，哪怕代码库变得越来越混乱、越来越脆弱，Agent 依然擅长实现当前给定的新目标功能。

真正的瓶颈在于精确率：Agent 难以维护现有系统，回归错误积累的速度超过了它们修复这些问题的能力，而这正是长期开发最终停滞的根本原因。

图丨左：错误链示意图；右：错误链分布（来源：arXiv）

为深入理解模型在迭代中失控的根本原因，研究团队提出了错误链（Error Chains）的分析框架。他们从首次出错开始跟踪每个测试，并观察错误在后续 Milestone 中被继承、扩散、跳过还是修复。

结果发现，新问题的产生速度并不会加快，模型甚至会实质性地被动修复部分历史错误，但前置错误的累积速度远超修复速度，最终陷入“技术债破产”。

为 AI Harness 调试提供通用评估

近期，有个非常火热的概念 “Harness Engineering”，希望把软件开发的全部流程配置成适合 Agent 参与的环境。EvoClaw 基准测试提供了这样一个通用且评估长周期代码演进的 playground，适合调试 AI Harness 框架。

例如，本次研究中所提到的失败案例，如果 Agent 突然表现出非常积极的迭代，或不断编辑、不断验证，很可能是 Agent 遇到了困难。在这种情况下，可以通过在对应位置构造护栏，来尽早发现问题、及时人工介入，从而提高效率。

既然模型的架构让 Agent 具有“实现新功能远强于维护长期旧功能”的通用性质，那么，未来是否会催生出新的软件形态以及开发模式？

例如，软件会更强调灵活性、兼容性，更可靠的大规模改动重组；或者是更加的一次性，具体业务逻辑都是实时生成、不需要维护，重点在于强化可复用的组件、基础设施。

研究团队认为，在开发模式上，适当放宽对软件质量的约束，可减少人类的介入次数，来换取更大的吞吐量，最终加速软件的迭代。

邓港大指出，“该研究证明我们正走在一条在正确的道路上，AI 的长期编程能力还没有遇到瓶颈，能够随时间稳定提升。有潜力在突然某一天，由榜单分数的量变，变成改变世界的质变。”

随着技术的发展，未来 AI 有可能会从逐渐减少人类参与软件开发，到 AI 自主提出新的需求来演进代码库，再到 AI 彻底超越人类、抛弃人类，最终实现不断自我进化。

参考资料：

1. 相关论文：https://arxiv.org/pdf/2603.13428

2. 项目主页：https://evo-claw.com/

3.https://ysymyth.github.io/The-Second-Half/

排版：刘雅坤