06｜2025 年，Agent 编程为什么突然变了

过去一年如果你总觉得模型、Agent、写代码方式都像在突然提速，这篇可以帮你把变化串起来。Karpathy 的价值，在于他把 2025 年几个真正改变格局的转折点挑了出来。

如果你最近几个月一直在用 AI 写代码，应该会有一种很难忽略的感觉：同样是“让模型帮忙干活”，现在的体验和半年前已经很不一样了。

以前更像补全，后来更像问答，再后来开始更像协同完成任务。很多人能明显感觉到变快了，但又说不清到底是哪一层变了。Karpathy 的年度回顾有价值的地方，就在于它能帮你把这种变化拆成结构。

2025 年的重要性，不在于模型分数又涨了多少，而在于几件本来分散的事开始互相咬合。

训练方式在变，推理方式在变，可验证奖励在变，代码任务的可操作性也在变。等这些东西叠在一起，应用层突然就不再只是“问一句，答一句”，而开始像真正的工作流。

这也是为什么很多普通开发者会有一种突然被追上的感觉。很多时候，底层条件终于开始支持更像样的协作了。

你可以把它想成，原来很多 AI 工具像是会说话的搜索框，现在它们更像开始摸到“替你推进一小段工作”的门槛了。

去年你把一个需求丢给模型，它大概率还停在“给你一个思路”这层；现在同样一条需求，它可能已经会先读仓库、列计划、改两三个文件、跑一次测试，再把剩下的风险点告诉你。体感上的差异，就是这样一点点累出来的。

这篇对开发者的价值，是它能帮你把自己的体感放回一条更清楚的时间线。

你会意识到，自己过去几个月并不是随机试了几款新工具，你是在经历一种工作方式的切换。你从补全代码，走到了和系统协同推进任务。这个变化会继续往前走，不太可能再退回去。

一旦看清这一点，你就更容易判断：哪些新工具只是换壳，哪些是真的在代表下一代工作方式。

这对普通开发者很有用，因为它会让你少掉一种焦虑。你不必每周都追一遍新品发布，只要盯住几个更实在的信号就行：它能不能处理更长上下文，它能不能自己验证，它是只会答题还是已经能推进任务。抓住这三个维度，很多看起来花哨的变化就会突然变得可判断。

产品会看到 AI 功能正在从“能演示”走向“能接任务”。以前一个 AI 功能只要看起来聪明就能让人兴奋，现在大家会更自然地问：那它到底能不能真的持续帮我把事情做完。

测试则会更早面对另一种变化。测试对象不再只是答案像不像、页面漂不漂亮，重心会慢慢转到整条任务链会不会中途崩掉、漂移或失控。也就是说，Agent 时代的测试天然更像系统测试。

一个特别直观的例子，是“让 AI 帮你处理客户工单”这类场景。去年很多产品还停在给客服建议回复；现在大家已经会追问，它能不能去查订单、能不能补资料、能不能自动升级工单、能不能在失败后把现场留下来。这里每多一步，背后都意味着工作流范式在往前走。

这类年度回顾对 Agent Engineer 的真正用途，是逼你更新自己的系统假设，而不是帮你背更多新词。

比如：哪些能力已经足够稳定可以进生产，哪些还只是看起来很猛；哪些变化会真正改写工作流，哪些只是演示层更好看。能把这些假设更新对，后面的技术判断通常也会更稳。

回头看你 6 个月前最常用的一种 AI 协作方式，写下它今天已经被什么替代了。比如“只拿来补全函数”是不是已经变成了“让它先读 ticket 再开工”，“只让它解释报错”是不是已经变成了“让它自己重现并给出修法”。只要你认真写这一步，就会发现自己其实早就已经站在这波变化里面。