你感觉到的那种提速,不是错觉
如果你最近几个月一直在用 AI 写代码,应该会有一种很难忽略的感觉:同样是“让模型帮忙干活”,现在的体验和半年前已经很不一样了。
以前更像补全,后来更像问答,再后来开始更像协同完成任务。很多人能明显感觉到变快了,但又说不清到底是哪一层变了。Karpathy 的年度回顾有价值的地方,就在于它能帮你把这种变化拆成结构。
真正一起变掉的,是底层条件
2025 年的重要性,不在于模型分数又涨了多少,而在于几件本来分散的事开始互相咬合。
训练方式在变,推理方式在变,可验证奖励在变,代码任务的可操作性也在变。等这些东西叠在一起,应用层突然就不再只是“问一句,答一句”,而开始像真正的工作流。
这也是为什么很多普通开发者会有一种突然被追上的感觉。很多时候,底层条件终于开始支持更像样的协作了。
你可以把它想成,原来很多 AI 工具像是会说话的搜索框,现在它们更像开始摸到“替你推进一小段工作”的门槛了。
去年你把一个需求丢给模型,它大概率还停在“给你一个思路”这层;现在同样一条需求,它可能已经会先读仓库、列计划、改两三个文件、跑一次测试,再把剩下的风险点告诉你。体感上的差异,就是这样一点点累出来的。
对开发者来说,这篇像一张时间地图
这篇对开发者的价值,是它能帮你把自己的体感放回一条更清楚的时间线。
你会意识到,自己过去几个月并不是随机试了几款新工具,你是在经历一种工作方式的切换。你从补全代码,走到了和系统协同推进任务。这个变化会继续往前走,不太可能再退回去。
一旦看清这一点,你就更容易判断:哪些新工具只是换壳,哪些是真的在代表下一代工作方式。
这对普通开发者很有用,因为它会让你少掉一种焦虑。你不必每周都追一遍新品发布,只要盯住几个更实在的信号就行:它能不能处理更长上下文,它能不能自己验证,它是只会答题还是已经能推进任务。抓住这三个维度,很多看起来花哨的变化就会突然变得可判断。
产品和测试会比想象中更早受影响
产品会看到 AI 功能正在从“能演示”走向“能接任务”。以前一个 AI 功能只要看起来聪明就能让人兴奋,现在大家会更自然地问:那它到底能不能真的持续帮我把事情做完。
测试则会更早面对另一种变化。测试对象不再只是答案像不像、页面漂不漂亮,重心会慢慢转到整条任务链会不会中途崩掉、漂移或失控。也就是说,Agent 时代的测试天然更像系统测试。
一个特别直观的例子,是“让 AI 帮你处理客户工单”这类场景。去年很多产品还停在给客服建议回复;现在大家已经会追问,它能不能去查订单、能不能补资料、能不能自动升级工单、能不能在失败后把现场留下来。这里每多一步,背后都意味着工作流范式在往前走。
对 Agent Engineer 最有用的一点
这类年度回顾对 Agent Engineer 的真正用途,是逼你更新自己的系统假设,而不是帮你背更多新词。
比如:哪些能力已经足够稳定可以进生产,哪些还只是看起来很猛;哪些变化会真正改写工作流,哪些只是演示层更好看。能把这些假设更新对,后面的技术判断通常也会更稳。
一个很简单的回看动作
回头看你 6 个月前最常用的一种 AI 协作方式,写下它今天已经被什么替代了。比如“只拿来补全函数”是不是已经变成了“让它先读 ticket 再开工”,“只让它解释报错”是不是已经变成了“让它自己重现并给出修法”。只要你认真写这一步,就会发现自己其实早就已经站在这波变化里面。
更新附注
- 版本:v1.1
- 更新日期:2026-03-20
- 更新原因:为系列文章补充统一阅读序号,方便读者按推荐路线进入趋势回看部分。
还没有评论,你可以写下第一条。