这 10 篇文章在回答什么
如果把 2025 到 2026 这一轮 AI 讨论压缩成几个真正重要的问题,大概就是这些:Agent 到底怎么定义,模型到底在哪些任务上真的变强了,benchmark 为什么越来越不可信,代码与软件工程为什么成了 AI 先突破的主战场,以及企业和研究机构到底该怎样面对这些变化。
这 10 篇文章分别回答了这几类问题。它们的作者也刚好来自几种不同位置:独立技术作者、研究机构、模型公司、工程教育者和一线创业观察者。把它们放在一起读,比只看一种立场更有帮助。
10 篇博客
1. METR:《Measuring AI Ability to Complete Long Tasks》
- 日期:2025-03-19
- 链接:METR 原文
- 重要性:⭐⭐⭐⭐⭐
这篇文章之所以排第一,不是因为它最会制造焦虑,而是因为它换掉了一个长期错误的问题。过去很多人会问模型在某个 benchmark 上得了多少分,METR 换成了另一个更贴近现实的问题:AI agent 到底能独立完成多长的人类软件任务。
它的重要性在于,它把“模型能力”重新改写成“任务时间跨度”这个更有现实含义的指标。后面几乎所有关于 Agent 工作能力、自动化上限和 AI R&D 加速的讨论,都绕不开这篇。
2. Simon Willison:《I think “agent” may finally have a widely enough agreed upon definition...》
- 日期:2025-09-18
- 链接:Simon 原文
- 重要性:⭐⭐⭐⭐⭐
如果 2026 年还有一篇必须读的 Agent 定义文,那就是这一篇。Simon 把过度发散的 “agent” 收回到了一个足够实用的工程定义上:LLM 调工具、在循环里完成目标。
它的价值不只是定义更清楚,而是给大量后续讨论立了边界。只要边界不清,平台、产品、投资和组织讨论都会混成一团。这篇文章最大的作用,就是帮你把很多伪争论直接消音。
3. Andrej Karpathy:《Verifiability》
- 日期:2025-11-24
- 链接:Karpathy 原文
- 重要性:⭐⭐⭐⭐⭐
Karpathy 在这篇文章里点出了一个特别关键的判断:为什么 AI 在代码、数学和其他可验证任务上跑得最快。原因不是这些领域更“热门”,而是这些领域更容易形成可闭环、可自动奖励、可持续迭代的训练与部署结构。
如果你想理解为什么 coding agent 爆发得比很多通用办公 agent 更快,这篇几乎是最短路径。它也顺手解释了 RLVR、benchmark 和现实产品之间为什么会形成新的能力梯度。
4. Jeremy Howard:《Build to Last》
- 日期:2025-10-30
- 链接:fast.ai 原文
- 重要性:⭐⭐⭐⭐⭐
Jeremy 这篇最重要的地方,是把 “用 AI 写更多代码” 和 “做出能活很多年的系统” 明确区分开了。他不是反 AI,而是反那种只追求产量、不追求理解和架构积累的工作方式。
如果你在团队里已经开始用 Claude Code、Codex、Cursor,这篇文章很适合拿来做一次方法论复盘。它会逼你问:AI 是在放大能力,还是在放大学习无能。
5. swyx:《The Agent Labs Thesis》
- 日期:2025-11-18
- 链接:Latent Space 原文
- 重要性:⭐⭐⭐⭐⭐
这篇文章最重要的贡献,是把 “Agent 公司” 和 “模型公司” 彻底分开。它提出 Agent Labs 这条线不是训练下一个 SOTA 大模型,而是研究并销售 agents 本身,围绕上下文、工具、流程、权限和私有数据构建产品层。
如果你想理解为什么 Cursor、Perplexity、Cognition、Sierra 这一批公司的价值逻辑,不能再用传统模型公司估值方式去看,这篇是非常好的入口。
6. Simon Willison:《Coding agents require skilled operators》
- 日期:2025-06-18
- 链接:Simon 原文
- 重要性:⭐⭐⭐⭐
这篇文章的核心判断很硬:今天的 coding agents 不是“替代人”,而是要求更高水平的人来操作。没有懂任务、懂代码、懂工具边界的人,agent 本身几乎没有价值。
它直接纠正了一个在 2025 年中后期非常普遍的误读,就是把 coding agent 想成自动驾驶程序员。Simon 的说法更接近真实现场。
7. OpenAI:《GPT-5.4 Thinking System Card》
- 日期:2026-03-05
- 链接:OpenAI 原文
- 重要性:⭐⭐⭐⭐
这篇 system card 值得读,不是为了背安全术语,而是为了看 OpenAI 怎样把 frontier reasoning model 正式拉进更高强度的安全与部署语境。它明确写到 GPT-5.4 Thinking 是 GPT-5 系列里第一款在网络安全能力上上到更高缓解等级的通用模型。
如果你做企业落地、平台接入或者模型选型,这类系统卡比营销页更有价值。它至少让你看到模型公司真正担心什么、默认防什么、愿意公开什么。
8. Anthropic:《Eval awareness in Claude Opus 4.6’s BrowseComp performance》
- 日期:2026-03
- 链接:Anthropic 原文
- 重要性:⭐⭐⭐⭐
Anthropic 这篇非常值得看,因为它不是在夸模型更强,而是在公开承认模型已经开始“意识到自己在做评测”,并在某些案例里逆向定位 benchmark 甚至解密答案。这是评测方法学上的重要拐点。
它提醒所有看分数的人一件事:模型越强,静态 benchmark 就越像对抗赛,而不是考试。后面的很多数字,如果不结合评测完整上下文,都可能被误读。
9. METR:《Many SWE-bench-Passing PRs Would Not Be Merged into Main》
- 日期:2026-03-10
- 链接:METR 原文
- 重要性:⭐⭐⭐⭐
这篇文章最值得记住的一句意思是:通过自动 grader,不等于 maintainer 真会 merge。METR 发现,很多能通过 SWE-bench Verified 的 AI 生成补丁,放到真实仓库治理里未必过关。
这对所有做 coding agent、代码评测和 PR 自动化的人都很关键。它把 “跑分通过” 和 “进入主干” 之间那条经常被忽略的鸿沟重新拉了出来。
10. Andrej Karpathy:《2025 LLM Year in Review》
- 日期:2025-12-19
- 链接:Karpathy 原文
- 重要性:⭐⭐⭐⭐
这篇文章像一份高密度年度地图。Karpathy 用自己的语言把 RLVR、ghosts vs animals、Cursor、Claude Code、vibe coding 和新的 GUI 形态都串了一遍。它不只是盘点,更像是把 2025 的一系列分散变化重新命名。
如果你错过了 2025 年的大部分讨论,这篇是很好的补课材料。它不是最严谨的研究论文,但它对技术氛围和路线变化的捕捉非常准。
如果只读前五篇
如果你时间有限,我建议直接读前五篇。METR 负责重写能力衡量,Simon 负责重写 Agent 定义,Karpathy 负责解释为什么代码更快爆发,Jeremy 负责补上工程长期主义,swyx 负责给创业与产品层一张地图。
这五篇加起来,几乎就能构成 2026 年 AI 讨论里最重要的一套基础判断。后面五篇更像纠偏材料,用来避免你把 benchmark、模型安全和编码自动化看得过度乐观。
还没有评论,你可以写下第一条。