这条线看什么

这条线不做论文摘要搬运。

它只处理最近 7 天公开的新论文或重要新版本,但前提是这篇论文会改变工程或产品层的判断顺序。很多论文有新意,却不影响今天怎么做系统、怎么配资源、怎么选评测。那类工作可以先放着。

这里默认只看四类对象:Agent 方法、模型工程、推理与训练基础设施、评测与数据方法。离这些主线太远的工作,不进这一栏。

为什么叫「论文精选」

「论文精读」适合单篇长文。它强调完整展开、背景铺垫和方法拆解。

首页这条线的任务不同。它是一个最近 7 天的滚动入口,要先替读者做筛选,再决定哪篇值得单独展开。如果每次都写成精读,很快会失去更新节奏,也会把大量暂时不值得深挖的论文抬得过高。

所以这里叫「论文精选」。先回答值不值得跟,再决定要不要另开长文。

默认筛选口径

第一,只看最近 7 天公开的新论文或重要新版本。旧论文突然翻红,不自动算新信号。

第二,只看会影响工程或产品判断的工作。纯理论推进、但短期没有落地接口的研究,可以先记,不必进正文。

第三,要过证据检查。至少要看清四件事:

  • 问题定义是否明确,是否在解决真实而具体的瓶颈
  • 实验设定是否清楚,baseline 和评价指标是否站得住
  • 结论边界是否交代清楚,有没有把局部结果拔高成普遍规律
  • 是否有代码、附录、训练细节或足够可核验的实现入口

第四,每次最多留 1-2 篇。数量一多,筛选本身就失效了。

默认信号源

优先从 arXiv、Hugging Face Papers 和主要会议页面找入口,例如 ICLR、NeurIPS、ICML、ACL、EMNLP、CVPR。

机构研究博客、作者社媒和论文聚合号可以帮助发现线索,但不能替代原论文、附录、代码仓库和正式评测材料。

这条线怎么更新

默认按天检查,但窗口固定只看最近 7 天。

如果当天第一篇长文已经在处理某篇论文或某条研究方向,就直接把更新并进那篇文章;没有合适稿件时,再单独更新这一篇。

如果最近 7 天没有足够硬的新论文,就保留上一版。对这条线来说,不更新比硬凑更有价值。

本周先看哪几篇论文

这一周最值得跟的不是“大模型又多强”,而是 Agent 系统里状态、恢复和成本目标开始被单独拿出来研究。

第一篇先看 LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents。它把客户服务类 tool-calling agent 的任务状态单独维护成 ledger,再在执行会改变环境的工具调用前检查状态依赖的 policy 约束。这个问题很工程化:Agent 不是不知道规则,而是多轮工具调用之后很容易拿错、漏掉或过期使用状态。

第二篇看 Execution-State Capsules。它讨论的不只是 KV cache,而是把完整可恢复执行状态做成 checkpoint / restore / fork / rollback 的边界。对低延迟、小批量、端侧或物理 AI 场景来说,这类工作说明 Agent runtime 之后会越来越像可恢复执行系统。

第三篇 Caching for Dollars, Not Hits 不直接讲 Agent,但值得放进候选池。它提醒我们,基础设施优化目标不能只看命中率,还要看真实账单。Agent 长任务越多,类似“按美元而不是按技术指标优化”的思路会越来越重要。

这一周建议先读 LedgerAgent,再读 Execution-State Capsules。第三篇适合做基础设施成本视角的补充。

这条线最重要的价值

这条线最有价值的部分,重点是尽快排除那些暂时不值得花时间的论文。

值得留在这里的工作,要么改变系统设计的优先级,要么改变评测口径,要么让某类成本结构出现新拐点。做不到这三类影响,通常还不到首页滚动跟进的级别。

更新附注

  • 版本:v1.1

更新日期:2026-06-21 更新原因:补充本周论文候选,突出 Agent 状态、执行恢复和基础设施成本三个方向。