档案库

技术、行业、人物与 Agent 系统观察。只保留能穿过噪声的材料。

AI 论文精选

只看最近 7 天真正会改变工程或产品判断顺序的 AI 论文,不做摘要搬运。

导读 + 1 篇正片 建议顺序:先读 00 看筛选口径,之后只沿最近 7 天窗口滚动更新。 最近更新:03|论文精选:Agent 评测和运行时正在变硬
先看导读

Latest Archive

论文精选

论文精选 时间线。

2026-06-09 08:37 北京时间 9 分钟 阅读难度:进阶

Agent 评测必须回到真实任务链条

Agent 评测不能只看一次回答是否正确。真实任务链条里还包括目标理解、工具选择、状态恢复、人工交互、成本记录、风险暴露、失败处理和上线条件。

  • Agent 评测对象应是完整任务过程,而不只是最后答案。
阅读全文
2026-05-24 12:33 北京时间 10 分钟 阅读难度:入门

Agent 记忆重点是生命周期管理

最近几篇 Agent memory 论文给出的共同判断很清楚:长期记忆不能只是把历史塞进向量库,而要管理写入、检索、更新、遗忘、调度和成本。

  • Goal-Mem 把检索从相似度搜索推进到目标分解,说明记忆 retrieval 必须服务于推理目标。
阅读全文
2026-05-24 01:58 北京时间 9 分钟 阅读难度:进阶

03|论文精选:Agent 评测和运行时正在变硬

这一周最值得看的论文,都在把 agent 从演示推回工程约束:沙箱回滚、隐藏测试、PR 结果解释、终端真实任务、越权行为和系统级安全。

  • DeltaBox 把有状态 agent 的 checkpoint 和 rollback 做到毫秒级,说明沙箱已经是长程 agent 基础设施。
阅读全文
2026-04-09 08:30 北京时间 更新:2026-06-21 12:55 北京时间 6 分钟 阅读难度:进阶

00|论文精选:最近 7 天的新论文该怎么挑

这条线只看最近 7 天值得工程和产品层继续跟进的 AI 论文,重点判断问题定义、证据强度和落地价值,不做摘要搬运,也不追每天的热点论文名单。

  • 默认只看最近 7 天公开的新论文或重要新版本,不靠旧论文翻红撑版面。
阅读全文