Agent 评测必须回到真实任务链条
Agent 评测不能只看一次回答是否正确。真实任务链条里还包括目标理解、工具选择、状态恢复、人工交互、成本记录、风险暴露、失败处理和上线条件。
- Agent 评测对象应是完整任务过程,而不只是最后答案。
技术、行业、人物与 Agent 系统观察。只保留能穿过噪声的材料。
只看最近 7 天真正会改变工程或产品判断顺序的 AI 论文,不做摘要搬运。
Reading Path
先读 00 看筛选口径,之后只沿最近 7 天窗口滚动更新。Latest Archive
论文精选 时间线。
Agent 评测不能只看一次回答是否正确。真实任务链条里还包括目标理解、工具选择、状态恢复、人工交互、成本记录、风险暴露、失败处理和上线条件。
最近几篇 Agent memory 论文给出的共同判断很清楚:长期记忆不能只是把历史塞进向量库,而要管理写入、检索、更新、遗忘、调度和成本。
这一周最值得看的论文,都在把 agent 从演示推回工程约束:沙箱回滚、隐藏测试、PR 结果解释、终端真实任务、越权行为和系统级安全。
这条线只看最近 7 天值得工程和产品层继续跟进的 AI 论文,重点判断问题定义、证据强度和落地价值,不做摘要搬运,也不追每天的热点论文名单。