从实践到原则:Harness Engineering 的落地方法
Harness Engineering 不是给 Agent 多接几个工具,而是把代码仓库、执行环境、验证门禁和反馈回路改造成 Agent 可读、可控、可评估的工程系统,让 AI 真正能在真实项目里稳定交付。
- Harness Engineering 的对象不是单个模型,而是 Agent 所处的整个工程执行环境与治理回路。
这里汇总的是 Freelemon 的长文。现在列表页不再只有单一时间线,而是把搜索、标签和专题阅读放到同一层里: 技术沉思 偏系统、方法与工程判断, 访谈 偏一手观点整理与人物表达, 行业观察 偏竞争格局、平台变化与商业判断。
Harness Engineering 不是给 Agent 多接几个工具,而是把代码仓库、执行环境、验证门禁和反馈回路改造成 Agent 可读、可控、可评估的工程系统,让 AI 真正能在真实项目里稳定交付。
Pi 的核心并不神秘:它用 `createAgentSession()` 把模型、资源加载、工具集合、会话树和运行模式装配起来,再由 `AgentSession` 接管工具执行、上下文管理、自动压缩与 RPC 集成。
AI 已经能写代码、审代码,甚至自己在 PR 里给出修改建议;但如果 review 只剩“高吞吐检查”和形式签字,它就不再是软件工程里的真正 review。真正的问题不是 AI 能不能看,而是谁还真的看懂、敢签字、能兜底。
Ars Technica 的假引语风波真正警示的,不只是新闻业会被 AI 绊倒,而是当代码生成速度远超人类核验速度时,软件工程的责任链、风险边界和上线契约都需要重写。
在 AI Agent 时代,Martin Fowler 之所以仍然很重要,不是因为他代表旧时代的架构教科书,而是因为当生成变快、代理变多、系统边界更容易被穿透时,重构、边界划分、渐进式演化和技术判断反而比以前更像硬约束。
AI Agent 时代如果有一种基础设施级的默认语言,几乎就是 Python;Guido van Rossum 依然重要,不只因为他创造了 Python,更因为他把可读性、演化节奏与工程现实捏成了稳定底座。
如果说 AI 编程正在把代码生成这件事推到前所未有的速度上,那么 Kent Beck 之所以依然重要,是因为反馈回路、整洁设计和小步试错这些老办法,恰好是驾驭这种速度最可靠的刹车与方向盘。
在 AI 越来越快地产生代码之后,Robert C. Martin 之所以仍值得重读,不是因为他代表过去,而是因为测试、边界、命名和职业责任这些老问题,正在被生成式工具重新放大。
如果说 AI 编程工具正在从补全器变成能拆任务、会写代码、会组织工作流的代理,那么 Steve Yegge 是最早一批把这条路讲清楚、写透并持续鼓动行业往前走的人。
这 48 小时里,我真正搭起来的不是一个会发文章的页面,而是一套能长期写下去的个人母站:草稿在本地,发布可校验,内容能归档,也能继续分发到各个平台。
AI Agent 不是更会聊天的聊天框,而是能围绕目标读取上下文、调用工具、执行步骤并根据结果继续推进的系统。先把编程 Agent 这条线看懂,很多基础概念都会立刻落地。
Java 后端转向 AI Agent,并不是从零改行,而是把过去积累的系统边界感、异常经验和工具工程能力,重新组织成运行时、评测闭环和治理能力。
如果你还把 AI Agent 工程师理解成“更会写 Prompt 的人”,那大概率会转错方向。真正有价值的 Agent 工程,是把模型、工具、状态、评测和治理串成可交付系统能力。
“SSE 可以让 WebSocket 退役”这种说法,方向对了一半,但结论下得太满。更准确的判断是:在浏览器里的单向实时推送和文本流场景里,SSE 常常是更稳妥的默认值。
Agent 的长期价值,主要不在喂了多少数据,也不在反复微调模型,而在持续沉淀任务拆解、工具调用、异常处理和验证标准这些可迁移的 knowhow。
长时间 Agent 的真正难点,不在单步够不够聪明,而在跨很多轮、很多上下文和很多工具调用之后,能不能继续保持状态连续、结果可验证和错误可恢复。
如果一个 Agent 要连续运行二十分钟、两小时甚至更久,系统默认该长什么样?这篇文章把分层架构、状态模型、检查点、验证和上线顺序全部拆开讲清楚。