Harness Engineering：驯服不确定性的新工程范式

2026 年 2 月 5 日，Mitchell Hashimoto 在一篇博客文章中正式命名了一个概念。

他说：Harness Engineering——围绕 AI 智能体设计和构建约束机制、反馈回路、工作流控制和持续改进循环的系统工程实践。

六天后，OpenAI 发布了一份报告：一个 3-7 人的工程师团队，在五个月内，借助 Codex Agent 构建了约 100 万行代码，且没有一行是人工手写的。

引爆了。

诞生背景：能力爆发与工程困境

理解这个时间点的意义，需要回溯两年。

2023 至 2025 年间，以 GPT-4、Claude 3 和 Codex 为代表的大型语言模型展现出前所未有的代码生成能力。但繁荣背后藏着一个根本性的工程困境：模型能力强但不可控——输出高度不稳定，容易生成无效或错误内容，缺乏持久记忆，没有内置的行为约束手段。

Prompt Engineering 在这里碰壁了。它能优化单次交互的指令表述，但无法管理一个需要运行数周、数月的 Agent 的整体行为。

Harness Engineering 就是在这种张力中生长出来的。

Hashimoto 做了一个清晰的代际区隔：

Prompt Engineering 解决「如何表达」——优化单次交互的指令表述，依赖人工反复调试。

Context Engineering 解决「提供什么信息」——管理上下文状态，通过 RAG 等技术提供背景知识。

Harness Engineering 解决「构建什么系统」——构建约束、反馈和改进的系统环境，让错误变得可控、可追踪、可修复。

每一代都在前一代的基础上向前推了一步。根本的转变是：从「优化单次输出」到「控制系统行为」。

Hashimoto 说过一句话，每次看到都觉得值得细想：

每当发现 Agent 犯了一个错误，就花时间设计一个方案，确保它永远不会再犯同样的错误。

这不是试图让 AI 不犯错——那是不现实的。而是构建一个系统，让错误变得可控、可追踪、可修复。

人类工程师的角色，从「写代码的人」变成了「设计代码生成环境的人」。

OpenAI 走封闭整合路线。优势是与顶尖模型的深度整合，方法论完整性高，百万行代码验证证明了可行性。劣势是无法复现——那是一个拥有无限资源的团队做出来的东西。

Anthropic 走开放协议路线，MCP 协议的发起者。优势是设计优雅、安全可控，协议思维为生态系统奠定了基础。劣势是学习曲线陡峭，生态还小。

LangChain 走开源框架路线。优势是开发者生态最广泛，上手快，灵活性高。其团队在 Terminal Bench 2.0 基准测试中，仅通过优化 Harness（不改变底层模型），编码 Agent 得分从 52.8% 提升至 66.5%，全球排名从第 30 位跃升至第 5 位。

这个「干净对照实验」为「Harness 比模型更重要」的论断提供了强有力的实证支持。

Harness Engineering 的记忆系统也经历了三代演进。

第一代靠上下文窗口——简单，但有限。第二代靠 RAG——可扩展，但检索质量参差不齐。第三代靠分层记忆架构——热数据、温数据、冷数据分层管理，结合语义检索和 LLM 摘要，实现跨会话的持续学习。

这不只是技术演进，更是一种认识论的转变：从「记住一切」到「知道什么值得记住」。

按照 Gartner 技术成熟度曲线的判断，Harness Engineering 当前接近「期望膨胀期」的顶峰，即将进入「幻灭低谷期」。

这个阶段最典型的特征是：概念层面的热度远高于实践层面的成熟度。媒体讨论热烈，但大规模生产环境部署仍然有限；概念被广泛接受，但真正掌握实践能力的人还很少。

未来 1-2 年是关键窗口期。谁能建立可复制的成功案例、谁能降低采纳门槛、谁能构建开发者生态，谁就能把概念领导地位转化为市场领导地位。

Harness Engineering 的历史意义，可能比它表面看起来的更深远。

它首次系统性地将「非确定性计算」纳入软件工程的理论框架。传统软件工程建立在确定性假设上——给定输入，程序应该产生确定输出。但 AI Agent 的输出天然是非确定性的。

Harness Engineering 不是试图消除这种不确定性，而是学会与它共处。

这带来了一系列根本性的改变：

它还催生了一个新职业的出现：Harness 工程师——专门负责设计、构建和优化 Agent 运行环境的工程师。

参考：Mitchell Hashimoto《Harness Engineering》、OpenAI 官方报告、Anthropic《Effective Harnesses for Long-Running Agents》、LangChain 博客