Harness Engineering:驯服不确定性的新工程范式

从 Prompt Engineering 到 Context Engineering,再到 Harness Engineering——人类在 AI 时代的位置正在被重新定义。

2026 年 2 月 5 日,Mitchell Hashimoto 在一篇博客文章中正式命名了一个概念。

他说:Harness Engineering——围绕 AI 智能体设计和构建约束机制、反馈回路、工作流控制和持续改进循环的系统工程实践。

六天后,OpenAI 发布了一份报告:一个 3-7 人的工程师团队,在五个月内,借助 Codex Agent 构建了约 100 万行代码,且没有一行是人工手写的。

引爆了。

诞生背景:能力爆发与工程困境

理解这个时间点的意义,需要回溯两年。

2023 至 2025 年间,以 GPT-4、Claude 3 和 Codex 为代表的大型语言模型展现出前所未有的代码生成能力。但繁荣背后藏着一个根本性的工程困境:模型能力强但不可控——输出高度不稳定,容易生成无效或错误内容,缺乏持久记忆,没有内置的行为约束手段。

Prompt Engineering 在这里碰壁了。它能优化单次交互的指令表述,但无法管理一个需要运行数周、数月的 Agent 的整体行为。

Harness Engineering 就是在这种张力中生长出来的。

三代工程范式

Hashimoto 做了一个清晰的代际区隔:

Prompt Engineering 解决「如何表达」——优化单次交互的指令表述,依赖人工反复调试。

Context Engineering 解决「提供什么信息」——管理上下文状态,通过 RAG 等技术提供背景知识。

Harness Engineering 解决「构建什么系统」——构建约束、反馈和改进的系统环境,让错误变得可控、可追踪、可修复。

每一代都在前一代的基础上向前推了一步。根本的转变是:从「优化单次输出」到「控制系统行为」。

核心哲学:人类掌舵,智能体执行

Hashimoto 说过一句话,每次看到都觉得值得细想:

每当发现 Agent 犯了一个错误,就花时间设计一个方案,确保它永远不会再犯同样的错误。

这不是试图让 AI 不犯错——那是不现实的。而是构建一个系统,让错误变得可控、可追踪、可修复。

人类工程师的角色,从「写代码的人」变成了「设计代码生成环境的人」。

三条技术路线

OpenAI 走封闭整合路线。优势是与顶尖模型的深度整合,方法论完整性高,百万行代码验证证明了可行性。劣势是无法复现——那是一个拥有无限资源的团队做出来的东西。

Anthropic 走开放协议路线,MCP 协议的发起者。优势是设计优雅、安全可控,协议思维为生态系统奠定了基础。劣势是学习曲线陡峭,生态还小。

LangChain 走开源框架路线。优势是开发者生态最广泛,上手快,灵活性高。其团队在 Terminal Bench 2.0 基准测试中,仅通过优化 Harness(不改变底层模型),编码 Agent 得分从 52.8% 提升至 66.5%,全球排名从第 30 位跃升至第 5 位。

这个「干净对照实验」为「Harness 比模型更重要」的论断提供了强有力的实证支持。

记忆的演进

Harness Engineering 的记忆系统也经历了三代演进。

第一代靠上下文窗口——简单,但有限。第二代靠 RAG——可扩展,但检索质量参差不齐。第三代靠分层记忆架构——热数据、温数据、冷数据分层管理,结合语义检索和 LLM 摘要,实现跨会话的持续学习。

这不只是技术演进,更是一种认识论的转变:从「记住一切」到「知道什么值得记住」。

当前阶段:标准之争与生态成型

按照 Gartner 技术成熟度曲线的判断,Harness Engineering 当前接近「期望膨胀期」的顶峰,即将进入「幻灭低谷期」。

这个阶段最典型的特征是:概念层面的热度远高于实践层面的成熟度。媒体讨论热烈,但大规模生产环境部署仍然有限;概念被广泛接受,但真正掌握实践能力的人还很少。

未来 1-2 年是关键窗口期。谁能建立可复制的成功案例、谁能降低采纳门槛、谁能构建开发者生态,谁就能把概念领导地位转化为市场领导地位。

意义:一次工程认识论的转变

Harness Engineering 的历史意义,可能比它表面看起来的更深远。

它首次系统性地将「非确定性计算」纳入软件工程的理论框架。传统软件工程建立在确定性假设上——给定输入,程序应该产生确定输出。但 AI Agent 的输出天然是非确定性的。

Harness Engineering 不是试图消除这种不确定性,而是学会与它共处。

这带来了一系列根本性的改变:

它还催生了一个新职业的出现:Harness 工程师——专门负责设计、构建和优化 Agent 运行环境的工程师。


参考:Mitchell Hashimoto《Harness Engineering》、OpenAI 官方报告、Anthropic《Effective Harnesses for Long-Running Agents》、LangChain 博客