Harness：AI Agent 的「操作系统」

AI Agent 市场正以 46.3% 的年复合增长率扩张，预计从 2024 年的 52.5 亿美元增长至 2030 年的 526.2 亿美元。79% 的企业已采用 AI Agent，其中 19% 已全面部署。

但大多数讨论集中在模型能力上——GPT-4 比 Claude 3 强多少，哪家 API 更便宜。而真正决定 Agent 能否在生产环境可靠运行的，是另一个被忽视的层次：Harness。

TL;DR： Harness 是包裹在 AI Agent 外层的控制系统，是智能体的「操作系统」和「项目经理」。它不给 Agent 提供思考能力，而是通过上下文管理、状态持久化、错误处理确保 Agent 稳定、可靠、长期地运行。

三层架构：理解 AI 工程的全景

当前行业已形成清晰的三层架构共识：

Framework（框架层） 解决「怎么写」——如何构建 Agent。代表产品 LangChain、LlamaIndex、OpenAI Agents SDK。核心价值是提供抽象能力，降低上手难度。

Runtime（运行时层） 解决「怎么跑」——如何在生产环境可靠执行。代表产品 LangGraph、Temporal。核心能力包括持久化执行（Agent 崩溃后可从断点恢复）、状态管理（跨会话保持上下文）、人机协作（支持人工审批介入）。

Harness（工具集层） 解决「怎么用」——如何快速部署和使用。代表产品 DeepAgents、Claude Agent SDK。核心价值是预设工具和提示词，开箱即用，生产就绪。

维度	Framework	Runtime	Harness
抽象程度	中	低	高
易用性	中	低	高
生产就绪	中	高	高
灵活性	高	中	低

三层不是替代关系，而是叠加关系。Framework 提供构建能力，Runtime 提供运行环境，Harness 提供使用体验。就像一辆车：底盘和控制系统是 Framework，引擎和传动系统是 Runtime，而导航、电子辅助、自动驾驶系统是 Harness。

长运行 Agent 面临六个核心痛点：上下文窗口限制导致信息丢失、上下文衰减导致决策准确性降低、会话结束导致所有状态消失、单点错误导致整个流程失败、多 Agent 协调困难、长时间任务成功率下降。

Harness 对症下药。

上下文管理。Agent 在 30 步之后容易偏离目标，上下文过长会「失忆」。Claude Code 的解决方案是使用文件系统存储中间状态——feature_list.json 作为功能清单，claude-progress.txt 记录进度，Git 历史作为恢复机制。

状态持久化。Agent 崩溃后需要从头开始。LangGraph 的 Checkpoint 机制让每个状态变化自动保存到 Postgres，下次启动时指定会话 ID 即可从断点恢复。

错误处理。Agent 遇到错误直接失败。Harness 优雅处理：自动重试、降级运行、异常捕获，而不是让整个流程中断。

人机协作。关键决策需要人工确认。Runtime 层提供 interrupt 机制，在需要人工审批的步骤暂停执行，收到确认后继续。

Claude Code 中实现的 Harness 架构是当前业界标杆。它的核心设计原则是：

这和人类项目经理的工作方式惊人相似：拆解任务、分配工作、收集结果、检查进度。

当前市场呈现出明显的结构性特征：Framework 层已经过剩——LangChain、LlamaIndex、CrewAI、AutoGen 产品众多，选择困难。而 Harness 层仍然稀缺——DeepAgents 和 Claude Agent SDK 是少数可靠选项。

这造成了一个有趣的现象：开发者可以很快构建一个 Agent 原型，但在生产环境让它可靠运行，却发现无从下手。

42% 的企业仍在「计划部署」阶段，说明不是没有需求，而是现有的 Harness 产品还不够好用。

HaaS（Harness as a Service） 正在成为现实。AI 开发的核心原语正在迁移：2022 年直接调用 API → 2023 年用 LangChain 封装 → 2024 年用 LangGraph 管理状态 → 2025 年之后用 Harness API 一键部署。

多 Agent 协作是下一个主战场。72% 的企业 AI 项目已涉及多 Agent 架构。Harness 将提供 Agent 间通信协议、任务分配算法、冲突解决机制和结果聚合策略。

垂直领域 Harness 正在分化。通用 Harness 的时代会过去，取而代之的是垂直集成的专业版本——代码开发、数据分析、客户服务、法律合规，各有专门的 Harness。

Autonomy is not a model property, it’s an architectural property.

自主性不是模型属性，而是架构属性。

模型决定 Agent 能做什么，Harness 决定 Agent 能可靠地做到什么程度。模型能力已经趋于同质化，而 Harness 的质量差异，才真正区分了可用的 Agent 系统和只能 demo 的 Agent 系统。

理解这一点，是理解 2026 年 AI 工程的关键。