Agent Harness 综述:当模型不再决定一切,Agent 拼什么?

日期:2026/05/20

核心判断

2026 年 5 月,学术界出现首篇系统综述 Agent Harness(Agent 执行框架/脚手架)的论文。该综述指出,生产环境中 LLM Agent 的可靠性越来越取决于包裹大模型的基础设施层——执行环境、工具接口、上下文管理、生命周期、可观测性、验证与治理——而非仅靠模型能力。论文提出 ETCLOVG 七层架构,将 Agent Harness 工程确立为独立系统层。

发生了什么

据 PaperWeekly 报道,这篇首篇 Agent Harness 综述论文的核心论点是:Agent 的性能差异不仅取决于底层模型能力,更取决于 Harness 层的设计质量。原文称:"当模型能力不再是唯一变量,Agent 的胜负开始落到执行环境、工具接口、上下文、验证与治理这一整套 Harness 上。很多 Agent 系统进入真实任务后暴露出的不稳定,已经很难只用模型能力不足来解释。"

论文提出 ETCLOVG 七层分类架构,将 Agent Harness 拆解为七个独立组件:

该论文将大量开源项目映射到 ETCLOVG 分类体系上,据 PaperWeekly 报道,"开源项目样本库显示,生命周期层项目数量最密集"。

几乎同时,另一篇 2026 年 4 月发表的综述《Agent Harness for Large Language Model Agents: A Survey》将 Agent Harness 形式化为六元组 H = (E,T,C,S,L,V):执行循环、工具注册、上下文管理器、状态存储、生命周期钩子和评估接口,并追溯了 Harness 概念的演变轨迹。

为什么值得关注

PaperWeekly 原文指出,这一综述揭示了一个被行业低估的事实:Agent 工程正从"选什么模型"的讨论转向"怎么搭框架"的讨论。

同一天,JiuwenSwarm 的发布以工程实践印证了这一判断。

openJiuwen 社区(华为 2012 实验室与华为云 AgentArts 团队联合构建)发布蜂群 Agent 开源框架 JiuwenSwarm。据 InfoQ 报道,该框架明确提出从 Harness Engineering 走向 Coordination Engineering:"Harness 强调约束和纠错,Coordination Engineering 在此基础上进一步关注 Agent 的组织、协作和持续进化。"

JiuwenSwarm 包含四个关键组件:Agent Swarm(多 Agent 自主分工与动态协商)、Swarm Skills(将协作经验封装为可复用团队技能)、Swarm Skills Hub(社区技能共享市场)、Swarm Skills 自演进(从执行轨迹中自动反推可复用技能)。它支持两种人机协同模式——HOTS(Human on the Swarm,人作为指挥官全局调度)和 HITS(Human in the Swarm,人作为蜂群中一员沉浸式协作)。

在权威评测 PinchBench 中,JiuwenSwarm 以 94.2% 综合得分达到业界 SOTA,相比 OpenClaw(91.6%)提升近 3 个百分点,同时平均 token 消耗降低 34.8%。这一成绩的底座是 openJiuwen Harness 在 DeepAgent 架构、上下文工程、长期记忆机制等方向的持续打磨。

两条线索交汇于同一天:学术界从理论层面提出"Harness 决定 Agent 成败"的 ETCLOVG 体系,JiuwenSwarm 则从工程层面将该理念推进到"单 Agent Harness 之后,多 Agent 协同是下一跳"。

可能影响

参考文献


前沿科技异动雷达 2026/05/20 — Anthropic 同日多条动态

Anthropic 在 2026 年 5 月 19 日一天内爆出五条重大新闻,从人才、收购、工程质量到股权治理,四个维度综合显示其全栈封闭生态加速构建。