Agent Harness 综述:当模型不再决定一切,Agent 拼什么?
日期:2026/05/20
核心判断
2026 年 5 月,学术界出现首篇系统综述 Agent Harness(Agent 执行框架/脚手架)的论文。该综述指出,生产环境中 LLM Agent 的可靠性越来越取决于包裹大模型的基础设施层——执行环境、工具接口、上下文管理、生命周期、可观测性、验证与治理——而非仅靠模型能力。论文提出 ETCLOVG 七层架构,将 Agent Harness 工程确立为独立系统层。
发生了什么
据 PaperWeekly 报道,这篇首篇 Agent Harness 综述论文的核心论点是:Agent 的性能差异不仅取决于底层模型能力,更取决于 Harness 层的设计质量。原文称:"当模型能力不再是唯一变量,Agent 的胜负开始落到执行环境、工具接口、上下文、验证与治理这一整套 Harness 上。很多 Agent 系统进入真实任务后暴露出的不稳定,已经很难只用模型能力不足来解释。"
论文提出 ETCLOVG 七层分类架构,将 Agent Harness 拆解为七个独立组件:
- Execution(执行层):Agent 的推理-行动循环编排
- Tooling(工具层):工具注册、调用协议和结果解析
- Context(上下文层):上下文窗口管理、记忆和状态维护
- Lifecycle(生命周期层):Agent 会话的创建、暂停、恢复和终止
- Observability(可观测性层):行为追踪、日志和监控
- Verification(验证层):输出校验、安全检查和合规审查
- Governance(治理层):权限控制、访问策略和使用审计
该论文将大量开源项目映射到 ETCLOVG 分类体系上,据 PaperWeekly 报道,"开源项目样本库显示,生命周期层项目数量最密集"。
几乎同时,另一篇 2026 年 4 月发表的综述《Agent Harness for Large Language Model Agents: A Survey》将 Agent Harness 形式化为六元组 H = (E,T,C,S,L,V):执行循环、工具注册、上下文管理器、状态存储、生命周期钩子和评估接口,并追溯了 Harness 概念的演变轨迹。
为什么值得关注
PaperWeekly 原文指出,这一综述揭示了一个被行业低估的事实:Agent 工程正从"选什么模型"的讨论转向"怎么搭框架"的讨论。
同一天,JiuwenSwarm 的发布以工程实践印证了这一判断。
openJiuwen 社区(华为 2012 实验室与华为云 AgentArts 团队联合构建)发布蜂群 Agent 开源框架 JiuwenSwarm。据 InfoQ 报道,该框架明确提出从 Harness Engineering 走向 Coordination Engineering:"Harness 强调约束和纠错,Coordination Engineering 在此基础上进一步关注 Agent 的组织、协作和持续进化。"
JiuwenSwarm 包含四个关键组件:Agent Swarm(多 Agent 自主分工与动态协商)、Swarm Skills(将协作经验封装为可复用团队技能)、Swarm Skills Hub(社区技能共享市场)、Swarm Skills 自演进(从执行轨迹中自动反推可复用技能)。它支持两种人机协同模式——HOTS(Human on the Swarm,人作为指挥官全局调度)和 HITS(Human in the Swarm,人作为蜂群中一员沉浸式协作)。
在权威评测 PinchBench 中,JiuwenSwarm 以 94.2% 综合得分达到业界 SOTA,相比 OpenClaw(91.6%)提升近 3 个百分点,同时平均 token 消耗降低 34.8%。这一成绩的底座是 openJiuwen Harness 在 DeepAgent 架构、上下文工程、长期记忆机制等方向的持续打磨。
两条线索交汇于同一天:学术界从理论层面提出"Harness 决定 Agent 成败"的 ETCLOVG 体系,JiuwenSwarm 则从工程层面将该理念推进到"单 Agent Harness 之后,多 Agent 协同是下一跳"。
可能影响
- Agent 工程话语权转移:PaperWeekly 原文指出 Harness 层设计能力将成为差异化竞争焦点,Agent 竞赛的下半场将从"谁有更强模型"转向"谁有更好的 Agent 基础设施"。
- 开源生态重构:综述论文将大量开源项目按 ETCLOVG 分类映射,InfoQ 报道的 JiuwenSwarm 案例展示了开源社区在 Harness 层和协同层的活跃度。JiuwenSwarm 全套开源(AtomGit + GitHub),Swarm Skills Hub 允许开发者上传和共享团队技能。参考文章未涉及 Harness 综述对此的进一步延伸。
- 多 Agent 协同进入工程交付阶段:InfoQ 报道指出,"从共识到工程交付,中间仍有很长距离。多 Agent 如何分工,如何交接,如何复用经验,如何在失败后修正自身,都不是简单调用几个模型就能解决的问题。" JiuwenSwarm 的 Swarm Skills 自演进机制是这一方向的工程探索。
参考文献
- PaperWeekly: 首篇Agent Harness综述:模型之外,Agent拼什么?
- InfoQ: 蜂群Agent来了!openJiuwen社区发布JiuwenSwarm,引领Coordination Engineering新范式
前沿科技异动雷达 2026/05/20 — Anthropic 同日多条动态
Anthropic 在 2026 年 5 月 19 日一天内爆出五条重大新闻,从人才、收购、工程质量到股权治理,四个维度综合显示其全栈封闭生态加速构建。
- 【人才】Andrej Karpathy 宣布加入 Anthropic 预训练团队。他曾在 X 平台发文称"未来几年 LLM 前沿将尤为关键"。Karpathy 曾是 OpenAI 创始成员、特斯拉 AI 总监,此次加盟被 APPSO 称为"Vibe Coding 之父回归大模型研发一线"。
- 【收购·生态封锁】Anthropic 以超 3 亿美元收购 API 工具公司 Stainless,收购后断供 OpenAI 和 Google。据智东西报道,Stainless 的 SDK 曾被"全球约四分之一专业软件开发者"使用,客户包括 OpenAI、Google、Replicate、Runway 和 Cloudflare。Anthropic 称"AI 前沿正从回答问题的模型转向能够行动的 Agent,Agent 的能力取决于它们能够触达哪些系统"。
- 【收购·Agent 工具】据智东西报道,Anthropic 被曝花 20 亿收购 Agent 工具企业,断供 Google 和 OpenAI。这是 Anthropic 近半年内第四次收购,此前已收购 Bun(运行环境)、Vercept(计算机使用 Agent)和 Coefficient Bio(生物技术 AI)。
- 【工程事故】Anthropic 发布 Claude Code 六周质量下滑事故复盘。据 InfoQ 报道,3 月 4 日至 4 月 16 日期间三项互不相关的独立变更上线:推理强度从高降为中等(3/4)、缓存漏洞逐轮清除推理历史(3/26)、系统提示词新增 25 词/100 词限制(4/16)。Opus 4.6 与 4.7 整体输出质量均降 3%,4 月 20 日全部修复。Reddit 用户指出子智能体暗中将任务委派给更便宜的 Haiku 模型,事故报告未覆盖。
- 【股权治理】Anthropic 点名八家机构,禁止通过 SPV 非官方渠道交易股份。据华尔街见闻报道,声明称"通过此类渠道进行的交易将被视为无效","最坏情况下持股可能归零"。部分通过 SPV 持有敞口的上市基金价格应声下跌,二级市场经纪商陷入混乱。