Hugging Face EvalEval 团队量化分析:AI 评测经济学

日期:2026/04/30

核心判断

AI 评测正在成为独立于训练、推理之外的第三类规模化成本。Hugging Face EvalEval 团队的量化分析首次系统揭示:前沿 Agent 评测单次花费已突破 $40,000,可靠性要求驱动下的多轮重跑将把同一套评测推向 $320,000。更根本的问题是结构性的——当评测的代价超出学术机构和监管机构的预算上限,决定 AI 排行榜的权力将集中到少数能付得起账单的大型实验室手中。

发生了什么

2026 年 4 月 29 日,Hugging Face EvalEval 团队发布长文《AI evals are becoming the new compute bottleneck》,用跨越四十个基准测试的具体成本数据,揭示了一个正在被忽视的结构性问题。

静态基准时代的成本是可控的。 2022 年 Stanford CRFM 发布 HELM 时,评测每个模型的 API 成本从 $85 到 $10,926 不等,开放模型则需要 540 到 4,200 GPU 小时;IBM Research 测算 Granite-13B 跑完 HELM 需消耗约 1,000 GPU 小时。HELM 全套(30 个模型 × 42 场景)的综合成本约为 $100,000。但研究者随即发现:HELM 的成本有高达 100-200 倍的压缩空间——通过 Item Response Theory 等技术,tinyBenchmarks 将 MMLU 从 14,000 道题压缩至 100 个锚点,误差仅 2%;Open LLM Leaderboard 从 29,000 个样本压缩至 180 个,排名几乎不变。静态基准的本质决定了它可以高效压缩:模型差异通常集中在少数题目上,大多数计算是在验证已知结论。

Agent 基准打破了这套逻辑。 Holistic Agent Leaderboard(HAL)提供了迄今最详细的公开成本核算:21,730 次 Agent 任务展开(rollout)跨 9 个模型和 9 个基准,总花费 $40,000;独立复现方 Ndzomga 的数字是 $46,000。单个基准的单次运行成本跨越四个数量级:TAU-bench 航空任务 $0.31-$180,GAIA 最高 $2,829,Online Mind2Web 最高 $1,610。Claude Opus 4.1 的 token 成本是 Gemini 2.0 Flash 的约百倍(输入 $15 vs $0.10 每百万 token),但同一任务上高成本方案并不可靠地带来更高准确率——HAL 记录到"准确率相差 2 个百分点,成本却相差 9 倍"的案例。Agent 评测的成本对象不是"模型",而是"模型 × 脚手架 × token 预算"的乘积。

训练在循环中的基准让压缩几乎不可能。 The Well(科学机器学习基准)评测一个新架构需要约 960 H100 小时(约 $2,400),四架构完整扫描需要 3,840 H100 小时(约 $9,600)。MLE-Bench 让 Agent 实际运行 75 个 Kaggle 竞赛,仅 GPU 底价就达 $2,700,三种种子 × 六个模型的标准研究组合推向 $100,000 以上。PaperBench 要求 Agent 重现 20 篇 ICML 论文,每次完整评测约 $9,500。这类基准里,每道题本身就是一次完整训练,无法像静态基准那样用少量锚点替代全集。文章统计,静态基准可压缩 100-200 倍,Agent 基准仅能压缩 2-3.5 倍,训练在循环中的基准目前没有通用压缩方案。

可靠性要求是成本的倍增器。 Yao 等人的 τ-bench 显示,Agent 在单轮运行的准确率可高达 60%,但在 8 轮一致性测试下跌至 25%。HAL 发现一个"什么都不做"的 Agent 在原始构造下通过了 38% 的 τ-bench 航空任务,这意味着许多 benchmark 的单次结果带有大量噪声。若以 k=8 重复运行为统计置信标准,$40,000 的 HAL 成本升至约 $320,000,PaperBench 的单次评测成本突破 $75,000。HAL 已于 2025 年底暂停接受新模型评测,以聚焦可靠性问题。

重复评测是另一层浪费。 前沿实验室付一次,学术团队复现付第二次,审计机构付第三次,媒体核查付第四次——几乎每次都覆盖相同的模型和基准,但没有一次的 instance 级别输出被下一个团队复用,因为结果仅以 PDF 里的单一准确率数字呈现。EvalEval 团队估算,即使只有 2 倍的复用率,其节省的成本也超过所有压缩技术加在一起的效果。他们提出了"Every Eval Ever"项目,建立标准化 schema,让评测日志可在 Hugging Face 社区仓库共享。

为什么值得关注

第一,评测成本正在制造新的"算力鸿沟"。 Ahmed、Wahed 和 Thompson 2023 年在 Science 发表的研究显示,2021 年工业界模型参数量是学术界的 29 倍;2020 年约 70% 的 AI 博士选择进入工业界,而 2004 年这一比例仅为 21%。算力鸿沟的旧叙事主要针对训练成本,现在评测将这道鸿沟延伸到了下游。一次 GAIA 完整运行的成本可超过一位博士生的年度差旅预算;3 种子 × 6 模型的发表级研究需要逾 $150,000。学术机构和 AI 安全研究机构正在被预算约束推出 frontier Agent 的独立评测赛道,而不是被技术约束。

第二,排行榜机制产生了反向激励。 当排行榜只报告准确率而不报告成本,研究者理性地将 token 不断堆砌进问题直到数字上升。HAL 数据显示,更高的推理成本在大多数 run 中实际上降低了准确率。Pareto 前沿排行榜才是正确的比较框架,但目前大多数排行榜不实现这一点。

第三,评测权力的集中是治理问题。 文章的最后一句话颇有分量:"Whoever can pay for the evaluation gets to write the leaderboard."(谁能付得起评测,谁就有权写排行榜。)如果只有 frontier 实验室的计算预算才能产生统计可靠的基准数字,那么 AI 系统的外部验证将越来越多地只发生在构建 AI 系统的同一批实验室内部。

可能影响

对模型选型和采购决策的影响: "跑一次 benchmark,报一个准确率"的做法统计可靠性约等于"一辆汽车在晴天天气里碰撞测试一次"(原文类比)。金融机构在做 AI 能力评估时,需要追问:供应商引用的 benchmark 成本是多少?是否经过多种子重复验证?评测脚手架是什么?这些问题目前几乎没有标准化的供应商披露要求。

对 AI 基础设施投入的影响: 评测即服务(EaaS)和共享评测基础设施将成为有实质需求的细分赛道,尤其是在需要第三方独立评测的金融监管、医疗和政府 AI 部署场景。

对 AI 监管框架的影响: 如果监管机构要求对高风险 AI 系统进行独立评测,而独立评测的成本已进入数万美元量级,监管的执行成本将显著高于预期。欧盟 AI 法案、美国 AI 安全研究院(US-AISI)等机构正面临这一现实约束——原文已指出 UK-AISI 为研究推理时计算而将 agentic steps 扩展至数百万,这意味着监管机构自己也在承担规模化评测成本。

参考文献


前沿科技异动雷达 2026/04/30