Hugging Face EvalEval 团队量化分析：AI 评测经济学

日期：2026/04/30

核心判断

AI 评测正在成为独立于训练、推理之外的第三类规模化成本。Hugging Face EvalEval 团队的量化分析首次系统揭示：前沿 Agent 评测单次花费已突破 $40,000，可靠性要求驱动下的多轮重跑将把同一套评测推向 $320,000。更根本的问题是结构性的——当评测的代价超出学术机构和监管机构的预算上限，决定 AI 排行榜的权力将集中到少数能付得起账单的大型实验室手中。

发生了什么

2026 年 4 月 29 日，Hugging Face EvalEval 团队发布长文《AI evals are becoming the new compute bottleneck》，用跨越四十个基准测试的具体成本数据，揭示了一个正在被忽视的结构性问题。

静态基准时代的成本是可控的。 2022 年 Stanford CRFM 发布 HELM 时，评测每个模型的 API 成本从 $85 到 $10,926 不等，开放模型则需要 540 到 4,200 GPU 小时；IBM Research 测算 Granite-13B 跑完 HELM 需消耗约 1,000 GPU 小时。HELM 全套（30 个模型 × 42 场景）的综合成本约为 $100,000。但研究者随即发现：HELM 的成本有高达 100-200 倍的压缩空间——通过 Item Response Theory 等技术，tinyBenchmarks 将 MMLU 从 14,000 道题压缩至 100 个锚点，误差仅 2%；Open LLM Leaderboard 从 29,000 个样本压缩至 180 个，排名几乎不变。静态基准的本质决定了它可以高效压缩：模型差异通常集中在少数题目上，大多数计算是在验证已知结论。

Agent 基准打破了这套逻辑。 Holistic Agent Leaderboard（HAL）提供了迄今最详细的公开成本核算：21,730 次 Agent 任务展开（rollout）跨 9 个模型和 9 个基准，总花费 $40,000；独立复现方 Ndzomga 的数字是 $46,000。单个基准的单次运行成本跨越四个数量级：TAU-bench 航空任务 $0.31-$180，GAIA 最高 $2,829，Online Mind2Web 最高 $1,610。Claude Opus 4.1 的 token 成本是 Gemini 2.0 Flash 的约百倍（输入 $15 vs $0.10 每百万 token），但同一任务上高成本方案并不可靠地带来更高准确率——HAL 记录到"准确率相差 2 个百分点，成本却相差 9 倍"的案例。Agent 评测的成本对象不是"模型"，而是"模型 × 脚手架 × token 预算"的乘积。

训练在循环中的基准让压缩几乎不可能。 The Well（科学机器学习基准）评测一个新架构需要约 960 H100 小时（约 $2,400），四架构完整扫描需要 3,840 H100 小时（约 $9,600）。MLE-Bench 让 Agent 实际运行 75 个 Kaggle 竞赛，仅 GPU 底价就达 $2,700，三种种子 × 六个模型的标准研究组合推向 $100,000 以上。PaperBench 要求 Agent 重现 20 篇 ICML 论文，每次完整评测约 $9,500。这类基准里，每道题本身就是一次完整训练，无法像静态基准那样用少量锚点替代全集。文章统计，静态基准可压缩 100-200 倍，Agent 基准仅能压缩 2-3.5 倍，训练在循环中的基准目前没有通用压缩方案。

可靠性要求是成本的倍增器。 Yao 等人的 τ-bench 显示，Agent 在单轮运行的准确率可高达 60%，但在 8 轮一致性测试下跌至 25%。HAL 发现一个"什么都不做"的 Agent 在原始构造下通过了 38% 的 τ-bench 航空任务，这意味着许多 benchmark 的单次结果带有大量噪声。若以 k=8 重复运行为统计置信标准，$40,000 的 HAL 成本升至约 $320,000，PaperBench 的单次评测成本突破 $75,000。HAL 已于 2025 年底暂停接受新模型评测，以聚焦可靠性问题。

重复评测是另一层浪费。 前沿实验室付一次，学术团队复现付第二次，审计机构付第三次，媒体核查付第四次——几乎每次都覆盖相同的模型和基准，但没有一次的 instance 级别输出被下一个团队复用，因为结果仅以 PDF 里的单一准确率数字呈现。EvalEval 团队估算，即使只有 2 倍的复用率，其节省的成本也超过所有压缩技术加在一起的效果。他们提出了"Every Eval Ever"项目，建立标准化 schema，让评测日志可在 Hugging Face 社区仓库共享。

为什么值得关注

第一，评测成本正在制造新的"算力鸿沟"。 Ahmed、Wahed 和 Thompson 2023 年在 Science 发表的研究显示，2021 年工业界模型参数量是学术界的 29 倍；2020 年约 70% 的 AI 博士选择进入工业界，而 2004 年这一比例仅为 21%。算力鸿沟的旧叙事主要针对训练成本，现在评测将这道鸿沟延伸到了下游。一次 GAIA 完整运行的成本可超过一位博士生的年度差旅预算；3 种子 × 6 模型的发表级研究需要逾 $150,000。学术机构和 AI 安全研究机构正在被预算约束推出 frontier Agent 的独立评测赛道，而不是被技术约束。

第二，排行榜机制产生了反向激励。 当排行榜只报告准确率而不报告成本，研究者理性地将 token 不断堆砌进问题直到数字上升。HAL 数据显示，更高的推理成本在大多数 run 中实际上降低了准确率。Pareto 前沿排行榜才是正确的比较框架，但目前大多数排行榜不实现这一点。

第三，评测权力的集中是治理问题。 文章的最后一句话颇有分量："Whoever can pay for the evaluation gets to write the leaderboard."（谁能付得起评测，谁就有权写排行榜。）如果只有 frontier 实验室的计算预算才能产生统计可靠的基准数字，那么 AI 系统的外部验证将越来越多地只发生在构建 AI 系统的同一批实验室内部。

可能影响

对模型选型和采购决策的影响： "跑一次 benchmark，报一个准确率"的做法统计可靠性约等于"一辆汽车在晴天天气里碰撞测试一次"（原文类比）。金融机构在做 AI 能力评估时，需要追问：供应商引用的 benchmark 成本是多少？是否经过多种子重复验证？评测脚手架是什么？这些问题目前几乎没有标准化的供应商披露要求。

对 AI 基础设施投入的影响： 评测即服务（EaaS）和共享评测基础设施将成为有实质需求的细分赛道，尤其是在需要第三方独立评测的金融监管、医疗和政府 AI 部署场景。

对 AI 监管框架的影响： 如果监管机构要求对高风险 AI 系统进行独立评测，而独立评测的成本已进入数万美元量级，监管的执行成本将显著高于预期。欧盟 AI 法案、美国 AI 安全研究院（US-AISI）等机构正面临这一现实约束——原文已指出 UK-AISI 为研究推理时计算而将 agentic steps 扩展至数百万，这意味着监管机构自己也在承担规模化评测成本。

参考文献

AI evals are becoming the new compute bottleneck（Hugging Face EvalEval 团队，2026-04-29）

异动雷达

前沿科技异动雷达 2026/04/30

【AI安全】OpenAI 发布《智能时代网络安全》政策文件，提出五步行动计划：民主化 AI 驱动的网络防御能力、保护关键基础设施、与政府联合制定安全标准、提升 AI 系统自身安全性、支持安全研究生态——这是 OpenAI 首次以完整政策文件形式系统进入网络安全赛道，预示其战略边界从模型能力向基础设施安全扩展。

【AI应用】字节豆包低调上线"帮你选"电商购物功能，用户可在 App 内完成商品搜索→下单→支付→售后全链路，已打通淘宝、京东两大电商平台；继 ChatGPT 购物、Gemini 购物之后，国内主力 AI 助手跟进入局，AI 助手的商业角色从"信息入口"向"交易入口"加速演进。

【企业AI】IBM 详解 Granite 4.1 系列构建路线，核心能力点为可验证推理链、低幻觉率和数据血缘追踪，定位银行、保险等强监管行业"合规优先"AI 运算底座；与追求 benchmark 排名的通用大模型路线形成明确分野，是目前最系统阐述"监管就绪"路线的企业级模型发布。