Anthropic「Project Deal」:AI Agent 自主交易市场的首次真实实验
日期:2026/04/27
核心判断
AI Agent 可以代表人类完成真实市场交易——但模型能力差异会在交易中制造"隐性不平等",而当事人毫无察觉。这是 Agent 商业化落地前必须正视的结构性风险。
发生了什么
2025年12月,Anthropic在旧金山办公室运行了一周名为"Project Deal"的内部实验:69名员工各获100美元预算,Claude Agent 代替他们在一个类 Craigslist 的 Slack 市场中自主挂牌、报价、还价、成交。全程无人干预——人类只在最后物理交换商品。
实验同时秘密运行了4个平行市场。两个市场中所有 Agent 使用 Claude Opus 4.5(旗舰模型),另外两个市场中参与者有50%概率被分配 Claude Haiku 4.5(轻量模型)。
结果:69个 Agent 在500+件商品中达成186笔交易,总交易额超4000美元。参与者对交易公平性评分集中在4/7(中位),整体满意。
但关键发现在混合模型组:Opus Agent 卖家平均每件多赚2.68-3.64美元,买家平均少付2.45美元。同一辆坏折叠车,Opus 卖到65美元,Haiku 只卖38美元;同一颗实验室红宝石,Opus 卖65美元,Haiku 只卖35美元。
更值得警惕的是:使用 Haiku Agent 的参与者对交易公平性的评分(4.06)与 Opus 用户(4.05)几乎无差异——他们完全没意识到自己吃了亏。28位同时体验过两种模型的参与者中,有11人反而更偏好 Haiku 的结果。
另一个反直觉发现:参与者指定的谈判风格(友好/激进)对结果几乎没有统计显著影响。激进卖家确实卖得更贵,但仅仅因为他们设定了更高的起价——模型选择的影响远大于提示词策略。
为什么值得关注
第一,Agent 交易不是概念验证,而是已验证的现实。 186笔真实交易、4000美元成交额、参与者46%愿意付费使用——这不再是"AI能不能谈判"的问题,而是"什么时候规模化"的问题。
第二,模型能力差异正在成为新的"市场信息不对称"。 传统市场中,信息不对称可以通过披露制度缓解;但 Agent 交易中,模型能力差异是隐性的——你不知道对手的 Agent 是 Opus 还是 Haiku,甚至你自己也不知道自己吃亏了。这比信息不对称更危险,因为受害者无法感知损害。
第三,提示词工程无法弥补模型差距。 实验证明,谈判风格指令对结果的影响远小于模型选择。这意味着在 Agent 交易场景中,"用更好的模型"比"写更好的提示词"重要得多——对个人用户而言,这可能是无法通过技巧弥补的硬差距。
可能影响
- Agent 交易市场需要"模型披露"机制:如同金融市场的利益冲突披露,Agent 交易平台可能需要强制披露代表各方的模型能力等级,否则弱势方将在不知情中持续受损
- 金融场景风险放大:在金融交易、保险定价、合同谈判等高价值场景中,模型能力差异的经济后果将远超100美元礼品卡实验——几美元的差距可能放大为数千甚至数百万美元
- 监管框架需前置:Anthropic 自身称此为"令人不安的启示",并呼吁行业和监管者在 Agent 商业化普及前解决这一问题。如果监管滞后,Agent 交易可能重演算法交易早期的"技术军备竞赛"
参考文献
- Project Deal(Anthropic 官方,2026-04-24)
- Anthropic says stronger AI models cut better deals, and the losers don't even notice(The Decoder,2026-04-24)
前沿科技异动雷达 2026/04/27
- 【学术】南大快手提出 Coding Agent 失败根源可追溯框架,无需重训模型即可精准定位代码生成失败原因,即插即用——Agent 可解释性从"事后分析"走向"实时追溯",是 Agent 可靠部署的关键前提
- 【安全】OpenAI 发布 GPT-5.5 生物安全 Bug Bounty,悬赏25000美元寻找可绕过全部5道生物安全问题的通用越狱提示词,测试期4月28日至7月27日——前沿模型安全验证从内部红队走向社区众包
- 【治理】阿联酋宣布2028年前将50%政府服务转交自主AI系统运营,成为全球首个在政府规模上依托 Agentic AI 运作的国家——AI 在公共治理中的角色从"辅助工具"跃升为"执行伙伴"