Anthropic「Project Deal」:AI Agent 自主交易市场的首次真实实验

日期:2026/04/27

核心判断

AI Agent 可以代表人类完成真实市场交易——但模型能力差异会在交易中制造"隐性不平等",而当事人毫无察觉。这是 Agent 商业化落地前必须正视的结构性风险。

发生了什么

2025年12月,Anthropic在旧金山办公室运行了一周名为"Project Deal"的内部实验:69名员工各获100美元预算,Claude Agent 代替他们在一个类 Craigslist 的 Slack 市场中自主挂牌、报价、还价、成交。全程无人干预——人类只在最后物理交换商品。

实验同时秘密运行了4个平行市场。两个市场中所有 Agent 使用 Claude Opus 4.5(旗舰模型),另外两个市场中参与者有50%概率被分配 Claude Haiku 4.5(轻量模型)。

结果:69个 Agent 在500+件商品中达成186笔交易,总交易额超4000美元。参与者对交易公平性评分集中在4/7(中位),整体满意。

但关键发现在混合模型组:Opus Agent 卖家平均每件多赚2.68-3.64美元,买家平均少付2.45美元。同一辆坏折叠车,Opus 卖到65美元,Haiku 只卖38美元;同一颗实验室红宝石,Opus 卖65美元,Haiku 只卖35美元。

更值得警惕的是:使用 Haiku Agent 的参与者对交易公平性的评分(4.06)与 Opus 用户(4.05)几乎无差异——他们完全没意识到自己吃了亏。28位同时体验过两种模型的参与者中,有11人反而更偏好 Haiku 的结果。

另一个反直觉发现:参与者指定的谈判风格(友好/激进)对结果几乎没有统计显著影响。激进卖家确实卖得更贵,但仅仅因为他们设定了更高的起价——模型选择的影响远大于提示词策略。

为什么值得关注

第一,Agent 交易不是概念验证,而是已验证的现实。 186笔真实交易、4000美元成交额、参与者46%愿意付费使用——这不再是"AI能不能谈判"的问题,而是"什么时候规模化"的问题。

第二,模型能力差异正在成为新的"市场信息不对称"。 传统市场中,信息不对称可以通过披露制度缓解;但 Agent 交易中,模型能力差异是隐性的——你不知道对手的 Agent 是 Opus 还是 Haiku,甚至你自己也不知道自己吃亏了。这比信息不对称更危险,因为受害者无法感知损害。

第三,提示词工程无法弥补模型差距。 实验证明,谈判风格指令对结果的影响远小于模型选择。这意味着在 Agent 交易场景中,"用更好的模型"比"写更好的提示词"重要得多——对个人用户而言,这可能是无法通过技巧弥补的硬差距。

可能影响

参考文献


前沿科技异动雷达 2026/04/27