Anthropic「Project Deal」：AI Agent 自主交易市场的首次真实实验

日期:2026/04/27

核心判断

AI Agent 可以代表人类完成真实市场交易——但模型能力差异会在交易中制造"隐性不平等"，而当事人毫无察觉。这是 Agent 商业化落地前必须正视的结构性风险。

2025年12月，Anthropic在旧金山办公室运行了一周名为"Project Deal"的内部实验：69名员工各获100美元预算，Claude Agent 代替他们在一个类 Craigslist 的 Slack 市场中自主挂牌、报价、还价、成交。全程无人干预——人类只在最后物理交换商品。

实验同时秘密运行了4个平行市场。两个市场中所有 Agent 使用 Claude Opus 4.5（旗舰模型），另外两个市场中参与者有50%概率被分配 Claude Haiku 4.5（轻量模型）。

结果：69个 Agent 在500+件商品中达成186笔交易，总交易额超4000美元。参与者对交易公平性评分集中在4/7（中位），整体满意。

但关键发现在混合模型组：Opus Agent 卖家平均每件多赚2.68-3.64美元，买家平均少付2.45美元。同一辆坏折叠车，Opus 卖到65美元，Haiku 只卖38美元；同一颗实验室红宝石，Opus 卖65美元，Haiku 只卖35美元。

更值得警惕的是：使用 Haiku Agent 的参与者对交易公平性的评分（4.06）与 Opus 用户（4.05）几乎无差异——他们完全没意识到自己吃了亏。28位同时体验过两种模型的参与者中，有11人反而更偏好 Haiku 的结果。

另一个反直觉发现：参与者指定的谈判风格（友好/激进）对结果几乎没有统计显著影响。激进卖家确实卖得更贵，但仅仅因为他们设定了更高的起价——模型选择的影响远大于提示词策略。

第一，Agent 交易不是概念验证，而是已验证的现实。 186笔真实交易、4000美元成交额、参与者46%愿意付费使用——这不再是"AI能不能谈判"的问题，而是"什么时候规模化"的问题。

第二，模型能力差异正在成为新的"市场信息不对称"。 传统市场中，信息不对称可以通过披露制度缓解；但 Agent 交易中，模型能力差异是隐性的——你不知道对手的 Agent 是 Opus 还是 Haiku，甚至你自己也不知道自己吃亏了。这比信息不对称更危险，因为受害者无法感知损害。

第三，提示词工程无法弥补模型差距。 实验证明，谈判风格指令对结果的影响远小于模型选择。这意味着在 Agent 交易场景中，"用更好的模型"比"写更好的提示词"重要得多——对个人用户而言，这可能是无法通过技巧弥补的硬差距。

Agent 交易市场需要"模型披露"机制：如同金融市场的利益冲突披露，Agent 交易平台可能需要强制披露代表各方的模型能力等级，否则弱势方将在不知情中持续受损
金融场景风险放大：在金融交易、保险定价、合同谈判等高价值场景中，模型能力差异的经济后果将远超100美元礼品卡实验——几美元的差距可能放大为数千甚至数百万美元
监管框架需前置：Anthropic 自身称此为"令人不安的启示"，并呼吁行业和监管者在 Agent 商业化普及前解决这一问题。如果监管滞后，Agent 交易可能重演算法交易早期的"技术军备竞赛"

异动雷达

【学术】南大快手提出 Coding Agent 失败根源可追溯框架，无需重训模型即可精准定位代码生成失败原因，即插即用——Agent 可解释性从"事后分析"走向"实时追溯"，是 Agent 可靠部署的关键前提
【安全】OpenAI 发布 GPT-5.5 生物安全 Bug Bounty，悬赏25000美元寻找可绕过全部5道生物安全问题的通用越狱提示词，测试期4月28日至7月27日——前沿模型安全验证从内部红队走向社区众包
【治理】阿联酋宣布2028年前将50%政府服务转交自主AI系统运营，成为全球首个在政府规模上依托 Agentic AI 运作的国家——AI 在公共治理中的角色从"辅助工具"跃升为"执行伙伴"