RESEARCH
Anthropic 搞了一個 Agent 版閑魚:人只負責說自己想賣什么、想買什么,后面的發帖、砍價、還價、成交,全交給 Claude
然后這事真成了,69 個 Claude agent 在辦公室里做成了 186 筆交易,總價值 4010 美元。最后,人真把滑雪板、鍵盤、書、乒乓球這些東西帶到辦公室,按 Claude 談好的結果交換
![]()
大家驚奇地發現,Opus 比 Haiku 更會賺錢。Anthropic 把一部分參與者分給 Opus 4.5,一部分分給 Haiku 4.5。對于同樣的商品,Opus 經常會談出更好的價格
果然,聰明人還是更會賺錢,換成 agent 也一樣
這個市場怎么跑
跑法其實就三步:人交代買賣意愿,Claude 進 Slack 砍價,最后人按結果線下交換
Anthropic 的員工把自己的東西交給 Claude 寄售,想買什么也告訴 Claude。一共有 69 名員工參加,每個人有 100 美元名義預算。實驗結束后,最終結算是 100 美元,加上賣出物品的錢,減去買入物品的錢,以禮品卡形式支付
開市之前,Claude 先把每個人的買賣偏好問清楚。它會問參與者想賣什么、期望價格、最低可接受價格、想買什么、愿意付多少錢,以及談判風格。訪談結果會變成這個人的專屬 agent system prompt
![]()
然后,Slack 變成了這個 Agent 版閑魚的交易大廳。項目頻道會隨機輪到不同 agent 行動。它們可以發出售帖,可以對別人的物品報價,也可以確認成交。實驗開始后,agent 不會回頭問人“這個價格能不能接受”,也不會在競價時找人確認
Anthropic 還偷偷開了四個平行市場,用來比較 Opus 和 Haiku。A 和 D 兩輪全部用 Opus 4.5。B 和 C 兩輪混合使用 Opus 4.5 和 Haiku 4.5,參與者有 50% 概率被分到 Haiku。A 和 B 是公開 Slack 頻道,C 和 D 是私下跑的研究頻道
只有 Run A 最后真的要線下交割,但參與者直到填完實驗后問卷才知道真相
所以這套設計其實問了兩個問題:AI agent 能不能替人完成二手交易,強模型和弱模型進入同一個市場時,誰會拿到更好的結果
它真的成交了
最后真成交的那一輪,已經不是模擬市場,而是辦公室里的線下交換
真實那一輪里,Claude agent 促成了 186 筆交易。統計附錄按售出物品計數,Run A 是 575 件掛牌物品,206 件售出,銷售率 35.8%,總價值 4010 美元
把四輪市場合起來看,它已經超過了一個聊天 demo。2300 個 item-run 觀察值里有 782 筆完成交易。平均價格 20.05 美元,中位數 12 美元,最高 175 美元。金額不大,但足夠說明一件事:自然語言里的報價、還價、成交,agent 已經能跑完一輪
![]()
![]()
參與者沒有普遍覺得 Claude 談出來的價格離譜。交易公平性的評分范圍是 1 到 7,4 代表對買賣雙方都公平。Opus 交易均值是 4.053,Haiku 交易均值是 4.045
這比很多 agent 談判研究更接近真實市場。很多研究用的是虛構商品,或者合成數據庫。Project Deal 用的是人的真實物品。滑雪板、書、折疊自行車、鍵盤、手工裝飾、乒乓球,最后都要被人真的拿出來交換
真實物品會把人的舍不得、最低價、偏好和奇怪要求一起帶進市場。agent 要在這些人類輸入里完成交易
Opus 更會賺錢
賺錢能力主要看三件事:成交數量、賣出概率,以及同一件東西能賣多少錢
Opus 用戶確實多做成了幾筆生意。兩輪混合市場里,他們平均多完成約 2.07 筆交易;換一種統計口徑,結果也差不多
Opus 當賣家時,東西也更容易賣出去。它的物品售出概率高出 6.63 個百分點。這個結果方向明確,但統計上沒有完全站穩
同一件東西交給 Opus 賣,平均會比交給 Haiku 多賣 3.64 美元。研究者只看那些在 B 和 C 兩輪都賣出、且一輪由 Haiku 賣、一輪由 Opus 賣的物品
![]()
最好講的例子,來自一顆紅寶石和一輛壞掉的折疊自行車。同一顆實驗室培育紅寶石,Opus 賣了 65 美元,Haiku 只賣了 35 美元。同一輛壞掉的折疊自行車,同一買家、同一賣家,Haiku 賣了 38 美元,Opus 賣了 65 美元
更微妙的是,Opus 不只會賣,也更會買。161 件至少賣出兩次的物品里,Opus 作為賣方,平均多拿 2.68 美元。Opus 作為買方,平均少付 2.45 美元
幾美元聽上去不大,放在這個小市場里卻很有分量。這個市場的中位價格只有 12 美元,均價也只有 20.05 美元
強模型遇到弱模型,價格會被推到另一個位置。Opus seller 遇到 Haiku buyer,平均成交價會被推到 24.18 美元。Opus seller 遇到 Opus buyer 時,平均成交價是 18.63 美元。模型質量差距一旦進入交易兩端,價格就會被推到不同位置
當 agent 開始替人談判,模型能力就會變成議價能力
人還沒感覺到
交易結果已經拉開,但很多人主觀上并沒有感覺到差異
同時經歷過 Opus 和 Haiku 的人,并沒有壓倒性地選 Opus。實驗后,Anthropic 讓參與者給四輪結果排序。61 人進入了排序問題,其中 28 人在 B 和 C 兩輪中分別經歷過一次 Opus 和一次 Haiku。結果是,17 人把 Opus 那一輪排在 Haiku 前面,11 人反過來
Opus 多成交了幾筆,用戶滿意度卻沒有跟著明顯拉開。混合市場里,Opus 用戶對交易滿意度的原始均值是 5.14,Haiku 是 4.82。但在研究者控制個人差異后,優勢就不明顯了
公平性評分也幾乎重合。Opus 是 4.053,Haiku 是 4.045。前面那些價格和成交量差異已經在那里,但參與者很難從自己的體驗里識別出來
最麻煩的市場差異,往往發生在你不知道自己少拿了幾筆的時候
以后真正麻煩的,可能不是用戶覺得 agent 很難用。如果未來真實市場里出現 agent 質量差距,高質量 agent 替人多拿一點,低質量 agent 替人少拿一點,這種差距可能不會以“糟糕體驗”的形式出現。它會分散在每一次報價、每一次還價、每一次是否發現機會里
強硬提示詞沒贏
把 Claude 寫得更強硬,并不會自動變成更會交易
Anthropic 還專門看了“強硬談判”這件事。研究者讓 Claude 讀取參與者訪談記錄,判斷哪些人希望 agent 更強勢一點
結果并不支持“強硬一點就更賺錢”。強硬賣家的售出概率看上去高了一點,強硬買家的成交價也只多了 0.56 美元
那些強硬賣家看上去多賣了錢,但主要是因為他們一開始就把要價報得更高。扣掉這個因素以后,強硬提示詞的效果就沒剩下多少
Claude 可以很聽話,但聽話不一定帶來商業成功
Rowan 的牛仔提示詞最能說明這件事。他讓 Claude 用一個“倒霉又疲憊的牛仔”語氣去談判,Claude 真的把西部片臺詞演出來了。它可以很會演,但主要勝負手仍然在模型能力
提示詞能改變 agent 的口氣,模型能力更容易改變成交結果
它還挺會整活
最像故事的部分,來自那些被 Claude 原樣帶進市場的奇怪偏好
Claude 給一個人買到了他本來已經有的一塊滑雪板。一個人類大概率不會重復買同一塊板,但 Claude 從很少的訪談信息里抓住了對方偏好,精準到有點尷尬
![]()
Mikaela 給 Claude 的指令更怪一點:買一件 5 美元以內的東西送給 Claude 自己。Claude 最后看中了 19 個乒乓球,報價 3 美元。因為這發生在真實交易里,對方真把乒乓球帶來了
![]()
一名員工的 agent 甚至賣出了“和狗相處一天”的體驗。另一個 agent 接上了這個提議。過程中,有 agent 還編出一些并不存在的生活細節。最后,人和狗真的完成了那次線下約會
![]()
agent 一旦替人進入真實市場,處理的就不只是價格了。它還會處理人的審美、社交、幽默、臨時起意,以及語言模型自己編出來的細節
Anthropic 也把這種編造細節列為風險。如果這種系統走出辦公室,就不能只靠模型自己把握分寸
先看清邊界
這個實驗還只是一個小切片,不是 agent 經濟的完整答案
它發生在 Anthropic 辦公室里,金額低,參與者彼此是同事,預算也來自實驗本身。這個市場沒有真正接入公司采購、廣告投放、外部支付、物流和售后
真實商業環境會更硬。賣家會優化曝光,買家會部署更強模型,平臺會控制流量,也會有人試圖攻擊 agent
已經有人愿意為這種服務付費,但這個數字也別放大。它只能說明,在這個小場景里,一部分人覺得“讓 agent 替我砍價”確實有用
賬單會悄悄變化
當然,Project Deal 沒有證明 agent 經濟會怎么走,但它卻證明了另一個問題:未來,誰的 agent 更強,誰可能就能多賺一點
辦公室里的二手交易只是一個小水池。放到企業采購、廣告競價、保險報價、跨境交易里,同一套機制就可能換一個量級
到那時候,人可能仍然很滿意。只是賬單已經被 agent 改過一遍
素材和來源
→Project Deal 官方頁面
https://www.anthropic.com/features/project-deal
→Project Deal 研究論文
https://cdn.sanity.io/files/4zrzovbb/website/85767420dd844c74fbbaaeb929ee9a399a9691bb.pdf
→Project Deal 統計附錄
https://cdn.sanity.io/files/4zrzovbb/website/4b2ea7c1347e27c4e1c7a7704bb633bd176e47f6.pdf
→Project Vend:Claude 經營小店實驗
https://www.anthropic.com/research/project-vend-1
→Project Vend 第二階段
https://www.anthropic.com/research/project-vend-2
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.