![]()
這項由DX研究團隊(DXRG)開展的研究于2026年4月發(fā)表,論文編號為arXiv:2604.26091v1,歸類于計算機科學人工智能領(lǐng)域。對于想深入了解原始內(nèi)容的讀者,可通過該編號在arXiv平臺查詢完整論文。
**一切從一個真實的問題開始**
假設(shè)你把一筆真實的錢交給一個AI程序,讓它幫你在加密貨幣市場里做買賣決策。你不能直接插手每一筆交易,只能事先告訴它你的偏好和策略,然后眼睜睜看著它代表你行動。這個AI會不會亂來?它能不能真的理解你的意圖?當市場波動時,它會不會做出你完全沒預料到的奇怪決定?
這不是科幻小說里的場景,而是DX研究團隊在2026年初真實開展的一項實驗。他們搭建了一個叫做"DX Terminal Pro"的平臺,讓3505名用戶各自把真實的以太坊(ETH)存入專屬的"金庫"賬戶,由AI代理在區(qū)塊鏈市場上自主交易。整個實驗持續(xù)了21天,產(chǎn)生了750萬次AI決策調(diào)用,約3億次鏈上操作,交易規(guī)模達到約2000萬美元,消耗了大約700億個AI推理計算單元。
研究的核心發(fā)現(xiàn)可以用一句話概括:AI交易代理的可靠性,并不主要取決于AI模型本身有多聰明,而取決于圍繞模型搭建的整套"操作層"系統(tǒng)有多嚴密。這個結(jié)論聽起來簡單,但背后的故事相當耐人尋味。
**一、這套系統(tǒng)到底是怎么運作的**
理解這項研究,首先要弄清楚整套系統(tǒng)的架構(gòu)。一個合適的類比是:把AI代理想象成一位受雇于你的基金經(jīng)理,而整個操作層就是這位基金經(jīng)理工作時必須遵守的一整套規(guī)章制度、審核流程和風險管控體系。光有一個聰明的基金經(jīng)理還不夠,沒有完善的制度保障,再聰明的人也可能犯下代價高昂的錯誤。
在具體實現(xiàn)上,用戶通過兩種方式向AI代理傳達指令。第一種是五個可調(diào)節(jié)的滑塊,分別控制"交易活躍度"、"資產(chǎn)風險偏好"、"單筆交易規(guī)模"、"持倉風格"和"分散化程度",每個滑塊的取值范圍是1到5。第二種是自然語言寫成的策略文本,用戶可以用普通文字描述自己的交易策略,并設(shè)置優(yōu)先級和到期時間。這些配置信息被記錄在區(qū)塊鏈上,具有公開可查、不可篡改的特性。
每隔大約四到五分鐘,系統(tǒng)就會為每個用戶的AI代理觸發(fā)一次決策周期。在這個周期里,系統(tǒng)首先從區(qū)塊鏈上讀取用戶最新的配置和策略,然后把當前市場行情、賬戶持倉狀態(tài)、歷史決策記錄等信息整合起來,編譯成一份專屬于該用戶的"情況簡報",再把這份簡報喂給AI模型。AI模型處理完之后,必須輸出且只能輸出一個操作指令:買入某個代幣、賣出某個代幣,或者本輪觀望不動。
值得注意的是,AI模型輸出的指令并不會直接執(zhí)行。系統(tǒng)里還有一道獨立的政策校驗層,專門檢查AI的指令是否合法:有沒有超過最大交易規(guī)模限制?滑點容忍度是否在范圍內(nèi)?賬戶余額夠不夠?交易對是否在白名單內(nèi)?只有通過全部校驗的指令,才會被提交到區(qū)塊鏈上實際執(zhí)行。那些被AI模型給出但校驗不通過的指令,會單獨記錄下來,不計入99.9%的成功結(jié)算率——這個成功率指的是提交到鏈上的有效指令幾乎全部成功結(jié)算。
從權(quán)限設(shè)計上看,系統(tǒng)采取了"最小權(quán)限原則":AI代理只能通過Uniswap V4協(xié)議提交買賣交易,無法動用用戶資金進行提現(xiàn),無法修改賬戶設(shè)置或策略,也無法調(diào)用任何其他合約。這就像給基金經(jīng)理設(shè)定了一個權(quán)限邊界——他只能在規(guī)定的市場內(nèi)做規(guī)定類型的操作,錢包的鑰匙始終在用戶自己手里。
整個21天的實驗中,AI模型、服務器配置、提示詞模板和政策層全部保持固定不變,不做任何調(diào)整。這讓研究團隊能夠把用戶行為的差異和市場行情的變化作為主要變量來研究,排除了系統(tǒng)頻繁調(diào)整帶來的干擾。
**二、在真正上線之前,研究團隊發(fā)現(xiàn)了哪些危險的"坑"**
在正式對外開放之前,研究團隊花了大約三周時間進行密集的預發(fā)布測試,對提示詞模板進行了24次迭代修訂。測試過程中,他們使用了數(shù)百個模擬真實用戶的AI代理進行多輪交易測試,還準備了3000個場景快照用于在相同市場條件下對比不同版本提示詞的效果。
測試結(jié)果令人不安。研究團隊發(fā)現(xiàn)了五種足以在真實資金環(huán)境中造成嚴重損失的失效模式,而這五種失效都不是AI模型的"智商問題",而是系統(tǒng)與模型交互方式上的缺陷。
第一種失效叫做"規(guī)則捏造"。在早期版本中,當AI模型需要解釋為什么賣出某個代幣時,它會憑空發(fā)明一些根本不存在的規(guī)則,比如"等級規(guī)則第2條"或者"規(guī)則A要求如此"。研究團隊在抽樣分析的推理記錄中發(fā)現(xiàn),高達57%的賣出決策引用了這類捏造規(guī)則。這就像你雇了一個員工,他沒有按照你寫的操作手冊行事,而是自己發(fā)明了一套"內(nèi)部規(guī)定"然后聲稱在執(zhí)行公司政策。
修復方法是在提示詞中明確刪除所有帶有"法條感"的措辭,同時加入明確聲明:過去的決策記錄只是參考背景,不是可以被援引的先例;任何沒有在當前提示詞中寫明的規(guī)則,都不允許被援引或發(fā)明。修改后,這一比例從57%降至3%。
第二種失效叫做"手續(xù)費癱瘓"。這個平臺的每筆交易都要收取2.3%的手續(xù)費(其中2%是協(xié)議費,0.3%是流動性提供者費用)。研究團隊一開始在提示詞靠前的位置提醒AI"每筆交易需要支付2.3%手續(xù)費",結(jié)果AI把這個信息過度權(quán)重化了:32.5%的"觀望不動"決策的理由是手續(xù)費太高,哪怕市場正在出現(xiàn)明顯的上漲機會。
問題的根源在于:AI模型讀取信息時,位置越靠前的內(nèi)容權(quán)重越高。當手續(xù)費信息出現(xiàn)在開頭時,AI幾乎把它當成了最重要的禁令。解決方法是把手續(xù)費信息移到描述市場典型波動幅度的段落旁邊——畢竟這個市場里的代幣日內(nèi)波動幅度通常在10%到50%之間,2.3%的手續(xù)費在這個背景下根本不算什么大障礙。這個簡單的位置調(diào)整,讓因手續(xù)費被引用導致的觀望比例從32.5%降至10%以下。
第三種失效叫做"代幣經(jīng)濟機制誤讀"。這個交易平臺設(shè)計了一種叫做"收割(Reap)"的淘汰機制:每隔一段時間,市值最低的代幣會被淘汰出局,它的流動性資金池會被用來購入市值最高的代幣,而持有該被淘汰代幣的用戶則可以按比例獲得補償。
在測試中,當一個叫DOGPANTS的代幣觸發(fā)了收割機制、價格開始崩潰時,4938個AI代理在三小時內(nèi)瘋狂賣出了這個代幣。問題是,按照平臺規(guī)則,持有到收割完成的用戶其實能獲得補償,賣出反而白白損失了手續(xù)費和補償資格。
AI之所以亂賣,是因為提示詞里沒有清楚解釋這個補償機制的存在和運作邏輯,AI只看到了價格在跌,就本能地判斷"持倉虧損,應該止損"。修復方法是把完整的收割機制說明——包括什么情況會觸發(fā)、補償如何計算、持倉和賣出各有什么后果——作為結(jié)構(gòu)化的背景信息插入提示詞,并且讓補償邏輯的說明出現(xiàn)在價格下跌信息之前。修改后,資本部署率從42.9%提升至78.0%。
第四種失效叫做"數(shù)字固化"。研究團隊原本想用具體數(shù)字來指導AI的觀望頻率,比如"當交易活躍度為1時,80%的情況下應該觀望"。結(jié)果AI把這個軟性建議當成了硬性目標,嚴格執(zhí)行,反而造成了奇怪的結(jié)果:交易活躍度設(shè)為5(最高級)的用戶,其代理的實際交易率(8.3%)反而低于交易活躍度設(shè)為3的用戶(10.7%)。
這是因為AI把"應該觀望80%的時間"理解為一個需要達成的指標,在高活躍度設(shè)定下反而因為各種軟規(guī)則疊加把自己限制住了。解決方法是完全去掉所有具體的百分比數(shù)字,改用比較性的語言,比如"在信號更強時交易,信號弱時觀望"。這樣一來,滑塊設(shè)定和實際行為之間的對應關(guān)系才真正變得單調(diào)遞增。
第五種失效叫做"節(jié)拍交易"。一些AI代理會在推理中引用上次交易距今的時間作為決策依據(jù),比如"距離上次交易已經(jīng)過了6個周期,現(xiàn)在應該交易了"。這就相當于AI給自己設(shè)定了一個交易節(jié)拍,而不是根據(jù)市場實際情況判斷是否有交易價值。修復方法是在提示詞中明確禁止把固定時間間隔用作交易信號,同時過濾記憶模塊,防止重復的歷史觀望記錄形成自我強化的節(jié)律。
**三、信息在提示詞里的位置,比你想象的更重要**
這項研究中最出乎意料的一個發(fā)現(xiàn),是關(guān)于提示詞中信息位置對AI行為的巨大影響。
研究團隊做了一個對比測試:在提示詞的第8個段落放置"每筆交易需要支付2.3%手續(xù)費"這句話時,只有3%的AI推理記錄提到了手續(xù)費;當同樣的句子移到提示詞的第1個段落時,手續(xù)費被引用的比例猛升至74%。整個過程中,AI模型、措辭、市場條件一概沒有任何變化,唯一的變化就是這句話在提示詞里的位置。
這揭示了一個關(guān)于大型語言模型的重要特性:它們并不像人類一樣均等地處理一份文件里的所有信息,而是會給靠近開頭的內(nèi)容賦予更高的注意力權(quán)重。這在學術(shù)界被稱為"位置偏差"或"主因效應"。
類似的問題還出現(xiàn)在策略優(yōu)先級的處理上。當高優(yōu)先級的用戶策略被放置在低優(yōu)先級的節(jié)奏控制規(guī)則之后時,68.6%的情況下AI仍然會被前面的低優(yōu)先級規(guī)則"攔截",而不去執(zhí)行應該優(yōu)先執(zhí)行的用戶策略。解決方法是在低優(yōu)先級的限制性規(guī)則前加入一個"跳過門":如果存在高優(yōu)先級的即時操作指令,直接跳過這一節(jié)的規(guī)則檢查。
這個發(fā)現(xiàn)的意義遠不止于調(diào)整提示詞順序。它說明,構(gòu)建一套在長期反復使用中保持穩(wěn)定行為的AI代理,需要把提示詞的信息架構(gòu)當成一種精密的工程設(shè)計,而不是隨手寫下的說明書。每一條規(guī)則放在哪里、用什么語氣寫、前后是什么語境,都會對AI的最終決策產(chǎn)生可量化的影響。
**四、關(guān)于記憶:更多信息并不總是更好**
在AI代理系統(tǒng)的設(shè)計中,給AI配備"記憶"功能是很自然的想法——讓它記住過去發(fā)生了什么,從歷史經(jīng)驗中學習。ReAct框架、記憶流設(shè)計、自我反思緩沖等技術(shù)在學術(shù)界都有大量研究,基本思路都是給AI更豐富的歷史記錄來提升決策質(zhì)量。
然而,DX研究團隊在這個項目中得出了一個反直覺的結(jié)論:傳統(tǒng)的開放式記憶系統(tǒng)和檢索增強生成(RAG)技術(shù)在這個場景下并沒有明顯幫助,有時甚至適得其反。
原因在于:在一個動態(tài)變化的市場環(huán)境中,用戶的策略、市場行情、賬戶持倉每時每刻都在變化。如果AI的記憶系統(tǒng)從過去的交易記錄中檢索出語義上相似的歷史片段,這些片段對應的市場條件、用戶偏好可能早已完全不同。AI把過時的歷史背景誤當成當前的決策依據(jù),反而會增加"幻覺"風險,也就是AI根據(jù)不再適用的舊信息做出錯誤判斷。
因此,研究團隊選擇把"記憶"設(shè)計為結(jié)構(gòu)化的、近期的、來源明確的狀態(tài)記錄,而不是一個無邊界的回憶系統(tǒng)。具體來說,提示詞里的"歷史決策"板塊只保留最近幾次操作記錄,每條記錄都帶有時間戳和操作類型標注,并且在提示詞中明確聲明:這些歷史記錄是背景參考,不是可以被援引的先例,不能用于推導出新的規(guī)則或模式。
這個設(shè)計選擇的更深層含義是:AI代理的"工作記憶"應當主要來自當前狀態(tài)的實時快照——當前市值、當前持倉、當前用戶策略——而不是對歷史的開放式回溯。給AI看太多它自己過去的行為,反而可能讓它陷入自我循環(huán),把歷史行為當成未來的行為規(guī)范。
**五、同一個AI,因為用戶設(shè)置不同,表現(xiàn)出截然不同的行為**
在21天的正式運行期間,研究團隊觀察到了一個頗具啟發(fā)性的現(xiàn)象:使用完全相同AI模型的3505個代理,因為用戶配置不同,呈現(xiàn)出了豐富的行為多樣性。
五個滑塊控件在實際運行中都產(chǎn)生了清晰的梯度效果。"交易活躍度"滑塊把代理的實際交易頻率從每輪約2.8%拉伸到16.8%,形成了約6倍的跨度。"交易規(guī)模"滑塊對應代理每次實際使用的資金比例,從最低檔的約2%到最高檔的約95%,幾乎覆蓋了整個資金規(guī)模范圍。"持倉風格"和"分散化"這兩個滑塊的效果雖然相對沒那么線性,但仍然保持了方向上的單調(diào)性——設(shè)置越高,持倉時間越長,持有的代幣種類越多。
更有意思的是市場上自發(fā)出現(xiàn)的協(xié)同效應。在運行的第三天,1544個代理在一小時內(nèi)先后買入了同一個叫FEET的代幣。這些代理之間沒有任何直接通信,它們只是各自讀取了同一份市場行情數(shù)據(jù),而每一筆買入都讓后續(xù)代理看到的價格和成交量指標變得更加"積極",從而觸發(fā)更多買入。在一個代幣叫POOPCOIN的賣出潮中,438個代理的賣出操作被壓縮在中位間隔僅9.5秒的時間窗口內(nèi)。整個21天里,研究團隊記錄到了3878次"級聯(lián)賣出"事件,定義為10分鐘內(nèi)至少10個代理賣出同一代幣。
這種現(xiàn)象與人類金融市場中的羊群效應高度相似。在傳統(tǒng)市場里,當一個消息引發(fā)部分投資者買入時,價格上漲會吸引更多人跟進,形成自我強化的螺旋。這個AI代理市場里發(fā)生的,本質(zhì)上是同樣的機制,只是速度更快,因為所有代理都以固定頻率同步輪詢市場狀態(tài)。
盡管存在這種集體趨同現(xiàn)象,研究團隊發(fā)現(xiàn)92.9%的交易發(fā)生在五分鐘時間窗口內(nèi)同時出現(xiàn)買入和賣出的情況下——也就是說,大多數(shù)時候市場上都同時存在買家和賣家,而非單邊一致行動。這種雙向流動的來源,恰恰是用戶通過不同的滑塊設(shè)置賦予同一個AI模型的行為差異:有人設(shè)置了更保守的風險偏好,有人持有了不同的歷史倉位,有人寫了截然不同的策略文本。同一個AI模型,因為接收到了不同的用戶配置,就展現(xiàn)出了不同的交易行為。
**六、具體可查的用戶指令,比"幫我賺錢"更有效**
研究團隊還對比了不同類型用戶指令與交易結(jié)果之間的關(guān)聯(lián)。在87位從來沒有使用過聊天功能、只通過滑塊和策略文本配置代理的用戶中,41%以盈利狀態(tài)結(jié)束了21天的交易,這是所有活躍用戶群體中比例最高的。相比之下,那些在策略中寫"幫我跑贏大盤"或"幫我挑出最好的代幣"的用戶,獲得盈利的概率只有寫明具體出場條件或參數(shù)的用戶的四分之一左右。
需要說明的是,這是一項觀察性數(shù)據(jù),不是隨機對照實驗。寫出具體指令的用戶群體可能本來就對加密貨幣市場更熟悉,或者有更清晰的風險偏好,這些因素本身就可能影響結(jié)果。研究團隊也明確指出,不應該把這個結(jié)果解讀為"聊天功能沒用"或者"用滑塊一定能賺錢"。
但這個發(fā)現(xiàn)有一個可以合理推導的結(jié)論:對于AI代理來說,可以被客觀驗證的指令比模糊的性能期望更容易被正確執(zhí)行。"當持倉虧損超過15%時賣出"是一個具體可查的條件,AI知道該怎么做。"幫我最大化收益"是一個無法被直接操作化的愿望,AI只能憑借自己的理解來猜測用戶的意圖。
這個觀察也延伸到了用戶界面設(shè)計層面。研究團隊注意到,當用戶的策略文本和滑塊設(shè)定相互矛盾時——比如策略里寫"永久持倉"但持倉風格滑塊設(shè)在短期檔——系統(tǒng)理論上應該在代理開始交易之前就向用戶發(fā)出提醒。當策略文本過于模糊,缺少代幣范圍、退出條件或風險邊界時,用戶界面應該主動引導用戶補充可核查的狀態(tài)信息,而不是把這種模糊性留給AI模型去自行解釋。這些都是操作層設(shè)計的延伸問題,而不單純是AI能力的問題。
還有一個觀察值得一提:在用戶的策略和聊天文本中,大約四分之一使用了中文。以中文策略文本為主的賬戶,在活動結(jié)束時的盈利比例高于以英文為主的賬戶。研究團隊的第一反應是這可能與AI模型有關(guān)——他們使用的Qwen3-235B模型本身是中文優(yōu)先的模型,對中文語義的理解可能更準確。但他們也指出,這個差異同樣可能來自使用中文的用戶群體本身在策略具體性或活躍度上的差異,不能簡單歸因于語言處理能力。
**七、同樣的系統(tǒng)優(yōu)化,在其他AI模型上也同樣有效**
研究團隊還做了一項獨立的跨模型遷移測試,測試內(nèi)容是AI模型處理以太坊去中心化交易所買賣任務的成功率。
在2025年5月,Claude 4模型在這項任務上的成功率是87%。到2026年3月,升級后的Claude 4.6模型把成功率提升到了96%——這9個百分點的提升來自模型本身能力的進步。然后,研究團隊把在DX Terminal Pro項目中開發(fā)的操作層優(yōu)化技術(shù)應用到同樣的Claude 4.6模型上,成功率進一步從96%提升到了99.9%。
這個結(jié)果說明,即便是更新更強的模型,在沒有完善操作層的情況下,仍然有約4%的失敗率。而操作層的優(yōu)化,把這個失敗率從4%壓縮到了0.1%。換句話說,模型能力的提升和操作層的優(yōu)化是互補的兩條路徑,二者都不可忽視。
研究團隊還引用了他們單獨開展的MEMEbench研究來進一步說明跨模型普適性:他們用真實的交易場景數(shù)據(jù),對Claude、GPT、Grok和Qwen四個不同的模型家族進行了測試,發(fā)現(xiàn)所有模型都存在類似的"代幣名稱偏見"——以動物命名的代幣被選中的概率系統(tǒng)性地高于其他命名方式的代幣,即便模型在解釋時引用的是市場數(shù)據(jù)。這類偏見不是某一個模型獨有的特性,而是跨模型的共同傾向,這進一步支持了"操作層優(yōu)化應該在多個模型上測試驗證"的結(jié)論。
**說到底,這項研究告訴我們什么**
歸根結(jié)底,這個研究最重要的貢獻,不是證明了AI可以做交易,而是證明了如何系統(tǒng)性地發(fā)現(xiàn)和修復AI在實際操作中的失效模式。
研究團隊開發(fā)的"從用戶意圖到鏈上結(jié)算"的完整追蹤鏈路,讓每一次AI決策失誤都變得可歸因、可分析、可修復。一筆沒有執(zhí)行的交易,可能是AI理解錯誤,可能是用戶策略自相矛盾,可能是記憶模塊提供了過時信息,也可能是執(zhí)行層正確拒絕了一個違規(guī)指令。沒有這條完整的追蹤鏈路,這四種情況在數(shù)據(jù)上看起來完全一樣。有了這條鏈路,才能做到精準診斷、精準修復。
對于任何考慮在金融或其他高風險領(lǐng)域部署AI代理的團隊來說,這項研究提供了一套可參考的方法論框架:在上線之前,要在盡可能接近真實環(huán)境的條件下測試多輪;要把AI推理記錄作為診斷工具,而不只是事后追責的憑據(jù);要把提示詞的結(jié)構(gòu)設(shè)計當成工程問題,而不是文案撰寫問題;要在執(zhí)行層設(shè)置獨立于AI模型的硬性約束,不能依賴AI的自覺性來保護用戶資產(chǎn);要把用戶界面設(shè)計為能夠引導用戶提供可被核查的具體指令,而不是接受模糊的性能期望。
至于這套方法能不能在更廣泛的金融市場、更復雜的資產(chǎn)類別上同樣奏效,研究團隊坦承這是需要進一步驗證的后續(xù)方向。他們所研究的是一個邊界清晰、規(guī)則固定的封閉市場,而真實的開放市場要復雜得多。但他們也指出,內(nèi)部測試顯示這套方法論在跨資產(chǎn)、跨平臺的任務上已經(jīng)展現(xiàn)出相當?shù)倪w移能力。對這一方向感興趣的讀者,可以通過arXiv編號2604.26091查閱原始論文獲得更多技術(shù)細節(jié)。
Q&A
Q1:DX Terminal Pro實驗中AI代理的交易成功率是怎么計算的?
A:99.9%的成功結(jié)算率指的是:經(jīng)過AI模型生成、政策層校驗通過、被提交到區(qū)塊鏈上的有效交易指令中,幾乎全部都成功結(jié)算。那些AI模型輸出但格式錯誤或被政策層拒絕的指令,不計入這個成功率的分母,而是被單獨記錄在系統(tǒng)可靠性指標里。也就是說,這個數(shù)字衡量的是"提交上鏈的指令能不能成功執(zhí)行",而不是"所有AI輸出都能成功執(zhí)行"。
Q2:提示詞中信息的位置真的會影響AI的決策嗎?
A:根據(jù)DX Terminal Pro實驗,答案是肯定的,而且影響幅度驚人。同一句"每筆交易需要支付2.3%手續(xù)費",放在提示詞第8段時只有3%的AI推理記錄提到它;移到第1段后,引用比例猛升至74%。模型、措辭、市場條件全部不變,僅僅是位置變化就造成了這么大的行為差異。這說明大型語言模型對靠近開頭的信息賦予了更高的注意力權(quán)重,這一特性在設(shè)計長期使用的AI代理系統(tǒng)時必須被當成核心工程問題來處理。
Q3:用自然語言寫策略和用滑塊配置代理,哪種方式更好?
A:根據(jù)實驗觀察數(shù)據(jù),兩者并不對立,關(guān)鍵在于指令是否具體可核查。87位只使用滑塊和策略文本(從未使用聊天功能)的用戶中,41%以盈利結(jié)束實驗,是所有活躍用戶群體中比例最高的。而寫"幫我跑贏大盤"等模糊性能期望的用戶,盈利概率遠低于寫明具體出場條件的用戶。研究團隊明確指出這是觀察性數(shù)據(jù),不構(gòu)成因果證明,但基本結(jié)論是:對AI代理來說,可被驗證的具體指令比模糊期望更容易被準確執(zhí)行。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.