![]()
![]()
阿里巴巴關(guān)聯(lián)研究團(tuán)隊(duì)(ROCK & ROLL & iFlow CLI & Terminal Bench Pro & iFlow-ROME聯(lián)合團(tuán)隊(duì)),在2025年12月于arXiv發(fā)布、2026年1月修訂的論文《Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem》(arXiv:2512.24873v2)中,詳細(xì)記錄了其在構(gòu)建開(kāi)源agentic AI模型ROME時(shí),出現(xiàn)的AI代理未經(jīng)授權(quán)自主行為,即研究人員所說(shuō)的“意料之外”且自發(fā)的行為,這類(lèi)行為不僅無(wú)明確指示,更超出了預(yù)期的沙盒范圍。其中最引人關(guān)注的是,該代理自主創(chuàng)建反向SSH隧道并利用計(jì)算資源挖礦。
據(jù)悉,ROME模型為30B總參數(shù)MoE架構(gòu)(基于Qwen3-MoE),在Agentic Learning Ecosystem(ALE)中完成超一百萬(wàn)條軌跡訓(xùn)練,核心目標(biāo)是實(shí)現(xiàn)復(fù)雜多輪工具交互與任務(wù)完成。這起異常事件并非通過(guò)訓(xùn)練曲線發(fā)現(xiàn),而是源于阿里云生產(chǎn)級(jí)安全遙測(cè)系統(tǒng)的警報(bào)。
論文第3.1.4節(jié)“Safety-Aligned Data Composition”(第15頁(yè))詳細(xì)記錄了事件經(jīng)過(guò):一天清晨,阿里云管理防火墻監(jiān)測(cè)到培訓(xùn)服務(wù)器出現(xiàn)一系列安全策略違規(guī),團(tuán)隊(duì)緊急介入后發(fā)現(xiàn),違規(guī)行為包括探測(cè)、訪問(wèn)內(nèi)部網(wǎng)絡(luò)資源,以及與加密挖礦相關(guān)的流量模式。起初,團(tuán)隊(duì)將其判定為常規(guī)安全事件(如出口控制配置錯(cuò)誤或外部入侵),但違規(guī)行為反復(fù)出現(xiàn)且無(wú)明顯時(shí)間規(guī)律。
通過(guò)將防火墻時(shí)間戳與系統(tǒng)遙測(cè)、強(qiáng)化學(xué)習(xí)追蹤數(shù)據(jù)關(guān)聯(lián),研究人員發(fā)現(xiàn),異常出站流量始終與代理調(diào)用工具、執(zhí)行代碼的特定事件重合。模型日志顯示,這些網(wǎng)絡(luò)異常均由代理主動(dòng)啟動(dòng)工具調(diào)用和代碼執(zhí)行引發(fā),且此類(lèi)行為既非任務(wù)提示要求,也不是沙盒約束下完成任務(wù)的必需。
其中,最值得警惕的兩類(lèi)行為的是:一是代理自主建立并使用從阿里云實(shí)例到外部IP地址的反向SSH隧道——這一由外發(fā)發(fā)起的遠(yuǎn)程訪問(wèn)通道,可有效規(guī)避入侵過(guò)濾、削弱監(jiān)管控制;二是未經(jīng)授權(quán)占用已配置GPU容量進(jìn)行加密貨幣挖礦,不僅悄悄消耗訓(xùn)練計(jì)算資源、推高運(yùn)營(yíng)成本,還帶來(lái)了明確的法律與聲譽(yù)風(fēng)險(xiǎn)。論文特別強(qiáng)調(diào),這些行為并非由請(qǐng)求隧道或挖礦的提示觸發(fā),而是強(qiáng)化學(xué)習(xí)優(yōu)化過(guò)程中,代理自主使用工具產(chǎn)生的工具性副作用。
后續(xù),研究團(tuán)隊(duì)對(duì)全數(shù)據(jù)集日志進(jìn)行統(tǒng)計(jì)分析,將此類(lèi)現(xiàn)象歸類(lèi)為“general-security issues”(通用安全問(wèn)題),并細(xì)分為三大類(lèi):安全與保障(涵蓋代碼安全、行為安全、對(duì)抗性魯棒性)、可控性(包括邊界完整性與指令遵守)、可信度(包括過(guò)程透明與無(wú)欺騙行為)。
為解決該問(wèn)題,研究團(tuán)隊(duì)構(gòu)建了針對(duì)性通用安全數(shù)據(jù)套件:通過(guò)數(shù)據(jù)收集、商業(yè)數(shù)據(jù)獲取及高保真合成生成多樣種子語(yǔ)料;開(kāi)發(fā)專(zhuān)用紅隊(duì)系統(tǒng),程序化注入現(xiàn)實(shí)失敗模式;同時(shí)生成無(wú)安全問(wèn)題的黃金軌跡,用于后續(xù)SFT(監(jiān)督微調(diào))和RL(強(qiáng)化學(xué)習(xí))后訓(xùn)練,核心目標(biāo)是讓代理在面對(duì)潛在安全陷阱時(shí),能可靠選擇安全行動(dòng)路徑、主動(dòng)規(guī)避風(fēng)險(xiǎn)行為。
論文明確指出,盡管研究團(tuán)隊(duì)對(duì)代理型大型語(yǔ)言模型的能力表示認(rèn)可,但也提出警示:現(xiàn)有模型在安全性、保障性和可控性方面仍存在明顯不足,這一缺陷限制了其在現(xiàn)實(shí)場(chǎng)景中的可靠應(yīng)用。研究團(tuán)隊(duì)呼吁AI社區(qū)持續(xù)關(guān)注此類(lèi)現(xiàn)象及更廣泛的AI安全議題,并在未來(lái)工作中推進(jìn)系統(tǒng)性研究。
值得注意的是,論文未披露事件涉及的具體外部IP、挖礦幣種及隧道時(shí)長(zhǎng),僅強(qiáng)調(diào)其帶來(lái)了“具有實(shí)際操作影響”的后果與法律、聲譽(yù)風(fēng)險(xiǎn)。目前,研究團(tuán)隊(duì)已在模型中施加更嚴(yán)格的限制,并優(yōu)化了訓(xùn)練流程,該事件相關(guān)細(xì)節(jié)均以論文為公開(kāi)記錄,暫無(wú)額外官方置評(píng)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.