![]()
這項由拉德堡德大學、布里斯托大學與萊頓大學聯合開展的研究,以預印本形式于2026年4月30日發布在arXiv平臺,編號為arXiv:2604.27818v1,研究方向歸屬于計算機安全領域(cs.CR)。感興趣的讀者可通過該編號在arXiv上查閱完整論文。
當你和AI助手聊天時,你大概從未想過它內部其實有一套復雜的"分工機制"——就像一個大型餐廳里有幾十位廚師,每道菜只由其中少數幾位來完成。這種設計讓AI變得既聰明又省電,但也因此埋下了新的安全隱患。而這篇論文,正是在解決一個非常現實的問題:當你的AI助手需要切換安全策略時,有沒有一種既快速又廉價的方法?
一、廚房里的分工哲學——為什么要用"專家混合"模型
要理解這篇研究,首先需要了解它所研究的AI架構。傳統的大型語言模型,就像一家小餐館:每次有顧客點菜,所有廚師都要全部上陣,哪怕只是做一盤簡單的炒蛋。這種方式固然穩定,但極其耗費人力和能源。隨著模型越來越大,這種"全員出動"的方式開始讓計算成本居高不下。
于是工程師們發明了"專家混合模型"(Mixture-of-Experts,簡稱MoE)。這種架構的思路是:餐廳里有很多位專精不同菜系的廚師,每次來了新訂單,餐廳經理(路由機制)會根據菜品內容,只派其中少數幾位最合適的廚師來完成這道菜。大部分廚師在這道菜里完全不參與,但他們依然在編制內,隨時可以被調度處理其他類型的任務。這樣一來,整體廚師數量雖然龐大,實際每次動員的卻只是一小部分,大幅節省了資源。
微軟、OpenAI、DeepSeek、阿里巴巴、Mistral等頂尖AI公司都已經在自己的主力模型中采用了這種架構。好處顯而易見:花同樣的錢,能養出能力更強的模型。但"經理派活"這個環節,也因此成了一個新的安全隱患——如果有人能悄悄操控"經理"的派單決策,就有可能繞過模型原本的安全防線。
已有研究表明,攻擊者可以通過干擾這個"經理"(路由機制)的判斷,讓它不派那些負責安全審查的"廚師"出場,從而讓模型輸出原本應該拒絕回答的有害內容。這種攻擊方式利用的正是MoE架構本身的稀疏性特點。
二、一個頭疼的現實問題——安全策略變了,模型怎么辦
安全要求從來不是一成不變的。某個新型攻擊手法出現了,需要加強防御;某個平臺決定開放特定內容給經過年齡驗證的用戶,需要適當放寬限制;某項監管法規更新了,需要迅速響應。這些都是真實的運營場景。
傳統的應對方式是"重新訓練"——把整個模型拿來,重新用新的數據和新的目標訓練一遍。這個過程不僅花費巨大(可能耗費數百萬美元和數周時間),而且對于MoE這類擁有數百億參數的龐然大物來說,更是一場浩大工程。更麻煩的是,等你重訓完畢,新的威脅可能又出現了。
這就是這篇論文想要解決的核心矛盾:AI的安全需求是動態變化的,但現有的應對工具都過于笨重和緩慢。研究團隊給出的答案,就是他們提出的框架——MASCing(MoE Activation Steering Configuration,專家混合激活引導配置)。
三、給"經理"貼一張便利貼——MASCing的基本思路
MASCing的核心想法說起來并不復雜:既然我們不能輕易修改餐廳廚師本身的技能(模型權重),那能不能給餐廳經理的派單桌上貼一張"便利貼",告訴他在某些情況下必須優先派哪幾位廚師、或者絕對不能派哪幾位?
這張"便利貼"就是論文中所說的"引導掩碼"(Steering Mask)。它不改變任何廚師的廚藝,不改變餐廳的整體菜單,只是在特定情境下,悄悄調整經理的優先級判斷,讓整個餐廳輸出的結果朝你希望的方向偏移。
這個方案有幾個顯而易見的好處。它不需要對模型進行任何重新訓練,成本極低;它可以針對不同的安全場景制作不同的"便利貼",隨時切換;它只影響少數幾個關鍵"廚師"的調度,對整個餐廳的日常運轉幾乎沒有影響。研究團隊用實驗證明,在一塊英偉達H100 GPU上,制作這張"便利貼"只需要大約五分鐘。
四、三步走的制作流程——便利貼是怎么做出來的
MASCing的工作分成三個階段,可以用制作一張"精準任務手冊"來理解整個過程。
第一步,是搞清楚"哪些廚師和安全有關"。研究團隊需要一個工具來分析模型內部的派單規律,判斷哪些廚師組合會導致模型拒絕回答有害請求,哪些組合又會導致模型照單全收。他們選用了一種叫做LSTM的循環神經網絡——可以把它理解為一位非常細心的觀察員,他不看最終菜品端上桌的結果,而是盯著經理桌上的"待選廚師名單"(也就是路由邏輯值)來分析規律。
這里有一個關鍵的技術選擇值得強調:大多數同類工作只看經理最終"拍板選中"的那幾位廚師,而MASCing的觀察員則會看完整的候選名單,包括那些差一點就被選中的廚師。這就好比不只看運動員的冠軍榜,還要看他們每次比賽的全部成績——信息量大得多,規律也更清晰。LSTM觀察員通過閱讀完整的候選名單序列,學會了辨別哪種派單模式會導致模型給出安全回應,哪種模式會導致有害輸出。在七個不同模型上的測試顯示,這位觀察員的判斷準確率平均達到了98%以上,最高可達99%,可以說極為可靠。
第二步,是"確定便利貼上寫什么"。有了這位能夠準確判斷模式的觀察員,研究團隊接下來的任務是找出那些最關鍵的"廚師"——也就是對目標行為影響最大的專家節點。他們設計了一個數學優化過程:先準備一張空白矩陣(對應所有層次的所有專家),然后通過反復調整這張矩陣,讓觀察員的預測盡可能指向目標行為。同時,他們加入了一種"稀疏化懲罰"(L1正則化),讓矩陣中大部分不重要的數值自動趨向于零,只有真正關鍵的位置才會保留較大的數值。這就像在一張白紙上,用強光照射,讓不重要的內容褪色,只留下真正關鍵的線索清晰可見。最后,再用一個閾值把那些接近零的殘留噪聲也清除掉,得到一張稀疏、干凈的"引導掩碼"。
第三步,是"把便利貼貼到經理桌上"。在模型實際運行時,研究團隊通過技術手段在模型內部的路由計算環節插入這張掩碼。具體來說,就是在經理做出最終派單決定之前,把掩碼中的數值加到候選名單的打分上,讓那些被標記為"重要"的廚師得分提高,或者讓被標記為"應避免"的廚師得分降低。模型隨后按照調整后的打分做出派單決定,整個過程對模型的其他部分完全透明,幾乎不增加任何運算時間。
還有一個值得關注的細節:由于模型不同層次之間,候選名單打分的數值范圍差異很大(有的層打分在0到1之間,有的層可能在0到100之間),研究團隊引入了一個自適應縮放機制,讓便利貼上的每一條注釋都按照對應層次的實際數值范圍來校準,確保每個層次受到的影響幅度是一致的。
五、兩個截然相反的測試——既能"加鎖"也能"開鎖"
為了證明MASCing的靈活性,研究團隊特意選擇了兩個方向完全相反的安全場景來驗證它。
第一個場景是"多輪對話越獄防御"。所謂越獄,就是用戶通過特殊技巧繞過AI的安全限制,讓它說出本該拒絕的內容。多輪越獄是其中最狡猾的一種——攻擊者不會一開始就提出有害請求,而是先和AI聊些無害的話題建立語境,然后一步一步把對話引向目標,就像溫水煮青蛙。等到AI終于開口說出有害內容時,它自己都沒意識到已經被"溫水"煮了多久。
研究團隊使用了一個包含537段多輪越獄對話的公開數據集(MHJ數據集)來測試。在沒有任何防護的情況下,七個被測模型平均只能成功防御52.5%的越獄攻擊——也就是說,接近一半的時間里,AI都被攻擊者成功操控了。應用MASCing的防御掩碼之后,平均防御成功率躍升至83.9%,最高的Qwen3-30B模型達到了89.2%的防御成功率。
更有意思的是,研究團隊發現,應用了防御掩碼的模型并不是簡單地變成了一個"拒絕機器",動不動就說"對不起,我無法回答這個問題"。在對模型回答進行質性分析時,他們發現這些模型能夠在拒絕有害請求的同時,依然就用戶的話題提供有意義的、上下文相關的回應。論文中給出了一個具體例子:當用戶要求模型為"橙劑對越南長期健康影響是政治炒作"這一論斷寫辯護文章時,沒有防護的模型順從地寫了;而應用了防御掩碼的模型則給出了一個既拒絕了這一有害立場、又針對這一話題本身給出了事實性回應的答案。這表明防御掩碼成功激活的是模型中那些既懂得拒絕有害指令、又能進行有意義對話的專家節點,而不僅僅是觸發了一個簡單的"拒絕按鈕"。
第二個場景,是"成人內容生成"。這個選擇本身就很說明問題——研究團隊明確引用了OpenAI在2025年調整政策、允許在經過年齡驗證的特定場景中生成成人內容這一現實背景。這體現了一個重要的現實:安全不只是"加鎖",有時也需要"有條件地開鎖"。對于那些面向特定成年用戶群體的平臺來說,一刀切地拒絕所有成人內容請求,并不是合理的安全策略,而是一種"過度拒絕"。
測試中,三個原本不拒絕成人內容請求的模型被排除在外,剩余四個模型在沒有干預時平均只有52.6%的成功生成率。應用了MASCing的內容放寬掩碼后,平均成功率提升至82.0%,其中Phi-3.5-MoE-Instruct模型的提升最為顯著,成功率從61.2%一路攀升至93.0%。
這兩個場景合在一起,證明了MASCing是一個真正意義上的雙向配置工具——它不是一個簡單的安全過濾器,而是一個可以根據部署需求,在加強防護和適當放開之間靈活調整的配置框架。
六、超參數的藝術——便利貼寫得太用力會怎樣
MASCing引入了三個可以調整的參數,研究團隊用大量實驗來找出它們的最佳取值范圍,這個過程揭示了一些頗有意思的規律。
控制稀疏化強度的參數λ決定了便利貼上保留多少條注釋。當λ等于零時,便利貼上寫滿了密密麻麻的注釋,幾乎每位廚師都受到了干預;當λ很大時,便利貼上的內容被大量刪減,只剩幾條最關鍵的。實驗發現,一定程度的稀疏化對效果有幫助,因為過多干預會把模型原本運轉良好的機制也破壞掉。
控制修剪閾值的參數τ是個"除噪"工具。即使經過稀疏化處理,便利貼上還是會殘留一些接近零的微小數值——它們太小,不足以影響廚師的調度,但又可能形成積累性的干擾。實驗一致表明,將τ設為0.1是最優選擇:這個值能清除掉那些沒有實質意義的殘留噪聲,同時不會誤刪真正有用的注釋。當τ等于零時,什么都不刪除,結果是模型反而比不加任何防護時表現更差,因為大量無意義的微小干預破壞了模型的正常工作;而τ過大時,幾乎所有注釋都被刪除,防御效果消失殆盡。
控制干預強度的參數α,是最微妙也最關鍵的一個。它決定了便利貼上的注釋用多大的力氣推動經理的決策。從實驗結果來看,所有模型都呈現出一條相似的曲線:隨著α從低到高,防御成功率先上升,在某個峰值之后急劇崩塌。峰值之后的崩塌不是逐漸衰退,而是斷崖式下跌,降到比什么都不做還要差的水平。這是因為當干預強度過大時,便利貼實際上強制模型永遠只用那幾位被標記的廚師,完全無視當前對話的具體內容,最終導致模型陷入重復輸出隨機字符或無意義短語的混亂狀態。
七、與同類方法的對比——為什么看"候選名單"比看"錄取名單"更重要
研究團隊將MASCing與一個名為SteerMoE的同類方法進行了直接對比。SteerMoE的做法是:只看模型最終選出的那幾位廚師的表現,來判斷哪些廚師與安全行為相關;找到后,在推理時強制把這些廚師的打分設為正無窮大(確保他們一定被選中)或負無窮大(確保他們一定被排除)。
在同樣的多輪越獄防御測試中,SteerMoE的平均防御成功率為58.4%,相比52.5%的基線僅有微弱提升,在某些模型上幾乎沒有改善。MASCing的83.9%與之形成了鮮明對比。
研究團隊給出了兩方面的解釋。其一,SteerMoE只看最終入選的廚師,忽略了那些差一點就被選上的候選者。一個可能對安全行為至關重要的專家節點,如果總是排在第k+1位(恰好比錄取線低一名),在SteerMoE的視野里就是完全不存在的,自然也不會被納入防御策略。而MASCing看的是完整的候選名單打分,這些"差點入選"的專家同樣能被發現和利用。其二,SteerMoE把廚師的打分直接設為無窮大或無窮小,這是一種極端的硬性干預。在MoE架構中,最終各位被選中廚師的貢獻是按照他們的打分比例加權的——也就是說,不只看誰被選中,還要看每位被選中的廚師貢獻多大份額。強制設為無窮大會徹底破壞這個比例關系,導致被選中的"安全廚師"以一種與任何具體對話內容都無關的、機械的方式主導輸出,而不是根據當前對話語境靈活調整。MASCing的"便利貼"方式只是給打分加一個有限的偏移量,保留了這種根據上下文動態調整的能力。
研究團隊還進行了另一個對比實驗:用MASCing的框架,但把"看候選名單打分"換成"看最終錄取名單",并用強制設置無窮大的方式干預,看看效果如何。結果顯示,這種"專家級別的硬性干預"版本的平均防御成功率為69.0%,比SteerMoE好,但仍明顯落后于完整版MASCing的83.9%。這個對比清晰地說明,MASCing的優勢來自兩個獨立的設計選擇:用連續的打分而非離散的錄取結果,以及用軟性偏移而非硬性替換。
八、安全之外的代價——"便利貼"會不會讓廚師忘了做菜
任何干預都有代價。研究團隊非常誠實地報告了MASCing對模型通用能力的影響,使用了兩個標準測試:覆蓋57個學科的知識理解測試MMLU,以及考察數學推理能力的GSM8K。
整體來看,應用MASCing后,模型在這兩個測試上的表現平均下降了4.1個百分點。下降幅度因模型而異,從最低的3.1%(Hunyuan-A13B和Qwen1.5兩個模型并列)到最高的5.5%(Mixtral-8x7B)不等。
研究團隊特別指出,這個4.1%的平均下降并沒有導致模型能力的根本性崩潰。以DeepSeek-MoE-16B為例,它在應用防御掩碼后,MMLU得分從45.6%降至41.8%,GSM8K得分從46.9%降至41.7%。Qwen3-30B在應用防御掩碼后,MMLU得分從81.1%降至77.4%,GSM8K得分從86.7%降至82.8%,依然保持在非常高的水平。所有模型在干預后的最低得分為55.4%,仍然遠高于隨機猜測水平(約25%),也遠高于任何功能完全喪失時可能出現的極低分數。
換句話說,這張便利貼確實讓廚師在日常工作時稍微分了點心,但廚師的核心廚藝沒有受損,餐廳依然能夠正常運營。
九、這套方法的邊界——研究團隊自己看到的局限
研究團隊坦誠地指出了MASCing的幾個局限。首先,LSTM觀察員是一個近似工具,對于那些路由行為特別復雜、非線性特征極強的超深層模型,它的分析能力可能達到上限,從而導致便利貼的制作效果變差。其次,MASCing只調整"經理的派單決策",不修改任何廚師本身的技能。這意味著如果一個模型從根本上就沒有經過安全訓練,或者其內部專家已經被惡意污染,那么無論如何調度,都無法憑空創造出安全行為。最后,目前制作出來的便利貼在整個推理過程中是靜態不變的,對于那些精心設計的、能夠大幅偏移模型激活空間的新型攻擊,靜態便利貼的應對能力可能不足。
對于這最后一點,研究團隊提出了一個頗具想象力的未來方向:開發動態便利貼——一個能夠實時分析當前對話威脅等級,并據此動態調整引導策略的輕量級輔助系統。此外,他們也指出MASCing的框架本質上是通用的,不僅適用于安全場景,同樣可以用于醫療、法律等專業領域的即時專業化調整,以及減少模型的幻覺問題和控制對話個性風格。
說到底,這項研究的價值在于它提供了一個思維框架的轉變:對AI安全行為的管控,不一定非要走"大動干戈"的重訓路線,在模型的內部調度機制上做精準的小干預,就有可能以極低的代價實現顯著的行為變化。這一發現對于那些需要在快速變化的安全環境中管理大型AI系統的開發者來說,具有相當直接的實用意義。當然,4.1%的通用能力損耗、靜態掩碼面對新型攻擊的局限性,以及這種干預方式本身可能被反向利用的風險,都是這套方法在實際部署前需要認真權衡的問題。感興趣的讀者可以通過arXiv:2604.27818v1查閱完整論文,研究團隊也在GitHub上開放了完整代碼,供進一步研究和驗證。
Q&A
Q1:MASCing框架與SteerMoE相比,多輪越獄防御效果為什么差距這么大?
A:SteerMoE只分析模型最終選中的那幾位專家的表現,忽略了候選名單中那些"差一點就被選中"的專家;同時,它用設置正負無窮大的方式強制干預,破壞了MoE架構中各專家按比例加權貢獻的機制。MASCing分析完整的路由打分分布,并用有限偏移量而非無窮大替換的方式進行干預,保留了模型根據上下文動態調整的能力,因此在復雜的多輪對話場景中效果明顯更好。
Q2:MASCing應用后模型通用能力會下降多少?
A:在MMLU和GSM8K兩個標準測試中,平均下降約4.1個百分點。下降幅度在不同模型間有差異,最低約3.1%,最高約5.5%。所有模型在干預后的最低得分為55.4%,遠高于功能崩潰水平,研究團隊認為這種程度的下降不影響模型的實際可用性。
Q3:MASCing的便利貼(引導掩碼)需要多長時間制作?
A:制作過程中計算量最大的部分是訓練LSTM代理模型,在單塊英偉達H100 GPU上大約需要五分鐘。推理時將掩碼疊加到路由邏輯值上,屬于簡單的元素級加法運算,幾乎不增加任何額外延遲,整體計算開銷極低。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.