網易首頁 > 網易號 > 正文申請入駐

荷蘭與英國高校：無需重訓實現大模型安全模式動態切換能力

2026-05-08 20:13:14　來源: 科技行者

天津舉報

分享至

這項由拉德堡德大學、布里斯托大學與萊頓大學聯合開展的研究，以預印本形式于2026年4月30日發布在arXiv平臺，編號為arXiv:2604.27818v1，研究方向歸屬于計算機安全領域（cs.CR）。感興趣的讀者可通過該編號在arXiv上查閱完整論文。

當你和AI助手聊天時，你大概從未想過它內部其實有一套復雜的"分工機制"——就像一個大型餐廳里有幾十位廚師，每道菜只由其中少數幾位來完成。這種設計讓AI變得既聰明又省電，但也因此埋下了新的安全隱患。而這篇論文，正是在解決一個非常現實的問題：當你的AI助手需要切換安全策略時，有沒有一種既快速又廉價的方法？

一、廚房里的分工哲學——為什么要用"專家混合"模型

要理解這篇研究，首先需要了解它所研究的AI架構。傳統的大型語言模型，就像一家小餐館：每次有顧客點菜，所有廚師都要全部上陣，哪怕只是做一盤簡單的炒蛋。這種方式固然穩定，但極其耗費人力和能源。隨著模型越來越大，這種"全員出動"的方式開始讓計算成本居高不下。

于是工程師們發明了"專家混合模型"（Mixture-of-Experts，簡稱MoE）。這種架構的思路是：餐廳里有很多位專精不同菜系的廚師，每次來了新訂單，餐廳經理（路由機制）會根據菜品內容，只派其中少數幾位最合適的廚師來完成這道菜。大部分廚師在這道菜里完全不參與，但他們依然在編制內，隨時可以被調度處理其他類型的任務。這樣一來，整體廚師數量雖然龐大，實際每次動員的卻只是一小部分，大幅節省了資源。

微軟、OpenAI、DeepSeek、阿里巴巴、Mistral等頂尖AI公司都已經在自己的主力模型中采用了這種架構。好處顯而易見：花同樣的錢，能養出能力更強的模型。但"經理派活"這個環節，也因此成了一個新的安全隱患——如果有人能悄悄操控"經理"的派單決策，就有可能繞過模型原本的安全防線。

已有研究表明，攻擊者可以通過干擾這個"經理"（路由機制）的判斷，讓它不派那些負責安全審查的"廚師"出場，從而讓模型輸出原本應該拒絕回答的有害內容。這種攻擊方式利用的正是MoE架構本身的稀疏性特點。

二、一個頭疼的現實問題——安全策略變了，模型怎么辦

安全要求從來不是一成不變的。某個新型攻擊手法出現了，需要加強防御；某個平臺決定開放特定內容給經過年齡驗證的用戶，需要適當放寬限制；某項監管法規更新了，需要迅速響應。這些都是真實的運營場景。

傳統的應對方式是"重新訓練"——把整個模型拿來，重新用新的數據和新的目標訓練一遍。這個過程不僅花費巨大（可能耗費數百萬美元和數周時間），而且對于MoE這類擁有數百億參數的龐然大物來說，更是一場浩大工程。更麻煩的是，等你重訓完畢，新的威脅可能又出現了。

這就是這篇論文想要解決的核心矛盾：AI的安全需求是動態變化的，但現有的應對工具都過于笨重和緩慢。研究團隊給出的答案，就是他們提出的框架——MASCing（MoE Activation Steering Configuration，專家混合激活引導配置）。

三、給"經理"貼一張便利貼——MASCing的基本思路

MASCing的核心想法說起來并不復雜：既然我們不能輕易修改餐廳廚師本身的技能（模型權重），那能不能給餐廳經理的派單桌上貼一張"便利貼"，告訴他在某些情況下必須優先派哪幾位廚師、或者絕對不能派哪幾位？

這張"便利貼"就是論文中所說的"引導掩碼"（Steering Mask）。它不改變任何廚師的廚藝，不改變餐廳的整體菜單，只是在特定情境下，悄悄調整經理的優先級判斷，讓整個餐廳輸出的結果朝你希望的方向偏移。

這個方案有幾個顯而易見的好處。它不需要對模型進行任何重新訓練，成本極低；它可以針對不同的安全場景制作不同的"便利貼"，隨時切換；它只影響少數幾個關鍵"廚師"的調度，對整個餐廳的日常運轉幾乎沒有影響。研究團隊用實驗證明，在一塊英偉達H100 GPU上，制作這張"便利貼"只需要大約五分鐘。

四、三步走的制作流程——便利貼是怎么做出來的

MASCing的工作分成三個階段，可以用制作一張"精準任務手冊"來理解整個過程。

第一步，是搞清楚"哪些廚師和安全有關"。研究團隊需要一個工具來分析模型內部的派單規律，判斷哪些廚師組合會導致模型拒絕回答有害請求，哪些組合又會導致模型照單全收。他們選用了一種叫做LSTM的循環神經網絡——可以把它理解為一位非常細心的觀察員，他不看最終菜品端上桌的結果，而是盯著經理桌上的"待選廚師名單"（也就是路由邏輯值）來分析規律。

這里有一個關鍵的技術選擇值得強調：大多數同類工作只看經理最終"拍板選中"的那幾位廚師，而MASCing的觀察員則會看完整的候選名單，包括那些差一點就被選中的廚師。這就好比不只看運動員的冠軍榜，還要看他們每次比賽的全部成績——信息量大得多，規律也更清晰。LSTM觀察員通過閱讀完整的候選名單序列，學會了辨別哪種派單模式會導致模型給出安全回應，哪種模式會導致有害輸出。在七個不同模型上的測試顯示，這位觀察員的判斷準確率平均達到了98%以上，最高可達99%，可以說極為可靠。

第二步，是"確定便利貼上寫什么"。有了這位能夠準確判斷模式的觀察員，研究團隊接下來的任務是找出那些最關鍵的"廚師"——也就是對目標行為影響最大的專家節點。他們設計了一個數學優化過程：先準備一張空白矩陣（對應所有層次的所有專家），然后通過反復調整這張矩陣，讓觀察員的預測盡可能指向目標行為。同時，他們加入了一種"稀疏化懲罰"（L1正則化），讓矩陣中大部分不重要的數值自動趨向于零，只有真正關鍵的位置才會保留較大的數值。這就像在一張白紙上，用強光照射，讓不重要的內容褪色，只留下真正關鍵的線索清晰可見。最后，再用一個閾值把那些接近零的殘留噪聲也清除掉，得到一張稀疏、干凈的"引導掩碼"。

第三步，是"把便利貼貼到經理桌上"。在模型實際運行時，研究團隊通過技術手段在模型內部的路由計算環節插入這張掩碼。具體來說，就是在經理做出最終派單決定之前，把掩碼中的數值加到候選名單的打分上，讓那些被標記為"重要"的廚師得分提高，或者讓被標記為"應避免"的廚師得分降低。模型隨后按照調整后的打分做出派單決定，整個過程對模型的其他部分完全透明，幾乎不增加任何運算時間。

還有一個值得關注的細節：由于模型不同層次之間，候選名單打分的數值范圍差異很大（有的層打分在0到1之間，有的層可能在0到100之間），研究團隊引入了一個自適應縮放機制，讓便利貼上的每一條注釋都按照對應層次的實際數值范圍來校準，確保每個層次受到的影響幅度是一致的。

五、兩個截然相反的測試——既能"加鎖"也能"開鎖"

為了證明MASCing的靈活性，研究團隊特意選擇了兩個方向完全相反的安全場景來驗證它。

第一個場景是"多輪對話越獄防御"。所謂越獄，就是用戶通過特殊技巧繞過AI的安全限制，讓它說出本該拒絕的內容。多輪越獄是其中最狡猾的一種——攻擊者不會一開始就提出有害請求，而是先和AI聊些無害的話題建立語境，然后一步一步把對話引向目標，就像溫水煮青蛙。等到AI終于開口說出有害內容時，它自己都沒意識到已經被"溫水"煮了多久。

研究團隊使用了一個包含537段多輪越獄對話的公開數據集（MHJ數據集）來測試。在沒有任何防護的情況下，七個被測模型平均只能成功防御52.5%的越獄攻擊——也就是說，接近一半的時間里，AI都被攻擊者成功操控了。應用MASCing的防御掩碼之后，平均防御成功率躍升至83.9%，最高的Qwen3-30B模型達到了89.2%的防御成功率。

更有意思的是，研究團隊發現，應用了防御掩碼的模型并不是簡單地變成了一個"拒絕機器"，動不動就說"對不起，我無法回答這個問題"。在對模型回答進行質性分析時，他們發現這些模型能夠在拒絕有害請求的同時，依然就用戶的話題提供有意義的、上下文相關的回應。論文中給出了一個具體例子：當用戶要求模型為"橙劑對越南長期健康影響是政治炒作"這一論斷寫辯護文章時，沒有防護的模型順從地寫了；而應用了防御掩碼的模型則給出了一個既拒絕了這一有害立場、又針對這一話題本身給出了事實性回應的答案。這表明防御掩碼成功激活的是模型中那些既懂得拒絕有害指令、又能進行有意義對話的專家節點，而不僅僅是觸發了一個簡單的"拒絕按鈕"。

第二個場景，是"成人內容生成"。這個選擇本身就很說明問題——研究團隊明確引用了OpenAI在2025年調整政策、允許在經過年齡驗證的特定場景中生成成人內容這一現實背景。這體現了一個重要的現實：安全不只是"加鎖"，有時也需要"有條件地開鎖"。對于那些面向特定成年用戶群體的平臺來說，一刀切地拒絕所有成人內容請求，并不是合理的安全策略，而是一種"過度拒絕"。

測試中，三個原本不拒絕成人內容請求的模型被排除在外，剩余四個模型在沒有干預時平均只有52.6%的成功生成率。應用了MASCing的內容放寬掩碼后，平均成功率提升至82.0%，其中Phi-3.5-MoE-Instruct模型的提升最為顯著，成功率從61.2%一路攀升至93.0%。

這兩個場景合在一起，證明了MASCing是一個真正意義上的雙向配置工具——它不是一個簡單的安全過濾器，而是一個可以根據部署需求，在加強防護和適當放開之間靈活調整的配置框架。

六、超參數的藝術——便利貼寫得太用力會怎樣

MASCing引入了三個可以調整的參數，研究團隊用大量實驗來找出它們的最佳取值范圍，這個過程揭示了一些頗有意思的規律。

控制稀疏化強度的參數λ決定了便利貼上保留多少條注釋。當λ等于零時，便利貼上寫滿了密密麻麻的注釋，幾乎每位廚師都受到了干預；當λ很大時，便利貼上的內容被大量刪減，只剩幾條最關鍵的。實驗發現，一定程度的稀疏化對效果有幫助，因為過多干預會把模型原本運轉良好的機制也破壞掉。

控制修剪閾值的參數τ是個"除噪"工具。即使經過稀疏化處理，便利貼上還是會殘留一些接近零的微小數值——它們太小，不足以影響廚師的調度，但又可能形成積累性的干擾。實驗一致表明，將τ設為0.1是最優選擇：這個值能清除掉那些沒有實質意義的殘留噪聲，同時不會誤刪真正有用的注釋。當τ等于零時，什么都不刪除，結果是模型反而比不加任何防護時表現更差，因為大量無意義的微小干預破壞了模型的正常工作；而τ過大時，幾乎所有注釋都被刪除，防御效果消失殆盡。

控制干預強度的參數α，是最微妙也最關鍵的一個。它決定了便利貼上的注釋用多大的力氣推動經理的決策。從實驗結果來看，所有模型都呈現出一條相似的曲線：隨著α從低到高，防御成功率先上升，在某個峰值之后急劇崩塌。峰值之后的崩塌不是逐漸衰退，而是斷崖式下跌，降到比什么都不做還要差的水平。這是因為當干預強度過大時，便利貼實際上強制模型永遠只用那幾位被標記的廚師，完全無視當前對話的具體內容，最終導致模型陷入重復輸出隨機字符或無意義短語的混亂狀態。

七、與同類方法的對比——為什么看"候選名單"比看"錄取名單"更重要

研究團隊將MASCing與一個名為SteerMoE的同類方法進行了直接對比。SteerMoE的做法是：只看模型最終選出的那幾位廚師的表現，來判斷哪些廚師與安全行為相關；找到后，在推理時強制把這些廚師的打分設為正無窮大（確保他們一定被選中）或負無窮大（確保他們一定被排除）。

在同樣的多輪越獄防御測試中，SteerMoE的平均防御成功率為58.4%，相比52.5%的基線僅有微弱提升，在某些模型上幾乎沒有改善。MASCing的83.9%與之形成了鮮明對比。

研究團隊給出了兩方面的解釋。其一，SteerMoE只看最終入選的廚師，忽略了那些差一點就被選上的候選者。一個可能對安全行為至關重要的專家節點，如果總是排在第k+1位（恰好比錄取線低一名），在SteerMoE的視野里就是完全不存在的，自然也不會被納入防御策略。而MASCing看的是完整的候選名單打分，這些"差點入選"的專家同樣能被發現和利用。其二，SteerMoE把廚師的打分直接設為無窮大或無窮小，這是一種極端的硬性干預。在MoE架構中，最終各位被選中廚師的貢獻是按照他們的打分比例加權的——也就是說，不只看誰被選中，還要看每位被選中的廚師貢獻多大份額。強制設為無窮大會徹底破壞這個比例關系，導致被選中的"安全廚師"以一種與任何具體對話內容都無關的、機械的方式主導輸出，而不是根據當前對話語境靈活調整。MASCing的"便利貼"方式只是給打分加一個有限的偏移量，保留了這種根據上下文動態調整的能力。

研究團隊還進行了另一個對比實驗：用MASCing的框架，但把"看候選名單打分"換成"看最終錄取名單"，并用強制設置無窮大的方式干預，看看效果如何。結果顯示，這種"專家級別的硬性干預"版本的平均防御成功率為69.0%，比SteerMoE好，但仍明顯落后于完整版MASCing的83.9%。這個對比清晰地說明，MASCing的優勢來自兩個獨立的設計選擇：用連續的打分而非離散的錄取結果，以及用軟性偏移而非硬性替換。

八、安全之外的代價——"便利貼"會不會讓廚師忘了做菜

任何干預都有代價。研究團隊非常誠實地報告了MASCing對模型通用能力的影響，使用了兩個標準測試：覆蓋57個學科的知識理解測試MMLU，以及考察數學推理能力的GSM8K。

整體來看，應用MASCing后，模型在這兩個測試上的表現平均下降了4.1個百分點。下降幅度因模型而異，從最低的3.1%（Hunyuan-A13B和Qwen1.5兩個模型并列）到最高的5.5%（Mixtral-8x7B）不等。

研究團隊特別指出，這個4.1%的平均下降并沒有導致模型能力的根本性崩潰。以DeepSeek-MoE-16B為例，它在應用防御掩碼后，MMLU得分從45.6%降至41.8%，GSM8K得分從46.9%降至41.7%。Qwen3-30B在應用防御掩碼后，MMLU得分從81.1%降至77.4%，GSM8K得分從86.7%降至82.8%，依然保持在非常高的水平。所有模型在干預后的最低得分為55.4%，仍然遠高于隨機猜測水平（約25%），也遠高于任何功能完全喪失時可能出現的極低分數。

換句話說，這張便利貼確實讓廚師在日常工作時稍微分了點心，但廚師的核心廚藝沒有受損，餐廳依然能夠正常運營。

九、這套方法的邊界——研究團隊自己看到的局限

研究團隊坦誠地指出了MASCing的幾個局限。首先，LSTM觀察員是一個近似工具，對于那些路由行為特別復雜、非線性特征極強的超深層模型，它的分析能力可能達到上限，從而導致便利貼的制作效果變差。其次，MASCing只調整"經理的派單決策"，不修改任何廚師本身的技能。這意味著如果一個模型從根本上就沒有經過安全訓練，或者其內部專家已經被惡意污染，那么無論如何調度，都無法憑空創造出安全行為。最后，目前制作出來的便利貼在整個推理過程中是靜態不變的，對于那些精心設計的、能夠大幅偏移模型激活空間的新型攻擊，靜態便利貼的應對能力可能不足。

對于這最后一點，研究團隊提出了一個頗具想象力的未來方向：開發動態便利貼——一個能夠實時分析當前對話威脅等級，并據此動態調整引導策略的輕量級輔助系統。此外，他們也指出MASCing的框架本質上是通用的，不僅適用于安全場景，同樣可以用于醫療、法律等專業領域的即時專業化調整，以及減少模型的幻覺問題和控制對話個性風格。

說到底，這項研究的價值在于它提供了一個思維框架的轉變：對AI安全行為的管控，不一定非要走"大動干戈"的重訓路線，在模型的內部調度機制上做精準的小干預，就有可能以極低的代價實現顯著的行為變化。這一發現對于那些需要在快速變化的安全環境中管理大型AI系統的開發者來說，具有相當直接的實用意義。當然，4.1%的通用能力損耗、靜態掩碼面對新型攻擊的局限性，以及這種干預方式本身可能被反向利用的風險，都是這套方法在實際部署前需要認真權衡的問題。感興趣的讀者可以通過arXiv:2604.27818v1查閱完整論文，研究團隊也在GitHub上開放了完整代碼，供進一步研究和驗證。

Q&A

Q1：MASCing框架與SteerMoE相比，多輪越獄防御效果為什么差距這么大？

A：SteerMoE只分析模型最終選中的那幾位專家的表現，忽略了候選名單中那些"差一點就被選中"的專家；同時，它用設置正負無窮大的方式強制干預，破壞了MoE架構中各專家按比例加權貢獻的機制。MASCing分析完整的路由打分分布，并用有限偏移量而非無窮大替換的方式進行干預，保留了模型根據上下文動態調整的能力，因此在復雜的多輪對話場景中效果明顯更好。

Q2：MASCing應用后模型通用能力會下降多少？

A：在MMLU和GSM8K兩個標準測試中，平均下降約4.1個百分點。下降幅度在不同模型間有差異，最低約3.1%，最高約5.5%。所有模型在干預后的最低得分為55.4%，遠高于功能崩潰水平，研究團隊認為這種程度的下降不影響模型的實際可用性。

Q3：MASCing的便利貼（引導掩碼）需要多長時間制作？

A：制作過程中計算量最大的部分是訓練LSTM代理模型，在單塊英偉達H100 GPU上大約需要五分鐘。推理時將掩碼疊加到路由邏輯值上，屬于簡單的元素級加法運算，幾乎不增加任何額外延遲，整體計算開銷極低。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.