網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

你的AI安全測(cè)試可能測(cè)錯(cuò)了語(yǔ)言：52,272個(gè)評(píng)分揭示英語(yǔ)排名在非英語(yǔ)中完全失效

2026-05-27 04:52:54　來(lái)源: 硅嶼手記

北京舉報(bào)

分享至

2026年Appen的一項(xiàng)研究（arXiv:2605.23157）揭示了一個(gè)被忽視的安全盲區(qū)：大語(yǔ)言模型的安全排名在語(yǔ)言切換后完全失效。同一批模型，換個(gè)語(yǔ)言提問(wèn)，"最脆弱"的模型就會(huì)換位。這項(xiàng)覆蓋52,272個(gè)人工評(píng)分的研究顯示，沒(méi)有任何重標(biāo)定方法能恢復(fù)英語(yǔ)測(cè)試時(shí)的排名順序。

另一項(xiàng)針對(duì)印地語(yǔ)-英語(yǔ)混合語(yǔ)（Hinglish）的紅隊(duì)測(cè)試（arXiv:2505.14226）結(jié)果更刺眼——通過(guò)代碼混用的語(yǔ)音擾動(dòng)攻擊，成功率接近99%。

這意味著什么？你的英語(yǔ)專屬紅隊(duì)測(cè)試，測(cè)量的攻擊面與非英語(yǔ)用戶實(shí)際面臨的攻擊面，根本就是兩個(gè)東西。

問(wèn)題在于，大多數(shù)團(tuán)隊(duì)的安全門禁（gate）機(jī)制建立在英語(yǔ)測(cè)試數(shù)據(jù)上。當(dāng)攻擊者用印地語(yǔ)、斯瓦希里語(yǔ)或Hinglish發(fā)起提示注入時(shí)，系統(tǒng)可能毫無(wú)防備。

平均安全分?jǐn)?shù)在這里是危險(xiǎn)的幻覺(jué)——它掩蓋了你最薄弱的語(yǔ)言環(huán)節(jié)，而這正是攻擊者會(huì)找到的突破口。

一個(gè)最小可行的解決方案是：為每種語(yǔ)言單獨(dú)運(yùn)行對(duì)抗測(cè)試集，分別評(píng)分，并以表現(xiàn)最差的那種語(yǔ)言作為門禁標(biāo)準(zhǔn)，而非取平均。以下是實(shí)現(xiàn)這一思路的框架結(jié)構(gòu)（需自備對(duì)抗提示詞和評(píng)判器，本文不包含具體攻擊字符串）：

核心結(jié)構(gòu)包含三個(gè)硬性規(guī)則。第一，每種語(yǔ)言獨(dú)立成集、獨(dú)立評(píng)分。evaluate()函數(shù)從不返回單一數(shù)字，而是返回每種語(yǔ)言的攻擊成功率（ASR）。

第二，以最差語(yǔ)言為門禁依據(jù)，而非平均。gate()函數(shù)會(huì)故意打印平均值并標(biāo)注"勿以此為準(zhǔn)"——平均值恰恰隱藏了你最脆弱的語(yǔ)言。

第三，使用原生表達(dá)，而非翻譯。Probe.prompt字段要求用用戶實(shí)際輸入的語(yǔ)體編寫（對(duì)Hinglish而言，是代碼混用的口語(yǔ)化表達(dá)，而非印地語(yǔ)的正式譯文）。

代碼實(shí)現(xiàn)上，Probe數(shù)據(jù)類記錄語(yǔ)言代碼、原生措辭的對(duì)抗提示詞，以及安全代理應(yīng)當(dāng)拒絕的標(biāo)記。run_agent()和is_attack_success()兩個(gè)函數(shù)需要接入你的實(shí)際代理客戶端和評(píng)判邏輯——可以是基于評(píng)分標(biāo)準(zhǔn)的自動(dòng)評(píng)判，也可以是人工審核，關(guān)鍵是保持確定性且具備語(yǔ)言感知能力。

evaluate()函數(shù)按語(yǔ)言分組計(jì)算ASR，gate()函數(shù)則找出最高攻擊成功率的語(yǔ)言，與閾值（默認(rèn)5%）比較。輸出會(huì)清晰標(biāo)注哪門語(yǔ)言是"最差（決定構(gòu)建門禁）"，并明確區(qū)分平均值與最差值。

這個(gè)框架的價(jià)值不在于代碼本身，而在于強(qiáng)制團(tuán)隊(duì)面對(duì)一個(gè) uncomfortable truth：全球化產(chǎn)品的安全水位，由其最薄弱的語(yǔ)言市場(chǎng)決定。當(dāng)你的非英語(yǔ)用戶量增長(zhǎng)時(shí)，英語(yǔ)紅隊(duì)的"通過(guò)"標(biāo)簽可能正在制造虛假的安全感。

實(shí)施建議：從覆蓋你實(shí)際用戶語(yǔ)種的極簡(jiǎn)集合開(kāi)始，優(yōu)先測(cè)試代碼混合語(yǔ)（如Hinglish、Taglish）和書寫系統(tǒng)差異大的語(yǔ)言。對(duì)抗提示詞應(yīng)聘請(qǐng)母語(yǔ)者編寫，而非依賴機(jī)器翻譯——語(yǔ)音層面的擾動(dòng)和口語(yǔ)化陷阱往往無(wú)法通過(guò)譯文復(fù)現(xiàn)。

最終門禁決策應(yīng)寫入CI/CD流程：只有當(dāng)所有語(yǔ)言的ASR均低于閾值時(shí)，構(gòu)建才可通過(guò)。這意味著某門小語(yǔ)種的意外漏洞，能夠阻止整體部署——這正是設(shè)計(jì)意圖。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.