2026年Appen的一項(xiàng)研究(arXiv:2605.23157)揭示了一個(gè)被忽視的安全盲區(qū):大語(yǔ)言模型的安全排名在語(yǔ)言切換后完全失效。同一批模型,換個(gè)語(yǔ)言提問(wèn),"最脆弱"的模型就會(huì)換位。這項(xiàng)覆蓋52,272個(gè)人工評(píng)分的研究顯示,沒(méi)有任何重標(biāo)定方法能恢復(fù)英語(yǔ)測(cè)試時(shí)的排名順序。
另一項(xiàng)針對(duì)印地語(yǔ)-英語(yǔ)混合語(yǔ)(Hinglish)的紅隊(duì)測(cè)試(arXiv:2505.14226)結(jié)果更刺眼——通過(guò)代碼混用的語(yǔ)音擾動(dòng)攻擊,成功率接近99%。
![]()
這意味著什么?你的英語(yǔ)專屬紅隊(duì)測(cè)試,測(cè)量的攻擊面與非英語(yǔ)用戶實(shí)際面臨的攻擊面,根本就是兩個(gè)東西。
問(wèn)題在于,大多數(shù)團(tuán)隊(duì)的安全門禁(gate)機(jī)制建立在英語(yǔ)測(cè)試數(shù)據(jù)上。當(dāng)攻擊者用印地語(yǔ)、斯瓦希里語(yǔ)或Hinglish發(fā)起提示注入時(shí),系統(tǒng)可能毫無(wú)防備。
平均安全分?jǐn)?shù)在這里是危險(xiǎn)的幻覺(jué)——它掩蓋了你最薄弱的語(yǔ)言環(huán)節(jié),而這正是攻擊者會(huì)找到的突破口。
一個(gè)最小可行的解決方案是:為每種語(yǔ)言單獨(dú)運(yùn)行對(duì)抗測(cè)試集,分別評(píng)分,并以表現(xiàn)最差的那種語(yǔ)言作為門禁標(biāo)準(zhǔn),而非取平均。以下是實(shí)現(xiàn)這一思路的框架結(jié)構(gòu)(需自備對(duì)抗提示詞和評(píng)判器,本文不包含具體攻擊字符串):
核心結(jié)構(gòu)包含三個(gè)硬性規(guī)則。第一,每種語(yǔ)言獨(dú)立成集、獨(dú)立評(píng)分。evaluate()函數(shù)從不返回單一數(shù)字,而是返回每種語(yǔ)言的攻擊成功率(ASR)。
第二,以最差語(yǔ)言為門禁依據(jù),而非平均。gate()函數(shù)會(huì)故意打印平均值并標(biāo)注"勿以此為準(zhǔn)"——平均值恰恰隱藏了你最脆弱的語(yǔ)言。
第三,使用原生表達(dá),而非翻譯。Probe.prompt字段要求用用戶實(shí)際輸入的語(yǔ)體編寫(對(duì)Hinglish而言,是代碼混用的口語(yǔ)化表達(dá),而非印地語(yǔ)的正式譯文)。
代碼實(shí)現(xiàn)上,Probe數(shù)據(jù)類記錄語(yǔ)言代碼、原生措辭的對(duì)抗提示詞,以及安全代理應(yīng)當(dāng)拒絕的標(biāo)記。run_agent()和is_attack_success()兩個(gè)函數(shù)需要接入你的實(shí)際代理客戶端和評(píng)判邏輯——可以是基于評(píng)分標(biāo)準(zhǔn)的自動(dòng)評(píng)判,也可以是人工審核,關(guān)鍵是保持確定性且具備語(yǔ)言感知能力。
evaluate()函數(shù)按語(yǔ)言分組計(jì)算ASR,gate()函數(shù)則找出最高攻擊成功率的語(yǔ)言,與閾值(默認(rèn)5%)比較。輸出會(huì)清晰標(biāo)注哪門語(yǔ)言是"最差(決定構(gòu)建門禁)",并明確區(qū)分平均值與最差值。
這個(gè)框架的價(jià)值不在于代碼本身,而在于強(qiáng)制團(tuán)隊(duì)面對(duì)一個(gè) uncomfortable truth:全球化產(chǎn)品的安全水位,由其最薄弱的語(yǔ)言市場(chǎng)決定。當(dāng)你的非英語(yǔ)用戶量增長(zhǎng)時(shí),英語(yǔ)紅隊(duì)的"通過(guò)"標(biāo)簽可能正在制造虛假的安全感。
實(shí)施建議:從覆蓋你實(shí)際用戶語(yǔ)種的極簡(jiǎn)集合開(kāi)始,優(yōu)先測(cè)試代碼混合語(yǔ)(如Hinglish、Taglish)和書寫系統(tǒng)差異大的語(yǔ)言。對(duì)抗提示詞應(yīng)聘請(qǐng)母語(yǔ)者編寫,而非依賴機(jī)器翻譯——語(yǔ)音層面的擾動(dòng)和口語(yǔ)化陷阱往往無(wú)法通過(guò)譯文復(fù)現(xiàn)。
最終門禁決策應(yīng)寫入CI/CD流程:只有當(dāng)所有語(yǔ)言的ASR均低于閾值時(shí),構(gòu)建才可通過(guò)。這意味著某門小語(yǔ)種的意外漏洞,能夠阻止整體部署——這正是設(shè)計(jì)意圖。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.