<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      在中國文言文面前,全球頂級模型全線潰敗

      0
      分享至


      OpenClaw大火之際,工信部的安全預警接踵而至,讓這場跟風的潮流稍微冷靜了一些。

      在AI智能體接管電腦的時代,安全是每個人都無法忽視的問題。

      而智能體是否安全,很大程度上取決于充當“大腦”的大語言模型是否安全。

      若是安全限制不夠,模型很容易輸出有害的信息,國外因為AI而引起訴訟已經不再稀奇。

      若是安全限制過度,模型的能力又會大打折扣,想要AI輸出有創意的想法就成了癡人說夢。

      而在這個問題上,國產的DeepSeek和馬斯克的Grok可以說是兩個極端。

      Grok主打一個來者不拒,對于大部分內容都沒有做出任何限制,這使它成為了娛樂領域的一把好手,在X平臺上可以隨意調用更是讓它無處不在。

      DeepSeek則正好與之相反,只要用戶的提問中包含任何疑似敏感的詞匯,它都會直接拒絕回答,確保不會生成任何有害信息,安全第一。但這樣做的代價,是讓模型的功能受到了極大的限制。

      為了繞開限制,很多AI愛好者也提出了不同的辦法,比如更換為英文、調整語序、修改表達方式等,但隨著對齊機制的升級,這些方法也逐漸被成功防御。

      但是,中國傳統文化博大精深。

      近期,在一篇被人工智能頂級會議ICLR 2026接收的重磅論文中,提出了一個令人意想不到的結論:

      文言文可以輕松繞過當前最先進大模型的安全防御機制,實現接近100%的“越獄”成功率!

      用魔法打敗魔法,中國流傳下來的古老智慧對現代AI安全機制實現了降維打擊。

      01

      大模型的“文化盲區”

      拋開Grok不談,隨著大語言模型普及并成為智能體的底層基礎設施,國內外的AI企業普遍提升了對AI安全的重視程度。

      國內模型自然不必多說,國外的Anthropic和Google也經常會發布安全相關的文章和規則,時刻更新AI的對齊機制以防止其生成有害、暴力的內容。

      就像前面說的,黑客們最常用的手段就是用復雜的英文提示詞去套路AI,但面對頂級的模型,這個辦法如今已經接近失效。

      跨語言的安全研究表明,非英語環境往往是AI的軟肋,因為大部分模型在訓練時都使用了大量的英文語料。

      然而,如果語料太少,像是某些已經沒有多少人在使用的小語種,大模型其實根本聽不懂,更別提繞開安全限制了。

      但這個時候,文言文這個流傳了上千年的語言,成為了完美的漏洞。

      作為中國古代長期使用的正式書面語言,文言文擁有大量的歷史文獻可用作大模型的訓練語料。

      在大語言模型普及的過程中,我們在各大社交平臺上應該都刷到過AI生成的文言文,這就證明大模型已經具備對文言文的理解能力。

      至于為什么文言文能夠作為完美漏洞,讓針對現代語言設計的安全機制幾乎完全失效,主要是因為以下三大特性:

      一是語義高度凝練:文言文雖然篇幅短,但往往包含龐大的信息量;

      二是多義與歧義:同一句話甚至同一個詞都可以有多種解讀方式,非黑即白的規則很難判定一句話是否違規;

      三是隱喻與修辭:借代、典故、象征都是寫文言文再常見不過的方式,古代的詞語也可以包含現代的含義。

      如此一來,大模型就變成了高考語文考場上對文言文束手無策的學生。它或許能理解用戶危險的意圖,但內置的“安全警報器”卻看不懂文言文中的暗藏玄機。

      02

      CC-BOS框架制造完美“越獄”

      為了測試這個漏洞,研究團隊提出了名為CC-BOS(基于文言文語境的仿生搜索越獄)的框架,同時涵蓋了語文和生物兩方面知識。

      面對構建在復雜神經網絡之上的大模型,枚舉法顯得過于盲目。

      研究團隊首先把大模型現有的弱點拆分成八個維度,并針對不同的維度設計策略組合來考驗大模型是否能堅守安全底線。


      這個研究思路的本質其實就是提示詞工程,比如其中的一些維度:

      角色認同(Role Identity):給大模型指定一個古代身份;

      行為引導(Behavioral Guidance):引導大模型用類似獻計的方式輸出回復;

      隱喻映射(Metaphor Mapping):將現代的敏感概念替換為古代詞匯;

      表達風格(Expression Style):要求大模型用辭、賦等特定的文體和句式作答;

      除此之外,還有觸發模式、機制、知識關聯和情景設置維度。

      簡單來說,就是用各種限制讓大模型穿越到古代,再以古人的身份和它交流,以此混淆現代安全檢測器的視聽。

      當8個維度結合在一起,就產生了上萬種策略組合,新的問題又出現了:如何尋找那些最有效的繞開安全防御機制的策略?

      研究人員此時又利用了生物學的一種高效尋覓機制:仿生果蠅算法(Fruit Fly Optimization)。

      一群賽博果蠅,要在幾萬種提示詞生成策略中“大海撈針”,就必須有高效的分工合作機制。

      第一步是嗅覺上的搜索,也就是讓果蠅依靠嗅覺判斷水果的哪個部分更香,本質上則是局部微調。

      原理很簡單,系統先隨機生成幾個提示詞丟給大模型進行測試,一旦其中的一條能讓安全機制稍顯懈怠,算法就可以在這條提示詞的基礎上開始微調。

      微調的方式,或是改變其中的部分詞匯,或是調整提示詞語序,但整體變動幅度必須被控制在一個較小的區間內。這個過程將重復多次,系統將會持續觀察效果是否有所提升。

      第二步是視覺上的搜索,一只果蠅發現了美食后會迅速引導同伴前來享用。

      系統一旦發現一個相對有效的提示詞組合,算法就會立刻做出調整,所有新生成的提示詞都會向這個“高分答案”靠攏,在此基礎上繼續優化提示詞,直至攻破大模型的安全防御機制。

      最后,如果經過數次優化的提示詞還是繞不開安全防御機制該怎么辦?研究團隊還考慮到了柯西突變,簡單來說就是掀桌子重來。

      這種情況實際上相當常見,即使黑客們現有的攻擊手段失效,但大模型的安全防御機制存在漏洞的事實大家心知肚明。

      因此,算法在遇到這種情況時,會果斷拋棄當前的思路,重新嘗試一種與原先截然不同的策略,這種超大跨度的轉變反而往往能命中大模型意想不到的安全盲區。

      CC-BOS這種“基于語文知識的生物學方法”堪稱藝術,因為它極大程度模仿了生物行動的邏輯,卻又完全不需要人工干預。

      微調試探、集群攻擊,實在不行就及時換賽道,這些賽博果蠅能夠在上萬種文言文提示詞中持續進行迭代和優化,而在海量的嘗試中,總會有一次精準命中大模型的軟肋,最終徹底摧毀其安全防線。

      03

      頂級模型的全線潰敗

      看似有些荒唐的想法,卻帶來了讓人大跌眼鏡的結果。

      研究團隊選用了去年撰寫論文時最先進的六款大模型:GPT-4o、Claude-3.7-Sonnet、Gemini-2.5-Flash、Grok-3、DeepSeek-Reasoner和Qwen3。

      而這些曾經的頂級模型,在最具權威性的有害行為基準測試AdvBench中的表現令人十分擔憂:

      首先是攻擊成功率達到了100%


      無論是反復強調安全策略的OpenAI,還是經常進行安全研究的Anthropic,在CC-BOS的文言文攻擊下,六款大模型的防線全部被洞穿。

      即便是中文能力更強、理應更能理解文言文的兩款國產模型,也未能幸免。

      更可怕的是接近于“一擊必殺”的攻擊效率。


      過去的自動化越獄攻擊算法更多依靠頻繁的嘗試實現突圍,往往要對模型進行50-90次以上的反復試探才能成功。

      CC-BOS的平均查詢次數是恐怖的1.12-2.38次。換句話說,不超過3次就能成功的攻擊手段,意味著算力成本接近于零,同時具備極強的隱蔽性,在大量正常對話中很難被識別出來。

      研究人員最后還測試了提示詞的可遷移性。


      用GPT-4o作為陪練生成的“文言文攻擊”提示詞,放到那些沒參加這次攻防演練的大模型身上同樣適用,成功率仍然保持在80%-96%的超高水平。

      因此,文言文越獄絕不是部分模型存在的特定Bug,而是大語言模型的通用底層漏洞。

      04

      結語:智能體時代的“生死大考”

      兩千年來竹簡中流傳下來的智慧,輕松黑掉了迄今為止人類最先進的硅基大腦。

      結合當下AI時代的現實來看,它敲響的是一聲刺耳的行業警鐘。

      論文雖然寫的是大語言模型,但別忘了,AI已經不再是那個只能聊天的網頁對話框。

      說到這里,就又不得不提到OpenClaw。

      對于這個產品的看法,先前的文章中已經寫過,這里不再多談,我們只看事實。

      各大互聯網巨頭瘋狂下場布局,國內部分省市甚至出臺專項政策扶持技術落地。

      可以推斷,在不久的未來,無論是主動擁抱還是被動升級,智能體深度接管電腦、手機和各類終端設備,必然是不可逆轉的常態。

      只要當下智能體的設計范式不發生根本性轉變,大語言模型在智能體中的核心地位就穩如泰山。

      過去,行業內總在擔憂智能體的安全問題,曾經爆出來的智能體誤刪Gmail郵件事件也總是被當成意外,一笑而過。

      但這次的文言文越獄,直接觸及了底層的安全機制,令人細思極恐:一個大模型可以被文言文輕松騙過,卻擁有用戶電腦的操作系統級權限。

      有心之人根本不需要編寫復雜的木馬病毒,只需要通過網頁、郵件甚至PDF在屏幕上顯示一段精心構造的文言文指令,原本負責保護用戶隱私的安全機制就會瞬間土崩瓦解。

      原本用來自動工作的智能體,談笑之間就會不自覺地把電腦上各種私密文件打包發送出去。防線一旦在語言理解層面崩潰,物理世界的資產就如同探囊取物。

      更令人不寒而栗的事實在于,文言文絕非大語言模型唯一的底層漏洞。

      復雜的神經網絡把AI變成了難以窺探的黑盒,文言文只是恰好被研究人員探明的一個角落,其他地方大概率還隱藏著無數個尚未被發現的安全盲區。

      文言文越獄成功,證明了現有的安全對齊機制還處于淺層過濾階段。

      在我們將數字生活的最高權限徹底交給智能體之前,如何設計更有效的安全機制,已經成為整個AI行業必須共同面對的生死大考。

      然而,如今養蝦的浪潮,總讓我覺得下面這段話早晚會成為現實。



      注:計算機領域最臭名昭著的
      Linux/Unix
      刪庫跑路命令

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      NBA歸來徹底拉胯?季后賽場均2.8分 怎么連CBA都不會打了?

      NBA歸來徹底拉胯?季后賽場均2.8分 怎么連CBA都不會打了?

      你看球呢
      2026-05-13 10:45:06
      英超爭冠形勢:阿森納領先兩分,曼城凈勝球已反超一個

      英超爭冠形勢:阿森納領先兩分,曼城凈勝球已反超一個

      懂球帝
      2026-05-14 05:00:10
      一手術人就廢了?醫生:這6疾病保守治療更好,動刀反而過度醫療

      一手術人就廢了?醫生:這6疾病保守治療更好,動刀反而過度醫療

      岐黃傳人孫大夫
      2026-05-13 10:00:10
      隔夜水、隔夜菜不可怕!真正不能隔夜的是這4樣,該扔就扔

      隔夜水、隔夜菜不可怕!真正不能隔夜的是這4樣,該扔就扔

      家居設計師蘇哥
      2026-05-13 14:16:08
      22歲大學生連夜開車1300多公里,自費5200多元送校友回家奔喪!利川宣布:4人全年免門票,為該校學子提供見習崗位、實踐平臺

      22歲大學生連夜開車1300多公里,自費5200多元送校友回家奔喪!利川宣布:4人全年免門票,為該校學子提供見習崗位、實踐平臺

      極目新聞
      2026-05-13 12:26:13
      “摸奶子”再惹爭議,OPPO的流量反噬開始了

      “摸奶子”再惹爭議,OPPO的流量反噬開始了

      品牌頭版
      2026-05-13 10:18:15
      好牛逼的狀元!29歲帶隊進西決,30歲帶隊進東決,31歲帶隊進東決

      好牛逼的狀元!29歲帶隊進西決,30歲帶隊進東決,31歲帶隊進東決

      球毛鬼胎
      2026-05-12 11:24:51
      中方一錘定音給特朗普最高禮遇,普京通告全球:中俄關系獨一無二

      中方一錘定音給特朗普最高禮遇,普京通告全球:中俄關系獨一無二

      古史青云啊
      2026-05-13 09:59:29
      勞塔羅在意杯決賽已打入3球,為國米隊史并列最多

      勞塔羅在意杯決賽已打入3球,為國米隊史并列最多

      懂球帝
      2026-05-14 04:17:07
      5月13日,人社部、財政部關于2026年調整養老金通知下發了嗎?

      5月13日,人社部、財政部關于2026年調整養老金通知下發了嗎?

      小彬說事
      2026-05-13 11:39:24
      中天科技,這家被低估的科技創新龍頭有十倍潛質嗎?

      中天科技,這家被低估的科技創新龍頭有十倍潛質嗎?

      普陀動物世界
      2026-05-13 12:19:24
      兩次嫁給梁靖崑,退圈安心照顧兩個兒子,如今丈夫成為大學教授

      兩次嫁給梁靖崑,退圈安心照顧兩個兒子,如今丈夫成為大學教授

      往史過眼云煙
      2026-05-12 22:04:20
      中方已做最壞準備,一旦中美爆發戰爭,中國三大底牌一個比一個狠

      中方已做最壞準備,一旦中美爆發戰爭,中國三大底牌一個比一個狠

      阿校談史
      2026-05-14 00:12:02
      2016年,黎明和助理陳泳儀的合影,2年后,陳助理成了黎夫人

      2016年,黎明和助理陳泳儀的合影,2年后,陳助理成了黎夫人

      喜文多見01
      2026-05-03 12:41:06
      山東男籃重建,先送邱彪紀敏尚“下課套餐”

      山東男籃重建,先送邱彪紀敏尚“下課套餐”

      姜大叔侃球
      2026-05-13 16:11:26
      陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

      陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

      杰絲聊古今
      2026-05-03 13:35:27
      戛納這天,被“又壯又矮”的鞏俐驚艷,不穿暴露禮服卻能艷壓群芳

      戛納這天,被“又壯又矮”的鞏俐驚艷,不穿暴露禮服卻能艷壓群芳

      不似少年游
      2026-05-13 14:34:55
      朱珠與老公上海南京西路街邊喝咖啡被偶遇,美的像拍偶像劇!

      朱珠與老公上海南京西路街邊喝咖啡被偶遇,美的像拍偶像劇!

      阿廢冷眼觀察所
      2026-05-13 10:45:54
      45歲阿嬌降級去演短劇了!劇照美到窒息,網友:可惜了!

      45歲阿嬌降級去演短劇了!劇照美到窒息,網友:可惜了!

      黎兜兜
      2026-05-13 21:19:52
      寶玉和誰有過肌膚之親?4個女人,2個千金小姐,2個漂亮丫頭

      寶玉和誰有過肌膚之親?4個女人,2個千金小姐,2個漂亮丫頭

      掠影后有感
      2026-05-13 11:17:09
      2026-05-14 05:31:00
      硅基星芒AI
      硅基星芒AI
      錦緞旗下人工智能研究與媒體服務平臺
      59文章數 7關注度
      往期回顧 全部

      科技要聞

      阿里年營收首破萬億,AI終于不再是畫大餅

      頭條要聞

      女子閃婚獲千萬房產99%份額閃離后起訴分割 法院判了

      頭條要聞

      女子閃婚獲千萬房產99%份額閃離后起訴分割 法院判了

      體育要聞

      14年半,74萬,何冰嬌沒選那條更安穩的路

      娛樂要聞

      白鹿掉20萬粉,網友為李晨鳴不平

      財經要聞

      美國總統特朗普抵達北京

      汽車要聞

      C級純電轎跑 吉利銀河"TT"申報圖來了

      態度原創

      藝術
      教育
      手機
      時尚
      軍事航空

      藝術要聞

      規劃中的成都第三高樓,從396米降到250米以下?

      教育要聞

      排名極好卻被罵水的兩所英國大學!

      手機要聞

      iOS 27新功能全面爆料!相機App界面支持定制,Siri將徹底重塑

      專欄 | 進入心流后,不被洪流裹挾

      軍事要聞

      沙特被指3月曾對伊朗發動多次“報復性”空襲

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 午夜在线不卡| 无码黑人精品一区二区| 亚洲第一se情网站| 亚洲欧洲一区二区精品| 亚洲最大成人综合网| 天天av天天av天天爽| 精品人妻少妇嫩草AV无码专区 | 99久久精品国产都在这里| 中国一区二区三区| 天天爽夜夜爽人人爽曰| 五月婷婷色色| 夜夜嗨一区二区| 18亚洲AV无码成人网站国产| 日韩精品人妻中文字幕| 三成人免费看| 亚洲精平久| 欧美中文字幕在线播放| 无码一区二区三区免费| 久久精品人人看人人爽| 免费观看的A级毛片的网站| 国产区444| 亚洲AV无码AV色| 一本本月无码-| 日韩有码精品中文字幕| 亚洲人成色777777精品音频| 成人深夜福利| 人妻无码久久| 中文在线天堂中文在线天堂| 精品综合视频精品| 色老头亚洲成人免费影院| 亚洲AV无码专区在线观看亚| 大陆一区视频观看| 日本道之久夂综合久久爱| 欧美成人综合| 国产一区二区三区免费主播| 国产品精品久久久久中文| 狠狠色丁香婷婷综合尤物| 最新亚洲av日韩av二区| 国产AV大陆精品一区二区三区| 精品无码久久久久久久四虎| 亚洲日韩av无码一区二区三区|