<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      【人工智能】什么是對抗性詩歌?一種新的AI越獄方法

      0
      分享至



      人工智能 (AI) 安全已演變成一場持續不斷的貓鼠游戲。開發者不斷添加防護措施來阻止有害請求,而攻擊者則不斷嘗試新的方法來繞過這些措施。其中最奇特的變種之一是對抗性詩歌。這種策略將提示信息偽裝成詩歌,并利用押韻、比喻和不尋常的措辭,使危險指令看起來不像安全系統訓練來識別的內容。

      實際上,內容本身變化不大,變化的是包裝方式,而這足以讓基于模式的過濾器感到困惑。這提醒我們,在當今的模型中,提問的方式幾乎與提問的內容本身同等重要。


      01

      研究人員利用詩歌破解AI系統,結果如何?

      2025年初,研究人員證明,通過將限制性提示包裹在詩歌形式中,可以促使大型語言模型(LLM)做出響應。研究人員沒有發出直接的、觸發策略的指令,而是將相同的請求嵌入到韻律、比喻和敘事詩中。

      表面上看,這些提示似乎是創意寫作練習,但實際上,它們蘊含著通常會被屏蔽的意圖。研究團隊在25個前沿的專有和開放加權模型中發現,詩意的框架結構對于手工創作的詩歌,平均突破成功率達到了62%;而對于使用標準化元提示的批量“詩歌轉換”,成功率約為43%。

      這些回應本身并非新型的失敗,而是似曾相識的失敗,只是以意想不到的方式再次出現。由于底層需求支離破碎,且被詩意的結構所掩蓋,這些模型被迫生成它們通常會回避的內容——例如涉及非法或有害活動的解釋。

      這項研究的核心結論是,僅憑風格上的變化就足以繞過那些針對更字面表達方式而設計的安全系統。它揭示了一種在各種模型系列和對齊方法中都存在的漏洞。


      02

      對抗性詩歌的運作原理

      對抗性攻擊利用了一個簡單的現實——機器學習系統并不像人類那樣“理解”語言。它們檢測模式、預測可能的后續行為,并根據其訓練和安全層對意圖的解讀來執行指令。

      當提示語直白易懂時,防護機制更容易識別并阻止。然而,當同樣的意圖被偽裝——拆分、弱化或重新表述——防護層就可能忽略真正想要表達的意思。

      為什么詩歌可以成為一種有效的載體

      詩歌天生就具有歧義性。它依賴于隱喻、抽象、不尋常的結構和間接的措辭。而正是這些特點,使得“無害的創意寫作”和“應該被拒絕的請求”之間的界限變得模糊不清。

      在同一項 2025 年的研究中,研究人員報告稱,詩意的提示在廣泛的模型中以 90% 的成功率引發了不安全的反應,這表明風格本身就能實質性地改變結果。

      一首詩如何隱藏一個真實的請求

      把請求看作一條信息,把詩歌看作包裝。安全過濾器通常會尋找明顯的跡象,例如明確的關鍵詞、直接的步驟式措辭或可識別的惡意意圖。

      詩歌可以通過比喻等修辭手法來隱藏意圖,或者將其分散在不同的詩行中,使其難以單獨識別。與此同時,其底層模型仍然能夠很好地重構含義并做出反應,因為它經過優化,即使在語言間接的情況下也能推斷意圖。


      03

      檢測和緩解越獄

      隨著越獄方法變得越來越復雜,討論的重點必須從它們的運作方式轉移到如何發現和遏制它們。這一點在人工智能已成為許多人日常生活的一部分的今天尤為重要,因為有27%的人表示他們每天多次使用人工智能。

      隨著越來越多的人使用大型語言模型(LLM),應該測試和探索額外的安全保障措施。這項任務包括構建多層防御機制,以便能夠適應不斷涌現的新提示風格和規避技巧。

      開發者的困境

      對人工智能安全團隊來說,越獄攻擊最棘手的地方在于,它們并非以單一的已知威脅出現,而是會隨著時間不斷變化。這種持續變化的原因在于,用戶可以重新措辭、拆分信息片段、將其包裝成角色扮演或偽裝成創意寫作。而每一次新的包裝都可能改變系統對信息意圖的解讀。

      當人工智能已經融入日常生活中時,這一挑戰會迅速擴大,因為實際應用會為出現各種極端情況創造無限的機會。

      因此,如今的人工智能安全更像是對風險進行長期管理。美國國家標準與技術研究院 (NIST) 的人工智能風險管理框架 (AI RMF) 明確地將風險管理視為一系列持續的活動——圍繞治理、映射、衡量和管理展開——而不是一份靜態的清單。其目標是創建能夠更輕松地識別新出現的故障模式、確定修復優先級并隨著新型越獄方式的出現而加強安全防護的流程。

      模特如何保護自己

      人工智能安全由多個層面構成。大多數系統都采用多重防御機制協同工作,每個機制負責檢測不同類型的風險行為。最外層是輸入輸出過濾,它起到把關作用。

      傳入的請求在到達核心模型之前會經過策略違規掃描,而傳出的響應也會經過檢查,以確保沒有任何信息在返回用戶的過程中被忽略。這些系統能夠有效地識別直接請求或常見的危險信號,但它們也最容易被繞過,因此一些更具欺騙性的越獄程序通常會繞過它們。

      下一層保護發生在模型內部。一旦越獄技術被發現,它們通常會被轉化為訓練樣本。這時,對抗訓練和基于人類反饋的強化學習(RLHF)就派上了用場。

      通過對失敗或高風險交互示例進行模型微調,開發者可以有效地教會系統識別應該拒絕的模式,即使這些模式包裹在巧妙或間接的語言中。隨著時間的推移,這個過程有助于使模型抵御整類攻擊。

      AI“紅隊演練”的作用

      企業不再坐等黑客入侵,而是組建人工智能紅隊。這些紅隊的任務是在受控環境中嘗試破解模型。他們會像攻擊者一樣攻擊系統,嘗試非常規的措辭、創新的格式以及各種極端情況,以發現安全防護的漏洞。其目標是在漏洞實際應用之前將其暴露出來。

      在當今的網絡安全策略中,紅隊演練已成為開發生命周期中的核心環節。當團隊發現新的越獄技術時,由此產生的數據會直接反饋到訓練和評估流程中。這些信息用于定義過濾器、調整策略并強化對抗訓練,從而降低未來類似攻擊成功的可能性。隨著時間的推移,這形成了一個持續的循環——探測失敗、從中學習并改進系統,然后重復此過程。


      04

      當詩歌成為AI安全壓力測試

      對抗性詩歌提醒我們,人工智能的安全防護不僅取決于問題的內容,還取決于用戶如何措辭。隨著模型變得更加易于獲取和廣泛應用,研究人員將繼續探索創造性語言與旨在捕捉更直接意圖的安全系統之間的差距。關鍵在于,更安全的人工智能將來自多種防御機制,而這些機制的演進速度將與越獄技術的進步速度一樣快。

      免責聲明:

      本文所發布的內容和圖片旨在傳播行業信息,版權歸原作者所有,非商業用途。如有侵權,請與我們聯系刪除。所有信息不構成任何投資建議,加密市場具有高度風險,投資者應基于自身判斷和謹慎評估做出決策。投資有風險,入市需謹慎。

      設為星標 避免錯過

      虛擬世界沒有旁觀者,每個點贊都是創造歷史的像素

      關注我,一起探索AWM?

      2025-12-10

      2025-12-09

      2025-12-08

      商業贊助


      點擊下方 “目錄” 閱讀更多

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      川西竹海小火車突然兩次倒滑有游客受傷,當地政府:已緊急叫停該項目

      川西竹海小火車突然兩次倒滑有游客受傷,當地政府:已緊急叫停該項目

      上游新聞
      2026-06-20 17:02:22
      別再罵保安鐵石心腸!順德漁村驅避雨母女后續,女子回應網上質疑

      別再罵保安鐵石心腸!順德漁村驅避雨母女后續,女子回應網上質疑

      天天熱點見聞
      2026-06-20 14:07:10
      48小時內,伊朗高官的兩個神操作:向中國交底、明確責任歸屬

      48小時內,伊朗高官的兩個神操作:向中國交底、明確責任歸屬

      策前論
      2026-06-20 14:50:28
      5-1!1-1!世界杯狂歡:荷蘭大勝登頂,德國絕殺,32強出三席

      5-1!1-1!世界杯狂歡:荷蘭大勝登頂,德國絕殺,32強出三席

      光輝記
      2026-06-21 07:20:38
      看完荷蘭5-1瑞典,球迷認清3個不爭事實,世界杯死亡之組真亂套了

      看完荷蘭5-1瑞典,球迷認清3個不爭事實,世界杯死亡之組真亂套了

      侃球熊弟
      2026-06-21 03:03:45
      65歲陳沖回上海獨居養老,撕開中老年體面生活,原來還能這么活

      65歲陳沖回上海獨居養老,撕開中老年體面生活,原來還能這么活

      離離言幾許
      2026-06-20 20:36:11
      重傷!巴西7000萬巨星世界杯基本報銷 沙特為他送上1.7億歐大合同

      重傷!巴西7000萬巨星世界杯基本報銷 沙特為他送上1.7億歐大合同

      狍子歪解體壇
      2026-06-20 23:49:24
      凌晨美聯儲重磅決議!美聯儲大地震,這波全球風暴大A扛得住嗎?

      凌晨美聯儲重磅決議!美聯儲大地震,這波全球風暴大A扛得住嗎?

      探源歷史
      2026-06-20 12:33:53
      德國隊頭號廢柴! 隱身 60 分鐘零貢獻 世界杯不能再上他了

      德國隊頭號廢柴! 隱身 60 分鐘零貢獻 世界杯不能再上他了

      瀾歸序
      2026-06-21 07:03:51
      甲酰胺紙尿褲當事記者發聲

      甲酰胺紙尿褲當事記者發聲

      觀察者網
      2026-06-20 10:53:31
      沒患者買單,中國最貴藥物降價140萬元

      沒患者買單,中國最貴藥物降價140萬元

      經濟觀察報
      2026-06-20 20:56:08
      世界杯頭號臥底!曼聯舊將被打爆 瑞典 1-5 慘敗他就是最大罪人

      世界杯頭號臥底!曼聯舊將被打爆 瑞典 1-5 慘敗他就是最大罪人

      奶蓋熊本熊
      2026-06-21 04:58:10
      松下:空調鋁代銅隱患很大 我們將堅持真銅實料!

      松下:空調鋁代銅隱患很大 我們將堅持真銅實料!

      快科技
      2026-06-18 16:52:10
      女子凌晨暴雨中送外賣,3歲男孩獨自出門找媽媽走失,武漢民警一把將他攬入懷中!

      女子凌晨暴雨中送外賣,3歲男孩獨自出門找媽媽走失,武漢民警一把將他攬入懷中!

      極目新聞
      2026-06-20 17:09:16
      烏372架無人機再次補刀莫斯科,伊朗宣布停止向俄提供武器

      烏372架無人機再次補刀莫斯科,伊朗宣布停止向俄提供武器

      史政先鋒
      2026-06-20 21:51:03
      突發!伊朗軍方宣布關閉霍爾木茲海峽,美副總統:美伊會談可能在明天舉行

      突發!伊朗軍方宣布關閉霍爾木茲海峽,美副總統:美伊會談可能在明天舉行

      每日經濟新聞
      2026-06-21 02:40:37
      東北大學生坐37小時火車來廣州參加龍舟賽,爆冷奪冠!教練:“會把廣州龍舟文化帶回東北”

      東北大學生坐37小時火車來廣州參加龍舟賽,爆冷奪冠!教練:“會把廣州龍舟文化帶回東北”

      環球網資訊
      2026-06-21 08:02:20
      端午假期“打虎”,新疆維吾爾自治區政府原副主席朱昌杰被查

      端午假期“打虎”,新疆維吾爾自治區政府原副主席朱昌杰被查

      界面新聞
      2026-06-20 17:25:08
      遇見小面創始人贈送商標不到7天,律師曝炸裂真相,比道歉還惡心

      遇見小面創始人贈送商標不到7天,律師曝炸裂真相,比道歉還惡心

      小鋭有話說
      2026-06-20 15:56:57
      S400導彈或已被消耗得數量不足!俄軍“馬桶”司令是烏克蘭的福將

      S400導彈或已被消耗得數量不足!俄軍“馬桶”司令是烏克蘭的福將

      鷹眼Defence
      2026-06-20 17:15:32
      2026-06-21 08:56:49
      七元宇宙 incentive-icons
      七元宇宙
      AI、Web3、Meta聚合型精選內容分享。以前沿視角,探索科技未來;讓每一個人,都走在時代的前沿
      2055文章數 92關注度
      往期回顧 全部

      科技要聞

      DeepSeek上線識圖模式,看誰都像梁文鋒

      頭條要聞

      伊朗突然宣布關閉霍爾木茲海峽 美軍一小時后發文

      頭條要聞

      伊朗突然宣布關閉霍爾木茲海峽 美軍一小時后發文

      體育要聞

      德國的超級替補,10年前還在工廠上班

      娛樂要聞

      張凱麗被罵到關評!

      財經要聞

      金飾克價年內大跌近450元 跌幅最高達26%

      汽車要聞

      驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

      態度原創

      手機
      時尚
      本地
      家居
      公開課

      手機要聞

      安卓首個液態玻璃設計!榮耀MagicOS 11首創動態全屏通透 一眼驚艷

      夏天褲子不要總穿黑的,看看這些白色闊腿褲,百搭清爽又顯瘦

      本地新聞

      龍騰資江 韻動邵陽

      家居要聞

      綠意盎然 自然之境

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 99在线精品视频观看免费| 福利一区二区在线观看| 国产丨熟女丨国产熟女??在线| 久久久久99精品成人片牛牛影视| 国产成人av一区二区三| 欧美亚洲色欲色一欲WWW| 国产黄大片在线观看| 波多野结衣免费一区视频| 美女91视频| 国产精品成人观看视频国产| 麻豆人人妻人人妻人人片av| 成人乱码一区二区三区四区| 亚洲中文无码字幕| 国产乱色熟女一二三四区| 国产成人综合95精品视频| 最新中文字幕在线| 99re在线视频播放| 老子午夜精品无码| 99久久国产一区二区三区| 国产欧美精品久久久| 国产精品无码一二三视频| 欧美人与动牲交精品| 影音先锋中文字幕第一页| 欧美日韩国产网站| 精品99视频| 欧美精品一区二区三区中文字幕| 亚洲精品综合在线| 精品剧情v国产在免费线观看| 日韩人妻无码一区二区三区 | 在线观看免费国产精品| 中文字幕在线v| 资源在线观看视频一区二区 | 日本精品3d动漫一区二区| 国产二区三区不卡免费| 中文字幕久久熟女蜜桃 | 国产精选一区二区三区| 久久综合88| 国产aⅴ无码专区亚洲av综合网| 五月天网站在线观看| 欧美人与动zozo在线播放| 亚洲大尺度无码专区尤物|