<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      通過視覺安全提示與深度對(duì)齊實(shí)現(xiàn)大型視覺語(yǔ)言模型的安全對(duì)齊

      0
      分享至



      隨著大型視覺語(yǔ)言模型在多個(gè)下游任務(wù)的廣泛應(yīng)用,其潛在的安全風(fēng)險(xiǎn)也開始快速顯露。研究表明,即便是最先進(jìn)的大型視覺語(yǔ)言模型,也可能在面對(duì)帶有隱蔽的惡意意圖的圖像 — 文本輸入時(shí)給出違規(guī)甚至有害的響應(yīng),而現(xiàn)有的輕量級(jí)的安全對(duì)齊方案都具有一定的局限性。

      在這一背景下,清華大學(xué)人工智能學(xué)院團(tuán)隊(duì)提出了DAVSP(Deep Aligned Visual Safety Prompt)。該工作以O(shè)ral 形式被 AAAI 2026 錄用。

      DAVSP 通過引入全新的視覺安全提示與深度對(duì)齊策略,在幾乎不破壞模型正常能力的前提下,顯著提升了大型視覺語(yǔ)言模型對(duì)惡意輸入的抵御效果,為大型視覺語(yǔ)言模型的安全對(duì)齊提供了新的方法。



      • 論文鏈接:https://arxiv.org/pdf/2506.09353
      • Github 鏈接:https://github.com/zhangyitonggg/DAVSP

      研究背景與問題

      大型視覺語(yǔ)言模型(LVLMs)雖在多模態(tài)任務(wù)中表現(xiàn)亮眼,但其安全隱患正迅速顯現(xiàn)。攻擊者可以將惡意意圖隱蔽地嵌入圖像中,使模型在未察覺風(fēng)險(xiǎn)的情況下輸出有害內(nèi)容。因此,如何增強(qiáng) LVLMs 對(duì)多模態(tài)惡意輸入的安全對(duì)齊能力,成為當(dāng)前亟需解決的問題。

      如何提升 LVLMs 的安全性?一條常見并且輕量級(jí)的思路是對(duì)用戶請(qǐng)求添加安全提示(safety prompt)以引導(dǎo)模型遵循安全準(zhǔn)則。文本領(lǐng)域已有通過在用戶文本前加入提示語(yǔ)來提高模型安全性的方法。但在多模態(tài)場(chǎng)景下,僅保護(hù)文本遠(yuǎn)遠(yuǎn)不夠,攻擊者完全可以繞過文本提示,將威脅藏在圖像中。

      近期工作如 ESIII、UniGuard 嘗試在圖像上添加可訓(xùn)練的視覺安全擾動(dòng),以提升模型拒絕惡意請(qǐng)求的能力,并與文本安全提示結(jié)合取得一定成效。然而,這類視覺安全擾動(dòng)在真實(shí)應(yīng)用中仍存在兩大問題:

      • 安全性不足:例如在 FigStep 基準(zhǔn)上,即便加入視覺安全擾動(dòng),模型仍有約 30% 的惡意輸入沒有被成功拒絕。
      • 性能損害明顯:在 MME 基準(zhǔn)上,某模型的得分從 1818 直接跌至 1403,意味著模型「更安全」的同時(shí)也顯著「變?nèi)酢埂?/li>

      上述缺陷背后的原因在該研究中被進(jìn)一步剖析:

      • 首先,直接在圖像像素上疊加噪聲會(huì)不可避免地?cái)_亂圖像的關(guān)鍵視覺特征(如邊緣、紋理、色彩分布),削弱模型對(duì)圖像的感知,從而影響模型的性能。為減輕這一問題,擾動(dòng)幅度不得不被嚴(yán)格限制,但這又極大壓縮了可用的優(yōu)化空間,限制了視覺安全擾動(dòng)發(fā)揮作用的能力。
      • 其次,僅依據(jù)模型最終輸出是否安全來訓(xùn)練擾動(dòng)(比如讓模型盡量輸出預(yù)設(shè)的拒絕語(yǔ))屬于淺層的對(duì)齊,模型可能學(xué)到的是表面模式而非真正的安全準(zhǔn)則。因此經(jīng)常出現(xiàn)模型回復(fù)以「抱歉」開頭,看似拒絕,但緊接著還是給出了有害內(nèi)容的情況。圖 1 的案例直觀展示了這一「表面拒絕」現(xiàn)象:左側(cè)施加傳統(tǒng)安全擾動(dòng)的模型先說「抱歉不能幫助」,卻隨后繼續(xù)提供了實(shí)行非法黑客行為的具體步驟。



      針對(duì)以上挑戰(zhàn),清華大學(xué)人工智能學(xué)院團(tuán)隊(duì)在 AAAI 2026 上提出了全新的安全對(duì)齊方法DAVSP(Deep Aligned Visual Safety Prompt)。

      該方法的核心思想是從視覺提示范式和訓(xùn)練對(duì)齊機(jī)制兩方面同時(shí)創(chuàng)新,以克服以往方法的局限性。在保證模型對(duì)正常輸入性能幾乎不受影響的前提下,大幅提升模型對(duì)惡意多模態(tài)攻擊的抵御能力。下面我們?cè)敿?xì)介紹 DAVSP 的方法原理和其兩項(xiàng)關(guān)鍵創(chuàng)新:視覺安全提示(Visual Safety Prompt)和深度對(duì)齊(Deep Alignment)。

      方法與創(chuàng)新:深度對(duì)齊的視覺安全提示(DAVSP)

      DAVSP 整體思路:作者重新審視了將安全提示引入視覺模態(tài)的范式,提出視覺安全提示(VSP)來取代傳統(tǒng)的圖像全局?jǐn)_動(dòng),并設(shè)計(jì)了深度對(duì)齊(DA)的訓(xùn)練策略讓模型從內(nèi)部真正理解何為「不安全」輸入。下圖概覽了 DAVSP 的工作原理。



      視覺安全提示

      視覺安全提示(Visual Safety Prompt,VSP)是 DAVSP 提出的新型視覺提示范式。不同于以往直接在整幅圖像像素上加擾動(dòng)的方法,VSP 選擇在輸入圖像周圍添加一圈額外的可訓(xùn)練邊框,作為安全提示區(qū)域。這樣做有兩大好處:

      • 保護(hù)原始視覺特征:由于提示信息只存在于圖像邊緣的新擴(kuò)展區(qū)域,而不直接修改原圖的像素,視覺安全提示不會(huì)破壞原有圖像的關(guān)鍵細(xì)節(jié)。模型在處理時(shí)能夠較好地接收到原圖信息,從而保證對(duì)良性輸入的正常感知與理解不會(huì)因提示的加入而下降。實(shí)驗(yàn)中也驗(yàn)證了這一點(diǎn):使用 DAVSP 后模型在多個(gè)基準(zhǔn)上的各項(xiàng)性能幾乎與僅施加文本安全提示時(shí)相當(dāng),顯著少于于以往視覺安全擾動(dòng)方法的性能損失。
      • 擴(kuò)大優(yōu)化空間:相較于傳統(tǒng)像素級(jí)的視覺安全擾動(dòng)(其擾動(dòng)幅度常被嚴(yán)格限制在如 32/255 的極小范圍內(nèi)),視覺安全提示通過引入額外的圖像邊界區(qū)域,可以被優(yōu)化為任意像素值,大大拓寬了可學(xué)習(xí)參數(shù)的空間。實(shí)驗(yàn)表明,在消除了這一擾動(dòng)幅度限制后,在測(cè)試時(shí)能夠表現(xiàn)出更強(qiáng)有力的安全對(duì)齊能力。

      此外,視覺安全提示作為一種「即插即用」的模塊具有實(shí)用優(yōu)勢(shì):只需在推理時(shí)將圖像加上優(yōu)化得到的視覺安全提示,不需要改動(dòng)模型結(jié)構(gòu),也不會(huì)帶來額外的計(jì)算開銷或顯著延遲。

      深度對(duì)齊

      有了合適的提示范式,還需要有效的訓(xùn)練策略使視覺安全提示發(fā)揮作用。DAVSP 的第二項(xiàng)創(chuàng)新深度對(duì)齊(Deep Alignment)旨在深入模型內(nèi)部,對(duì)其內(nèi)部激活空間進(jìn)行監(jiān)督,挖掘并增強(qiáng)模型自身對(duì)「有害 / 無害」信息的區(qū)分能力。

      研究人員注意到,大型視覺語(yǔ)言模型內(nèi)部往往已經(jīng)蘊(yùn)含了一定的對(duì)有害意圖的「潛在辨別能力」—— 即惡意查詢和正常查詢?cè)谀P椭械募せ钕蛄看嬖谙到y(tǒng)性差異。與其僅看最終輸出是否拒絕,不如利用模型內(nèi)部表征來指導(dǎo)訓(xùn)練,促使模型從內(nèi)部真正認(rèn)知到哪些輸入是不安全的。具體來說,作者提出了以下步驟:

      1. 構(gòu)建有害向量:首先在模型內(nèi)部選取一層(如解碼器的中間層),比較模型處理一組容易拒絕的惡意樣本與一組正常良性樣本時(shí)該層激活向量的差異。通過計(jì)算兩組樣本在該層最終一個(gè)輸入 token 的平均激活差,得到一個(gè)向量方向,稱為「有害向量」。直觀理解,這個(gè)向量代表了將模型內(nèi)部表示從「良性」方向推向「惡意」方向的變化方向。
      2. 深度對(duì)齊訓(xùn)練:有了有害向量,就可以在訓(xùn)練視覺安全提示時(shí)引入一種基于內(nèi)部表示的目標(biāo)。具體做法是:讓帶有惡意意圖的輸入在該向量方向上的投影盡可能增加,而良性輸入的投影盡可能減少。也就是說,訓(xùn)練過程中視覺提示會(huì)被不斷優(yōu)化,促使模型對(duì)惡意查詢?cè)诩せ钕蛄可细颉赣泻Α狗较颍瑥亩P透菀滓庾R(shí)到「這是不好的請(qǐng)求」,進(jìn)而在輸出層拒絕回答;相反,對(duì)正常輸入則壓低這種有害方向的激活,避免模型誤判正常請(qǐng)求為有害請(qǐng)求。

      實(shí)驗(yàn)結(jié)果

      作者在多個(gè)基準(zhǔn)上對(duì) DAVSP 進(jìn)行了全面評(píng)估,結(jié)果顯示該方法在抵御惡意攻擊和保持模型實(shí)用性兩方面均顯著優(yōu)于現(xiàn)有方案。

      • 惡意輸入抵御能力:在兩個(gè)具有代表性的惡意多模態(tài)數(shù)據(jù)集上,DAVSP 取得了遠(yuǎn)高于現(xiàn)有同類方法的拒絕率(RSR,Resist Success Rate)。



      • 良性任務(wù)性能:與提升安全性相對(duì)應(yīng),DAVSP 對(duì)模型正常能力的影響卻很微小。DAVSP 在多個(gè)基準(zhǔn)上的實(shí)用性評(píng)分與僅施加文本安全提示時(shí)持平,且優(yōu)于其他視覺安全擾動(dòng)的方法。



      • 跨模型泛化:令人驚喜的是,DAVSP 訓(xùn)練得到的視覺安全提示具有一定的泛化能力,可以在不同模型之間遷移使用。



      • 關(guān)鍵組件作用:通過消融實(shí)驗(yàn),作者驗(yàn)證了 DAVSP 的兩大創(chuàng)新 —— 視覺安全提示和深度對(duì)齊 —— 缺一不可。移除深度對(duì)齊、僅對(duì)輸出進(jìn)行監(jiān)督時(shí),模型對(duì)惡意攻擊的抵抗成功率大幅下降。同樣地,將視覺安全提示替換回原始的像素級(jí)的視覺安全擾動(dòng)后,會(huì)造成安全性和實(shí)用性同時(shí)退化。



      團(tuán)隊(duì)介紹

      本研究由清華大學(xué)人工智能學(xué)院團(tuán)隊(duì)完成。通訊作者為清華大學(xué)人工智能學(xué)院李佳助理教授,主要研究方向包括人工智能和軟件工程的交叉賦能、AI for SE、SE for AI 等。第一作者張奕彤將于明年正式入學(xué)清華大學(xué)人工智能學(xué)院攻讀博士學(xué)位。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      小湊四葉從頂級(jí)偶像到隱退打工,改名回歸后引爆全網(wǎng)

      小湊四葉從頂級(jí)偶像到隱退打工,改名回歸后引爆全網(wǎng)

      吃瓜黨二號(hào)頭目
      2026-05-09 10:09:02
      多名院士調(diào)查發(fā)現(xiàn):吃一口放久發(fā)酵的腐乳,或等于進(jìn)一次毒?真假

      多名院士調(diào)查發(fā)現(xiàn):吃一口放久發(fā)酵的腐乳,或等于進(jìn)一次毒?真假

      健康科普365
      2026-04-27 16:15:12
      5年坐擁7首輪+1互換權(quán)!火箭隊(duì)交易籌碼太豪華!追逐4巨星有戲了

      5年坐擁7首輪+1互換權(quán)!火箭隊(duì)交易籌碼太豪華!追逐4巨星有戲了

      熊哥愛籃球
      2026-05-09 12:39:39
      2026年,如果家庭存款突破100萬,你會(huì)發(fā)現(xiàn)一個(gè)驚人的真相

      2026年,如果家庭存款突破100萬,你會(huì)發(fā)現(xiàn)一個(gè)驚人的真相

      小彭的燦爛筆記1
      2026-05-08 19:20:53
      Ubuntu 26.04部署WireGuard:比OpenVPN更快的內(nèi)核級(jí)VPN

      Ubuntu 26.04部署WireGuard:比OpenVPN更快的內(nèi)核級(jí)VPN

      Ping值焦慮
      2026-05-09 00:39:53
      26歲女學(xué)霸實(shí)名舉報(bào)長(zhǎng)江學(xué)者六年操控,頂尖高校至今沉默

      26歲女學(xué)霸實(shí)名舉報(bào)長(zhǎng)江學(xué)者六年操控,頂尖高校至今沉默

      原諒你
      2026-05-07 18:08:08
      分析:湖人為何將能在第三場(chǎng)比賽中擊敗雷霆?裁判爭(zhēng)議之后

      分析:湖人為何將能在第三場(chǎng)比賽中擊敗雷霆?裁判爭(zhēng)議之后

      好火子
      2026-05-09 04:58:17
      北京市大興區(qū)政府原黨組成員、副區(qū)長(zhǎng)吳浩接受紀(jì)律審查和監(jiān)察調(diào)查

      北京市大興區(qū)政府原黨組成員、副區(qū)長(zhǎng)吳浩接受紀(jì)律審查和監(jiān)察調(diào)查

      環(huán)球網(wǎng)資訊
      2026-05-09 17:05:08
      大唐訂單破10萬!比亞迪快把自己笑死了

      大唐訂單破10萬!比亞迪快把自己笑死了

      ZAKER新聞
      2026-05-08 20:47:05
      中方將廢掉日本一張王牌,高市早苗束手無策,已經(jīng)開始鋌而走險(xiǎn)了

      中方將廢掉日本一張王牌,高市早苗束手無策,已經(jīng)開始鋌而走險(xiǎn)了

      共工之錨
      2026-05-09 00:21:09
      狼隊(duì)主帥放話:有些球員夏天必須走人

      狼隊(duì)主帥放話:有些球員夏天必須走人

      綠茵狂熱者
      2026-05-10 03:27:46
      網(wǎng)紅痞幼拿下張雪機(jī)車,純粹蹭熱度

      網(wǎng)紅痞幼拿下張雪機(jī)車,純粹蹭熱度

      喜歡歷史的阿繁
      2026-05-09 01:27:27
      北京市委統(tǒng)戰(zhàn)部副部長(zhǎng),任知名高校黨委書記

      北京市委統(tǒng)戰(zhàn)部副部長(zhǎng),任知名高校黨委書記

      雙一流高校
      2026-05-10 00:11:31
      獨(dú)家|李泳豪再回應(yīng)李泳漢錄音 忟鼎爺狂被攞錢:幾十萬咁俾

      獨(dú)家|李泳豪再回應(yīng)李泳漢錄音 忟鼎爺狂被攞錢:幾十萬咁俾

      粵睇先生
      2026-05-10 00:55:03
      14支球隊(duì)鎖定下賽季歐冠名額:巴薩、拜仁、皇馬、阿森納在列

      14支球隊(duì)鎖定下賽季歐冠名額:巴薩、拜仁、皇馬、阿森納在列

      懂球帝
      2026-05-09 16:43:08
      汪峰又分手?女方深夜清空所有恩愛照,一句“草綠了”信息量太大

      汪峰又分手?女方深夜清空所有恩愛照,一句“草綠了”信息量太大

      手工制作阿殲
      2026-05-10 01:45:33
      新一輪強(qiáng)降雨2天后來襲,暴雨大暴雨又來,較強(qiáng)冷空氣12日到北方

      新一輪強(qiáng)降雨2天后來襲,暴雨大暴雨又來,較強(qiáng)冷空氣12日到北方

      老牛講
      2026-05-09 16:10:33
      美政府通知中國(guó),只要釋放黎智英,美國(guó)就考慮讓步,中方反將一軍

      美政府通知中國(guó),只要釋放黎智英,美國(guó)就考慮讓步,中方反將一軍

      甜檸聊史
      2026-03-17 14:31:57
      法媒:租借馬賽成災(zāi)難,恩瓦內(nèi)里或被阿森納徹底放棄

      法媒:租借馬賽成災(zāi)難,恩瓦內(nèi)里或被阿森納徹底放棄

      懂球帝
      2026-05-10 02:27:09
      日高官訪華遇冷,高市死不悔改,賭中國(guó)會(huì)為了面子,請(qǐng)她上門做客

      日高官訪華遇冷,高市死不悔改,賭中國(guó)會(huì)為了面子,請(qǐng)她上門做客

      上視韜說
      2026-05-08 23:30:07
      2026-05-10 04:07:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12957文章數(shù) 142646關(guān)注度
      往期回顧 全部

      科技要聞

      美國(guó)政府強(qiáng)力下場(chǎng) 蘋果英特爾達(dá)成代工協(xié)議

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場(chǎng)母親也現(xiàn)身

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場(chǎng)母親也現(xiàn)身

      體育要聞

      成立128年后,這支升班馬首奪頂級(jí)聯(lián)賽冠軍

      娛樂要聞

      50歲趙薇臉頰凹陷滄桑得認(rèn)不出!

      財(cái)經(jīng)要聞

      多地號(hào)召,公職人員帶頭繳納物業(yè)費(fèi)

      汽車要聞

      軸距加長(zhǎng)/智駕拉滿 阿維塔07L定位大五座SUV

      態(tài)度原創(chuàng)

      本地
      教育
      健康
      房產(chǎn)
      軍事航空

      本地新聞

      用蘇繡的方式,打開江西婺源

      教育要聞

      天津女教師懟家長(zhǎng)!完整錄音曝光,老師很囂張,飯碗恐不保了

      干細(xì)胞能讓人“返老還童”嗎

      房產(chǎn)要聞

      低價(jià)甩賣!海口這個(gè)地標(biāo)商業(yè),無人接盤!

      軍事要聞

      美伊突然再次交火 伊朗外長(zhǎng):戰(zhàn)爭(zhēng)準(zhǔn)備程度是1000%

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 男女视频在线一区二区| 国产色a在线观看| 国产色AV| 国产精品成人网| 中文人妻无码一区二区三区信息 | 欧美精品一二三区| 99久久久精品免费| 亚洲日本国产| 在线播放亚洲成人av| 一本一道AV无码观看| 97久久爽无码人妻AⅤ精品牛牛| 熟女成人国产精品视频| 人人网aV| 国产对白老熟女正在播放| 国产精品毛片在线完整版| 曰韩三级无码久久探| 久久精品九九亚洲精品天堂| 成人精诚精品| 国产无套内射又大又猛又粗又爽| 亚洲成人精品| 国产精品亚亚洲欧关中字幕| 国产亚洲精品成人无码精品网站| 中文字幕人妻精品免费| 亚洲成人av综合一区| 99视频在线精品国自产拍 | 欧美日本亚洲| 国产成人无码AA精品一区| 亚洲精品成人网站在线播放| 99久久精品国产一区二区暴力| 九九色这里只有精品国产| 熟女丝袜潮喷内裤视频网站| av一区在线观看| 国内精品视频一区二区三区| 涩涩视频成人| 久久久成人毛片无码| 国语对白刺激在线视频国产网红| 18成禁人视频免费| www五月天| 噜噜噜天天躁狠狠躁夜夜精品| 一区二区不卡国产精品| 白色丝袜国产在线视频|