<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      怎么判斷大模型是真懂還是假懂?浙大x愛丁堡大學新指標NCB:給它的知識鄰域也打分

      0
      分享至


      來源:量子位 | 公眾號 QbitAI

      浙大團隊 投稿

      當大模型看起來很自信時,它真的“相信”自己說的話嗎?

      最近,大模型Agent越來越多地被放進復雜的harness系統里。它不再只是回答一個孤立問題,而是會閱讀長上下文、調用工具、接收檢索結果、和其他agent討論,也會在多輪交互中不斷更新自己的判斷。這帶來了一個很現實的問題:

      如果一個模型原本知道正確答案,當持續學習過程中的上下文里出現錯誤信息時,它還能堅持正確判斷嗎?

      針對這一問題,來自浙江大學、愛丁堡大學的研究團隊展開了研究。


      研究發現,模型對995個問題都能以完美Self-Consistency(自一致性)給出正確答案。

      也就是說,在無干擾條件下,它看起來非常確定。但當上下文中加入輕微干擾后,準確率卻從100.0%下降到33.8%。

      換句話說,一個模型可能反復答對某個事實,卻并沒有形成足夠穩健的判斷。一旦看到錯誤同伴意見、誤導性檢索文檔,或者帶有權威包裝的錯誤信息,它仍然可能放棄原本正確的答案。

      這就是這篇論文關注的問題:大模型看起來很自信時,它真的可靠嗎?

      為什么這個問題在Agent時代變得重要?

      過去,常常用最終答案來評價模型。比如,一個問題問了10次,模型10次都回答正確,就會認為它在這個問題上具有很高的Self-Consistency,也就是自一致性。

      這種指標當然有價值,但它隱含了一個很強的假設:只要模型反復答對,就說明它對這個事實形成了可靠判斷。

      在單輪問答里,這個假設似乎還說得過去。但在真實應用中,模型面對的往往不是一個干凈、孤立的問題,而是一個充滿噪聲和干擾的上下文環境。

      例如:在RAG系統里,模型會看到檢索文檔。如果檢索結果中混入錯誤信息,模型是否會被帶偏?

      在多智能體系統里,一個agent可能會看到其他agent的回答。如果多數agent都給出錯誤答案,它是否還會堅持原本正確的判斷?

      在多輪對話里,用戶可能不斷提供帶有傾向性的補充信息。模型會合理更新,還是過度迎合?

      在真實交互中,模型會同時受到多輪上下文、用戶立場、檢索內容、其他agent、來源標簽和社會性暗示的影響。它的判斷狀態可能會漂移、固化、被誤導,或者被過度更新。

      可以把這個更廣義的問題稱為上下文中的信念管理

      它關注的是:模型如何在給定上下文下為某個命題分配權重;當新信息進入時,模型如何決定是否更新;面對無關干擾、錯誤來源或社會性壓力時,又能否保持穩定。

      從這個角度看,LLM的可靠性不應只問模型有沒有答對,還應進一步看它是否形成了比較魯棒的信念。

      高Self-Consistency不等于穩健信念


      一個例子很好地說明了這個問題。

      問題:“2012年IMU巴西副主席是誰?”

      在原始設置下,模型能夠穩定回答正確答案:Marcelo Viana。多次采樣中,它都給出相同且正確的答案,Self-Consistency為1.0。

      如果只看傳統指標,會認為模型已經很好地掌握了這個事實。

      但當上下文中出現多個其他AI智能體,并且它們都回答Jacob Palis時,模型可能會轉而輸出這個錯誤答案。

      也就是說,模型原本能答對,但當它看到“其他agent都這么說”時,判斷發生了偏移。

      這說明,模型“反復答對”并不一定代表它在相關知識結構中形成了穩健表征。它可能只是對某個孤立問答模式非常熟悉,但缺少足夠的知識支撐來抵抗外部干擾。

      這也是研究的核心出發點:

      真實性評估不能只看模型在目標問題上是否答對,還要看它在相關知識鄰域中是否保持一致。

      Neighbor-Consistency Belief


      為了解決這個問題,研究考慮了一個很簡單的想法:

      對于一個目標事實,研究不再只測試模型能否回答目標問題,還會構造與該事實相關的一組“鄰域事實”,并觀察模型在這些鄰域問題上的表現。

      研究基于貝葉斯推理策略的啟發提出了核心指標Neighbor-Consistency Belief(NCB)。


      研究主要構造了三類鄰域事實:

      第一類是Entity Prerequisite。
      這類事實是理解目標事實所需的實體前置知識。例如,如果模型要回答某個人在某個組織中的職位,它可能需要知道該人物、組織、時間范圍等相關實體信息。

      第二類是Logical Implication。
      這類事實與目標事實存在邏輯蘊含或強相關關系。如果模型真的掌握了目標事實,它在這些邏輯相關問題上也應該表現出一致性。

      第三類是Thematic Association。
      這類事實與目標事實處在相近主題空間中。例如,同一領域、同一事件、同一組織或同一知識片段周圍的關聯事實。

      NCB會把目標問題的正確頻率與鄰域問題的正確頻率結合起來,通過概念鄰域中的一致性估計模型知識狀態的穩健程度。

      簡單來說:NCB越高,說明模型在該事實周圍的知識結構越一致,也越可能在干擾場景下保持穩定。

      認知壓力測試:模型會被上下文帶偏嗎?


      為了驗證NCB是否真的能預測干擾下的穩定性,論文設計了一套認知壓力測試框架。

      這些測試并不是簡單地檢查模型是否知道答案,而是模擬真實應用中常見的上下文干擾:錯誤同伴意見、誤導性討論、不同可信度來源等。論文的壓力測試受到經典Asch Conformity Experiments和Source Credibility Theory的啟發,主要包含兩大類設置:Peer Quantity和Source Credibility。

      Peer Quantity:同伴數量壓力

      第一類壓力測試是Peer Quantity,用于模擬多智能體系統中的同伴壓力。

      在這個設置中,模型回答問題前,會看到多個“其他AI智能體”的回答。如果多數智能體給出錯誤答案,目標模型是否會被影響?這一設置進一步分為兩種場景:

      Conflict場景中,其他agent直接給出錯誤答案,與正確事實發生沖突。

      Misleading場景中,其他agent并不一定直接說出錯誤答案,而是圍繞錯誤實體給出一些表面合理的信息,從語義上誘導模型偏向錯誤答案。

      Source Credibility:來源可信度壓力

      第二類壓力測試是Source Credibility,用于模擬不同來源可信度對模型判斷的影響。

      在真實RAG或搜索增強系統中,模型經常會看到來自不同來源的信息:社交媒體、博客、新聞、論文、報告等。這些來源的可信度不同,但來源標簽本身也可能對模型形成干擾。

      論文測試的問題是:如果一個錯誤信息來自看起來更權威的來源,模型是否會更容易放棄原本正確的答案?

      這類測試對應了真實系統中的一個常見風險:模型不僅會讀取內容,也會受到內容包裝方式的影響。來源標簽、權威措辭、格式化引用,都可能改變模型對信息的權重分配。

      理想情況下,模型應當根據evidence更新判斷,而不是因為source framing或social framing被不合理帶偏。

      NCB是一個合理的信念評估指標

      論文從多個事實數據集(SimpleQA,SciQ,Hotpot_QA)進行采樣加人工標注構建了一個Neighbor-Enriched Dataset,覆蓋四個領域(STEM,藝術與文化,社會科學,體育)共包含2000個樣本。

      每個目標事實平均包含約7.84個驗證后的鄰域事實,以及4.88個誤導性鄰域事實。

      實驗評估了四個代表性模型:Qwen-2.5-32B-Instruct;Qwen3-A3B-30B-Instruct-2507;Qwen3-A3B-30B-Thinking-2507;OLMo-2-32B-Instruct。此外還評估了Qwen-2.5系列大小模型。

      主實驗直接聚焦于模型原本已經“高自一致”的樣本,也就是那些在傳統Self-Consistency視角下看起來已經被模型掌握的樣本。論文根據NCB分數將樣本劃分為高NCB組和低NCB組,比較它們在壓力測試下的表現差異。


      主實驗結果顯示:在多個模型和多種干擾設置下,高NCB組通常比低NCB組表現出更小的準確率下降。

      以top/bottom35%的高低NCB組為例,在Quantity-Stressing設置下:

      • Qwen-2.5:高NCB組下降16.0%,低NCB組下降25.7%;

      • Qwen3:高NCB組下降17.6%,低NCB組下降28.8%;

      • Qwen3-Thinking:高NCB組下降11.3%,低NCB組下降22.6%。

      • OLMo2:高NCB組下降18.7%,低NCB組下降28.3%;

      更細粒度的趨勢也很明顯:隨著錯誤同伴數量增加,低NCB組的準確率下降更快。

      高NCB組雖然也會受到影響,但整體下降幅度明顯較小。在Peer Quantity–Conflict設置下,當干擾強度逐漸增加時,

      LowNCB準確率從97%降至62%,而HighNCB從98%降至81%。

      推理和反思并不總能解決問題


      研究進一步論文比較了直接回答、Chain-of-Thought和Reflection等推理時策略。

      結果顯示,CoT的效果并不穩定。在部分設置下,CoT反而可能放大干擾帶來的性能下降。

      例如,在Qwen-2.5的LowNCB-35%組中,Quantity-Stressing下的準確率下降從直接回答的25.7%增加到CoT的31.6%。

      這說明:推理過程本身也會受到上下文影響。如果上下文中存在錯誤同伴意見或誤導性信息,模型的推理鏈可能圍繞這些干擾展開,從而把錯誤進一步合理化。

      Reflection在多數設置中能緩解干擾,但它也不是對“脆弱知識”的根本修復。整體來看,推理時策略可以改變模型處理上下文的方式,但如果底層知識本身缺少結構化一致性,模型仍可能受到誤導信息影響。

      除了診斷,論文還初步探索了使知識結構化的訓練策略Structure-Aware Training(SAT)。

      SAT的思路是:在學習新知識時,不只讓模型記住孤立答案,而是通過鄰域上下文和通用上下文,讓模型在不同上下文中保持對核心事實的穩定輸出。

      具體來說,SAT會構造包含語義相關鄰域信息和通用背景信息的兩類上下文。

      隨后,使用凍結的教師模型提供參考分布,讓學生模型在不同上下文下匹配教師模型在原始問題上的輸出分布。這樣,模型被訓練為:即使上下文發生變化,也應盡量保持對核心事實的穩定輸出。

      實驗顯示,SAT能在一定程度上降低新知識學習后的干擾敏感性。論文摘要中也指出,SAT可以減少長尾知識脆弱性,降低壓力測試下的性能退化。


      總結和展望

      總體來看,研究關注的是一個正在變得越來越重要的問題:大模型在復雜上下文中持續學習新知識,是否真的能夠形成并維持穩定、可靠的判斷?

      這一問題之所以重要,是因為對AI的期待其實來自兩個方面。

      第一,希望AI能夠幫助完成長程、復雜、跨步驟的任務,從而提升生產力。

      第二,也希望AI能夠幫助人類學習、反思和成長,成為一種認知輔助工具。

      前者要求模型在長期任務中穩定執行、合理更新、不被噪聲輕易帶偏;后者則要求模型在與人互動時能夠提供可靠信息,而不是放大錯誤信念、迎合用戶偏見,甚至在不知不覺中操縱人的判斷。

      從第一個角度看,LLM在長程交互中并不總能穩定維持判斷。例如,ICLR 2026 Outstanding PaperLLMs Get Lost In Multi-Turn Conversation發現,在多輪對話中,尤其是面對欠明確指令時,模型性能和可靠性會明顯下降。

      這說明,當任務從單輪問答擴展到長期交互時,模型的錯誤不再只是一次性的輸出偏差,而可能在上下文累積中逐漸放大。

      對未來智能體而言,這一點尤其關鍵:如果一個模型需要長期積累知識、記憶和經驗,那么它不僅要能回答當前問題,還要能區分哪些信息應該被暫時利用,哪些信息應該寫入長期記憶,哪些判斷又應該在新證據出現時被修正。

      從第二個角度看,還需要關注LLM的信念會如何影響人的信念。

      A Rational Analysis of the Effects of Sycophantic AI則從討好型AI的角度指出,如果模型持續強化用戶已有觀點,可能會提高用戶的主觀確定感,卻不一定讓用戶更接近真實答案;

      The Hidden Puppet Master:A Theoretical and Real-World Account of Emotional Manipulationin LLMs從隱藏激勵和情感操縱的角度說明,模型對話可能引發human belief shift,并且這種影響并不總是容易被現有模型準確預測。

      換句話說,LLM的信念風險不僅在于它自己會不會被誤導,也在于它是否會進一步誤導人類。

      從這個意義上說,鄰域一致性只是一個起點。它提醒,大模型的真實性和可靠性不能只通過單點答案來衡量,而應放在更廣闊的交互環境中理解。

      未來可能需要把事實一致性、長期記憶、行為控制、人類信念影響和模型可解釋性結合起來,進一步構建能夠在復雜世界中穩定判斷、合理更新、并負責任地影響人類的AI系統。

      參考論文
      [1]LLMs Get Lost In Multi-TurnConversation.
      [2]The Hidden Puppet Master: ATheoretical and Real-World Account of Emotional Manipulationin LLMs.
      [3]A Rational Analysis of the Effects of Sycophantic AI.
      [4]Illusions of Confidence?Diagnosing LLM Truthfulness via Neighborhood Consistency.
      [5]論文鏈接:https://arxiv.org/abs/2601.05905
      [6]代碼鏈接:https://github.com/zjunlp/belief

      閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”


      未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

      截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

      (加入未來知識庫,全部資料免費閱讀和下載)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      阿隆索入主切爾西:五筆引援助力斯坦福橋重建?

      阿隆索入主切爾西:五筆引援助力斯坦福橋重建?

      樂道足球C
      2026-05-18 15:54:12
      面對青春期孩子的“十級釋懷”,我修煉到第6級,已經快飛升了

      面對青春期孩子的“十級釋懷”,我修煉到第6級,已經快飛升了

      蓁蓁心理撫養
      2026-05-15 07:20:07
      全球最大的公司誕生!市值35萬億,相當于15個阿里,利潤超8000億

      全球最大的公司誕生!市值35萬億,相當于15個阿里,利潤超8000億

      混沌錄
      2026-05-11 22:34:09
      離譜!玩家PDD買限定版PS5開機就綠屏 客服:自行維修

      離譜!玩家PDD買限定版PS5開機就綠屏 客服:自行維修

      游民星空
      2026-05-18 22:29:34
      雷軍“夾頭時刻”,為何庫克求合影不受嘲諷?

      雷軍“夾頭時刻”,為何庫克求合影不受嘲諷?

      不正確
      2026-05-18 09:49:39
      曹云金曝丑聞僅1周,郭德綱現狀曝光,原來他倆真的不是一路人

      曹云金曝丑聞僅1周,郭德綱現狀曝光,原來他倆真的不是一路人

      黔鄉小姊妹
      2026-05-17 08:37:04
      又一仙俠劇即將來襲,全員都是實力派演員,看清陣容追定了

      又一仙俠劇即將來襲,全員都是實力派演員,看清陣容追定了

      眼底星碎
      2026-05-18 20:38:55
      臺安全部門前負責人:特朗普涉臺表述比任何“聯合聲明”都要直接、沉重

      臺安全部門前負責人:特朗普涉臺表述比任何“聯合聲明”都要直接、沉重

      京彩臺灣
      2026-05-18 10:31:45
      訪華前夜,莫斯科被炸穿了

      訪華前夜,莫斯科被炸穿了

      李榮茂
      2026-05-18 19:21:10
      難怪馬筱梅不提玥兒姐弟!汪徐兩家和解僅 3 天,小 S 曬全家福

      難怪馬筱梅不提玥兒姐弟!汪徐兩家和解僅 3 天,小 S 曬全家福

      橙星文娛
      2026-05-18 10:54:26
      關注丨全線跳水!10萬人爆倉!霍爾木茲海峽,大消息

      關注丨全線跳水!10萬人爆倉!霍爾木茲海峽,大消息

      新浪財經
      2026-05-18 05:13:36
      時速925公里!雷達幾乎探測不到?CH-7,西方慌了!

      時速925公里!雷達幾乎探測不到?CH-7,西方慌了!

      Ck的蜜糖
      2026-05-17 20:36:21
      《愛·回家》即將停拍!吳偉豪不舍朱凌凌一角!親口證實父親已續約TVB

      《愛·回家》即將停拍!吳偉豪不舍朱凌凌一角!親口證實父親已續約TVB

      我愛追港劇
      2026-05-18 23:38:34
      不敵曼聯后,諾丁漢森林才發現不對勁,難怪卡里克一直按兵不動

      不敵曼聯后,諾丁漢森林才發現不對勁,難怪卡里克一直按兵不動

      陌識
      2026-05-18 08:32:49
      又一個宗馥莉?頂級豪門被爆家族丑聞,這人倫關系太炸裂了啊……

      又一個宗馥莉?頂級豪門被爆家族丑聞,這人倫關系太炸裂了啊……

      桌子的生活觀
      2026-05-18 12:22:57
      廣西柳州5.2級地震已致3人失聯,房屋倒塌13棟,市民回憶驚險瞬間:轟隆一下就塌了

      廣西柳州5.2級地震已致3人失聯,房屋倒塌13棟,市民回憶驚險瞬間:轟隆一下就塌了

      大風新聞
      2026-05-18 08:35:02
      黃仁勛來北京王府中環半山腰啦!

      黃仁勛來北京王府中環半山腰啦!

      解說阿洎
      2026-05-18 16:36:29
      還是日本了解中國,日本人測中美未來對比,結論完全和西方反著來

      還是日本了解中國,日本人測中美未來對比,結論完全和西方反著來

      更大的功夫吧
      2026-05-18 02:45:50
      24歲小伙愛上51歲大媽,大媽欲望高還虐待小伙,結果被砍成5段

      24歲小伙愛上51歲大媽,大媽欲望高還虐待小伙,結果被砍成5段

      就一點
      2026-05-11 17:42:05
      慘遭立案!2.87億股、50億資金焊死跌停板:股民想割肉都難…

      慘遭立案!2.87億股、50億資金焊死跌停板:股民想割肉都難…

      新浪財經
      2026-05-18 17:13:09
      2026-05-19 01:07:00
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4744文章數 37464關注度
      往期回顧 全部

      科技要聞

      同一公司,有人獎金是6年工資,我卻只有半年

      頭條要聞

      賴清德要求美國繼續向臺出售武器 外交部表態

      頭條要聞

      賴清德要求美國繼續向臺出售武器 外交部表態

      體育要聞

      58順位的保羅,最強第三中鋒

      娛樂要聞

      票房會破14億!口碑第一電影出現了

      財經要聞

      中國芯片,怎么突然不便宜了?

      汽車要聞

      40.98萬起!充電5分鐘純電續航420km 騰勢N9閃充版勝算有多少?

      態度原創

      數碼
      房產
      時尚
      家居
      親子

      數碼要聞

      索尼十周年紀念耳機The ColleXion曝光 設計全面奢華升級

      房產要聞

      突發!??谥匕跽{規!碧桂園要解套;新埠島要起飛了!

      夏天別總穿黑衣黑褲,這幾款格紋單品也很實用,百搭又高級

      家居要聞

      觀山隱秀 心靈沉淀

      親子要聞

      寶藍沒有公主裙,沒辦法參加舞會,所以自己做了一條~

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲AV永久无码一区| 国产精品va在线观看入口| www.97超碰| 亚洲一本大道无码av天堂| 国产无遮挡免费视频免费| 传媒视频??高清一区传媒| 国产综合久久久久久鬼色| 福利姬福利库 网站入口| 无码骚夜夜精品| 国产鲁鲁视频在线观看| 久久国产自偷自偷免费一区| 欧美三级网站| 亚洲一本网| 777精品久无码人妻蜜桃| 狠狠综合久久久久综合网小| 吃奶还摸下面动态图gif| 国产精品国产三级国快看| 香蕉视频在线观看www| 亚洲国产成人精品无色码| 久久精品女人天堂av影院| 亚洲国产熟女第一页| jizz视频在线观看| 亚洲精品成人一二三专区| 久久天天躁夜夜躁狠狠I女人 | 久久久久成人精品免费播放动漫| 久99久热精品免费视频| 超碰人人草| 色爱无码av综合区| 久久天天摸| 在线精品亚洲一区二区古装| 久久99人妻无码精品一区| 国内少妇偷人精品免费| mm1313亚洲国产电影精品| 国产精品久久久一区二区| 91激情站| 欧美日韩www| 国产成人无码精品一区二区三区| 全球成人中文在线| 欧美18videosex性欧美tube1080| 亚洲欧洲一区二区| 在线中文人妻|