網易首頁 > 網易號 > 正文申請入駐

怎么判斷大模型是真懂還是假懂？浙大x愛丁堡大學新指標NCB：給它的知識鄰域也打分

2026-05-09 17:52:41　來源: 人工智能學家

北京舉報

分享至

來源：量子位 | 公眾號 QbitAI

浙大團隊投稿

當大模型看起來很自信時，它真的“相信”自己說的話嗎？

最近，大模型Agent越來越多地被放進復雜的harness系統里。它不再只是回答一個孤立問題，而是會閱讀長上下文、調用工具、接收檢索結果、和其他agent討論，也會在多輪交互中不斷更新自己的判斷。這帶來了一個很現實的問題：

如果一個模型原本知道正確答案，當持續學習過程中的上下文里出現錯誤信息時，它還能堅持正確判斷嗎？

針對這一問題，來自浙江大學、愛丁堡大學的研究團隊展開了研究。

研究發現，模型對995個問題都能以完美Self-Consistency（自一致性）給出正確答案。

也就是說，在無干擾條件下，它看起來非常確定。但當上下文中加入輕微干擾后，準確率卻從100.0%下降到33.8%。

換句話說，一個模型可能反復答對某個事實，卻并沒有形成足夠穩健的判斷。一旦看到錯誤同伴意見、誤導性檢索文檔，或者帶有權威包裝的錯誤信息，它仍然可能放棄原本正確的答案。

這就是這篇論文關注的問題：大模型看起來很自信時，它真的可靠嗎？

為什么這個問題在Agent時代變得重要？

過去，常常用最終答案來評價模型。比如，一個問題問了10次，模型10次都回答正確，就會認為它在這個問題上具有很高的Self-Consistency，也就是自一致性。

這種指標當然有價值，但它隱含了一個很強的假設：只要模型反復答對，就說明它對這個事實形成了可靠判斷。

在單輪問答里，這個假設似乎還說得過去。但在真實應用中，模型面對的往往不是一個干凈、孤立的問題，而是一個充滿噪聲和干擾的上下文環境。

例如：在RAG系統里，模型會看到檢索文檔。如果檢索結果中混入錯誤信息，模型是否會被帶偏？

在多智能體系統里，一個agent可能會看到其他agent的回答。如果多數agent都給出錯誤答案，它是否還會堅持原本正確的判斷？

在多輪對話里，用戶可能不斷提供帶有傾向性的補充信息。模型會合理更新，還是過度迎合？

在真實交互中，模型會同時受到多輪上下文、用戶立場、檢索內容、其他agent、來源標簽和社會性暗示的影響。它的判斷狀態可能會漂移、固化、被誤導，或者被過度更新。

可以把這個更廣義的問題稱為上下文中的信念管理。

它關注的是：模型如何在給定上下文下為某個命題分配權重；當新信息進入時，模型如何決定是否更新；面對無關干擾、錯誤來源或社會性壓力時，又能否保持穩定。

從這個角度看，LLM的可靠性不應只問模型有沒有答對，還應進一步看它是否形成了比較魯棒的信念。

高Self-Consistency不等于穩健信念

一個例子很好地說明了這個問題。

問題：“2012年IMU巴西副主席是誰？”

在原始設置下，模型能夠穩定回答正確答案：Marcelo Viana。多次采樣中，它都給出相同且正確的答案，Self-Consistency為1.0。

如果只看傳統指標，會認為模型已經很好地掌握了這個事實。

但當上下文中出現多個其他AI智能體，并且它們都回答Jacob Palis時，模型可能會轉而輸出這個錯誤答案。

也就是說，模型原本能答對，但當它看到“其他agent都這么說”時，判斷發生了偏移。

這說明，模型“反復答對”并不一定代表它在相關知識結構中形成了穩健表征。它可能只是對某個孤立問答模式非常熟悉，但缺少足夠的知識支撐來抵抗外部干擾。

這也是研究的核心出發點：

真實性評估不能只看模型在目標問題上是否答對，還要看它在相關知識鄰域中是否保持一致。

Neighbor-Consistency Belief

為了解決這個問題，研究考慮了一個很簡單的想法：

對于一個目標事實，研究不再只測試模型能否回答目標問題，還會構造與該事實相關的一組“鄰域事實”，并觀察模型在這些鄰域問題上的表現。

研究基于貝葉斯推理策略的啟發提出了核心指標Neighbor-Consistency Belief（NCB）。

研究主要構造了三類鄰域事實：

第一類是Entity Prerequisite。
這類事實是理解目標事實所需的實體前置知識。例如，如果模型要回答某個人在某個組織中的職位，它可能需要知道該人物、組織、時間范圍等相關實體信息。

第二類是Logical Implication。
這類事實與目標事實存在邏輯蘊含或強相關關系。如果模型真的掌握了目標事實，它在這些邏輯相關問題上也應該表現出一致性。

第三類是Thematic Association。
這類事實與目標事實處在相近主題空間中。例如，同一領域、同一事件、同一組織或同一知識片段周圍的關聯事實。

NCB會把目標問題的正確頻率與鄰域問題的正確頻率結合起來，通過概念鄰域中的一致性估計模型知識狀態的穩健程度。

簡單來說：NCB越高，說明模型在該事實周圍的知識結構越一致，也越可能在干擾場景下保持穩定。

認知壓力測試：模型會被上下文帶偏嗎？

為了驗證NCB是否真的能預測干擾下的穩定性，論文設計了一套認知壓力測試框架。

這些測試并不是簡單地檢查模型是否知道答案，而是模擬真實應用中常見的上下文干擾：錯誤同伴意見、誤導性討論、不同可信度來源等。論文的壓力測試受到經典Asch Conformity Experiments和Source Credibility Theory的啟發，主要包含兩大類設置：Peer Quantity和Source Credibility。

Peer Quantity：同伴數量壓力

第一類壓力測試是Peer Quantity，用于模擬多智能體系統中的同伴壓力。

在這個設置中，模型回答問題前，會看到多個“其他AI智能體”的回答。如果多數智能體給出錯誤答案，目標模型是否會被影響？這一設置進一步分為兩種場景:

Conflict場景中，其他agent直接給出錯誤答案，與正確事實發生沖突。

Misleading場景中，其他agent并不一定直接說出錯誤答案，而是圍繞錯誤實體給出一些表面合理的信息，從語義上誘導模型偏向錯誤答案。

Source Credibility：來源可信度壓力

第二類壓力測試是Source Credibility，用于模擬不同來源可信度對模型判斷的影響。

在真實RAG或搜索增強系統中，模型經常會看到來自不同來源的信息：社交媒體、博客、新聞、論文、報告等。這些來源的可信度不同，但來源標簽本身也可能對模型形成干擾。

論文測試的問題是：如果一個錯誤信息來自看起來更權威的來源，模型是否會更容易放棄原本正確的答案？

這類測試對應了真實系統中的一個常見風險：模型不僅會讀取內容，也會受到內容包裝方式的影響。來源標簽、權威措辭、格式化引用，都可能改變模型對信息的權重分配。

理想情況下，模型應當根據evidence更新判斷，而不是因為source framing或social framing被不合理帶偏。

NCB是一個合理的信念評估指標

論文從多個事實數據集（SimpleQA,SciQ,Hotpot_QA）進行采樣加人工標注構建了一個Neighbor-Enriched Dataset，覆蓋四個領域（STEM，藝術與文化，社會科學，體育）共包含2000個樣本。

每個目標事實平均包含約7.84個驗證后的鄰域事實，以及4.88個誤導性鄰域事實。

實驗評估了四個代表性模型：Qwen-2.5-32B-Instruct；Qwen3-A3B-30B-Instruct-2507；Qwen3-A3B-30B-Thinking-2507；OLMo-2-32B-Instruct。此外還評估了Qwen-2.5系列大小模型。

主實驗直接聚焦于模型原本已經“高自一致”的樣本，也就是那些在傳統Self-Consistency視角下看起來已經被模型掌握的樣本。論文根據NCB分數將樣本劃分為高NCB組和低NCB組，比較它們在壓力測試下的表現差異。

主實驗結果顯示：在多個模型和多種干擾設置下，高NCB組通常比低NCB組表現出更小的準確率下降。

以top/bottom35%的高低NCB組為例，在Quantity-Stressing設置下：

Qwen-2.5：高NCB組下降16.0%，低NCB組下降25.7%；
Qwen3：高NCB組下降17.6%，低NCB組下降28.8%；
Qwen3-Thinking：高NCB組下降11.3%，低NCB組下降22.6%。
OLMo2：高NCB組下降18.7%，低NCB組下降28.3%；

更細粒度的趨勢也很明顯：隨著錯誤同伴數量增加，低NCB組的準確率下降更快。

高NCB組雖然也會受到影響，但整體下降幅度明顯較小。在Peer Quantity–Conflict設置下，當干擾強度逐漸增加時，

LowNCB準確率從97%降至62%，而HighNCB從98%降至81%。

推理和反思并不總能解決問題

研究進一步論文比較了直接回答、Chain-of-Thought和Reflection等推理時策略。

結果顯示，CoT的效果并不穩定。在部分設置下，CoT反而可能放大干擾帶來的性能下降。

例如，在Qwen-2.5的LowNCB-35%組中，Quantity-Stressing下的準確率下降從直接回答的25.7%增加到CoT的31.6%。

這說明：推理過程本身也會受到上下文影響。如果上下文中存在錯誤同伴意見或誤導性信息，模型的推理鏈可能圍繞這些干擾展開，從而把錯誤進一步合理化。

Reflection在多數設置中能緩解干擾，但它也不是對“脆弱知識”的根本修復。整體來看，推理時策略可以改變模型處理上下文的方式，但如果底層知識本身缺少結構化一致性，模型仍可能受到誤導信息影響。

除了診斷，論文還初步探索了使知識結構化的訓練策略Structure-Aware Training（SAT）。

SAT的思路是：在學習新知識時，不只讓模型記住孤立答案，而是通過鄰域上下文和通用上下文，讓模型在不同上下文中保持對核心事實的穩定輸出。

具體來說，SAT會構造包含語義相關鄰域信息和通用背景信息的兩類上下文。

隨后，使用凍結的教師模型提供參考分布，讓學生模型在不同上下文下匹配教師模型在原始問題上的輸出分布。這樣，模型被訓練為：即使上下文發生變化，也應盡量保持對核心事實的穩定輸出。

實驗顯示，SAT能在一定程度上降低新知識學習后的干擾敏感性。論文摘要中也指出，SAT可以減少長尾知識脆弱性，降低壓力測試下的性能退化。

總結和展望

總體來看，研究關注的是一個正在變得越來越重要的問題：大模型在復雜上下文中持續學習新知識，是否真的能夠形成并維持穩定、可靠的判斷？

這一問題之所以重要，是因為對AI的期待其實來自兩個方面。

第一，希望AI能夠幫助完成長程、復雜、跨步驟的任務，從而提升生產力。

第二，也希望AI能夠幫助人類學習、反思和成長，成為一種認知輔助工具。

前者要求模型在長期任務中穩定執行、合理更新、不被噪聲輕易帶偏；后者則要求模型在與人互動時能夠提供可靠信息，而不是放大錯誤信念、迎合用戶偏見，甚至在不知不覺中操縱人的判斷。

從第一個角度看，LLM在長程交互中并不總能穩定維持判斷。例如，ICLR 2026 Outstanding PaperLLMs Get Lost In Multi-Turn Conversation發現，在多輪對話中，尤其是面對欠明確指令時，模型性能和可靠性會明顯下降。

這說明，當任務從單輪問答擴展到長期交互時，模型的錯誤不再只是一次性的輸出偏差，而可能在上下文累積中逐漸放大。

對未來智能體而言，這一點尤其關鍵：如果一個模型需要長期積累知識、記憶和經驗，那么它不僅要能回答當前問題，還要能區分哪些信息應該被暫時利用，哪些信息應該寫入長期記憶，哪些判斷又應該在新證據出現時被修正。

從第二個角度看，還需要關注LLM的信念會如何影響人的信念。

A Rational Analysis of the Effects of Sycophantic AI則從討好型AI的角度指出，如果模型持續強化用戶已有觀點，可能會提高用戶的主觀確定感，卻不一定讓用戶更接近真實答案；

The Hidden Puppet Master:A Theoretical and Real-World Account of Emotional Manipulationin LLMs從隱藏激勵和情感操縱的角度說明，模型對話可能引發human belief shift，并且這種影響并不總是容易被現有模型準確預測。

換句話說，LLM的信念風險不僅在于它自己會不會被誤導，也在于它是否會進一步誤導人類。

從這個意義上說，鄰域一致性只是一個起點。它提醒，大模型的真實性和可靠性不能只通過單點答案來衡量，而應放在更廣闊的交互環境中理解。

未來可能需要把事實一致性、長期記憶、行為控制、人類信念影響和模型可解釋性結合起來，進一步構建能夠在復雜世界中穩定判斷、合理更新、并負責任地影響人類的AI系統。

參考論文
[1]LLMs Get Lost In Multi-TurnConversation.
[2]The Hidden Puppet Master: ATheoretical and Real-World Account of Emotional Manipulationin LLMs.
[3]A Rational Analysis of the Effects of Sycophantic AI.
[4]Illusions of Confidence?Diagnosing LLM Truthfulness via Neighborhood Consistency.
[5]論文鏈接：https://arxiv.org/abs/2601.05905
[6]代碼鏈接：https://github.com/zjunlp/belief

閱讀最新前沿科技趨勢報告，請訪問21世紀關鍵技術研究院的“未來知識庫”

未來知識庫是 “21世紀關鍵技術研究院”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.