我們總以為,當(dāng)大語(yǔ)言模型信誓旦旦地胡編亂造時(shí),它的內(nèi)部狀態(tài)里一定藏著一個(gè)明確的“撒謊信號(hào)”。比如,它是不是在朝某個(gè)特定方向偏移?是不是激活了某個(gè)“虛構(gòu)模式”?但一項(xiàng)針對(duì)“自信虛構(gòu)”——那種流暢、合理、毫不遲疑卻完全錯(cuò)誤的輸出——的最新測(cè)量結(jié)果,給出了一個(gè)反直覺(jué)的答案:模型內(nèi)心根本沒(méi)有一個(gè)一致的“撒謊方向”。
幻覺(jué)檢測(cè)里最難啃的骨頭,并非模型明顯猶豫、自相矛盾的情形。那些基于不確定性或回答離散度的檢測(cè)方法,對(duì)付“肉眼可見(jiàn)的不確定”還算有效。真正的麻煩,也是讓生產(chǎn)環(huán)境里出大事故的,是模型用絕對(duì)自信的口吻,拋出一條完全捏造的引用、一個(gè)憑空發(fā)明的劑量,或者一個(gè)根本不存在先例。這類輸出在表面信心上與正確答案毫無(wú)二致。研究團(tuán)隊(duì)想要回答的,正是一個(gè)窄而尖銳的問(wèn)題:當(dāng)模型自信地虛構(gòu)內(nèi)容時(shí),它的生成動(dòng)態(tài)里到底有沒(méi)有暴露出蛛絲馬跡?
![]()
為了找到答案,研究圍繞回答區(qū)間追蹤了兩個(gè)內(nèi)部可觀察量。一個(gè)是“熵/預(yù)測(cè)不確定性信號(hào)”,可以理解為模型在輸出答案的過(guò)程中,其輸出概率分布如何發(fā)生偏移。另一個(gè)是“表征偏移信號(hào)”,測(cè)量的是模型內(nèi)部表征在每一步之間的變動(dòng)幅度。值得誠(chéng)實(shí)交代的是,最初的觀測(cè)項(xiàng)目本是四個(gè)信號(hào),但其中兩對(duì)呈現(xiàn)出完美的相關(guān)性,相關(guān)系數(shù)達(dá)到1.000,說(shuō)明它們本質(zhì)上是同一個(gè)測(cè)量的仿射映射,而非獨(dú)立信號(hào)。因此,實(shí)際上只存在兩個(gè)獨(dú)立軸:一個(gè)不確定性軸,一個(gè)表征偏移軸。數(shù)據(jù)集覆蓋了約124條提示,橫跨科學(xué)、歷史、醫(yī)學(xué)、法律、技術(shù)、數(shù)學(xué)與地理七個(gè)領(lǐng)域,并設(shè)置了五個(gè)虛構(gòu)層級(jí)。
關(guān)鍵發(fā)現(xiàn)在于,在自信虛構(gòu)的情形下,模型內(nèi)部的平均響應(yīng)與說(shuō)真話時(shí)的狀態(tài)在統(tǒng)計(jì)上無(wú)法區(qū)分。模型并沒(méi)有朝著某個(gè)穩(wěn)定的“說(shuō)謊方向”移動(dòng)。真正將虛構(gòu)與真相區(qū)分開(kāi)的,是內(nèi)部軌跡的幅度和方差:虛構(gòu)會(huì)在模型內(nèi)部引發(fā)更大、更離散的波動(dòng)。在表征偏移通道上,虛構(gòu)與真相的方差比率大約達(dá)到7倍,效應(yīng)量也就是Cohen's d值約為0.58,p值約為0.005。這種可變性還隨著虛構(gòu)強(qiáng)度呈現(xiàn)劑量反應(yīng)關(guān)系,進(jìn)一步提示這是虛構(gòu)行為本身帶來(lái)的特征,而非隨機(jī)噪聲。
這個(gè)發(fā)現(xiàn)直接導(dǎo)向一條務(wù)實(shí)的工程思路:不去尋找一個(gè)“編造方向”,而是去檢測(cè)“不穩(wěn)定性”。把信號(hào)在整個(gè)生成跨度上積分起來(lái),而不是試圖從某個(gè)單獨(dú)時(shí)間點(diǎn)識(shí)別真假。更重要的是,這種檢測(cè)器不應(yīng)作為一個(gè)孤立的關(guān)卡來(lái)使用,而是要把它耦合到具體的干預(yù)措施當(dāng)中。這樣,當(dāng)模型在自信地飛奔進(jìn)虛構(gòu)地帶時(shí),我們不需要去質(zhì)問(wèn)它到底在想什么,只需要觀測(cè)它內(nèi)部狀態(tài)那劇烈晃動(dòng)的幅度——那便是最誠(chéng)實(shí)的告密者。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.