![]()
這項由香港科技大學(廣州)聯合清華大學、南洋理工大學、中國人民大學、中國科學技術大學、中國科學院大學等多家機構共同完成的研究,以預印本形式發布于2026年5月,論文編號為arXiv:2604.28123。研究提出了一種名為PRISM的三階段訓練框架,專門用于提升大型多模態模型(即同時能看圖、能推理的AI)的訓練效果。感興趣的讀者可通過arXiv平臺搜索該編號查閱完整論文。
當前訓練聰明AI的主流做法,就像教一個孩子先臨摹字帖(監督微調,SFT),再通過做題拿獎勵來鞏固(強化學習,RLVR)。這條路走了很久,效果也不錯,但研究團隊發現其中藏著一個隱患:臨摹字帖這一步,不僅沒能讓孩子真正學會寫字的精髓,反而讓他養成了一些壞習慣,而這些壞習慣在后續做題階段會越來越難糾正。PRISM的核心貢獻,就是在"臨摹字帖"和"做題拿獎勵"之間,專門插入了一個"糾正壞習慣"的環節,從而讓整個訓練過程更順暢、效果更顯著。
一、從"臨摹字帖"到"做題拿獎勵",中間那步被忽視了多久
要理解這項研究的價值,先得搞清楚AI模型是怎么被訓練出來的。現在訓練一個能看圖答題的AI(專業上叫"大型多模態模型"),通常分兩大步:第一步,給AI看大量高質量的示范答案,讓它模仿著學,這個過程叫"監督微調";第二步,給AI出題,答對了給獎勵,答錯了不獎勵甚至懲罰,讓AI自己摸索出更好的解題方式,這叫"強化學習"。
這個流程聽起來挺合理的,就像先讓學生抄課文、背范文,再讓學生自己寫作文。但問題出在"抄課文"這一步上。當AI在模仿示范答案時,它是在逐字逐句地"背誦",而不是真正理解背后的邏輯。更糟糕的是,這種逐字模仿的方式,會讓AI的輸出風格逐漸偏離它原本擅長的東西,同時又沒能完全學到示范答案的精華。用專業術語說,這叫"分布漂移"——AI的輸出分布既沒有對準示范數據的分布,又偏離了自己原來的分布,卡在了一個兩頭不靠的尷尬位置。
在只處理文字的AI上,這個問題還不算太嚴重。但在需要同時看圖和推理的多模態AI上,這個問題會被成倍放大。原因在于,看圖這件事和推理這件事的"漂移"方式完全不一樣。比如,對于一道幾何題,AI可能對圖中形狀的描述已經學得七七八八了,但對解題步驟的推理邏輯還差得遠;或者反過來,推理鏈條寫得頭頭是道,但對圖里的關鍵視覺信息描述得一塌糊涂。這兩種錯誤方式,用同一套糾正方法根本處理不好。
正因如此,研究團隊提出了一個關鍵問題:能不能在"臨摹字帖"和"做題拿獎勵"之間,專門加一道工序,針對性地修正這種雙重漂移?PRISM就是這道工序的具體實現。
二、三明治結構:PRISM如何在兩步之間插入關鍵的"校準層"
PRISM這個名字是"通過黑盒在線策略蒸餾實現多模態強化學習預對齊"的英文縮寫,聽起來復雜,但核心思路其實很直觀。
整個訓練過程被設計成三層結構,就像一個三明治。第一層是"臨摹字帖"(監督微調),這一步和以前一樣,讓AI通過大量示范數據建立基本的推理能力。第三層是"做題拿獎勵"(強化學習),這一步也和以前一樣,通過自動評判答案對錯來進一步提升AI的解題準確率。關鍵的創新在第二層——"校準層",也就是PRISM的分布對齊階段。
這個校準層做的事情,可以用一個類比來理解。假設一位新廚師(AI)學了一段時間米其林廚師(示范數據)的菜譜,現在他的炒菜水平有了一定基礎,但炒出來的菜和米其林水準還有差距。差距體現在兩方面:一是對食材的處理方式(類比"視覺感知",即看圖描述)還不夠精準,二是烹飪步驟的邏輯(類比"推理過程")還不夠嚴密。
校準層的方案是引入一位專業評審團(叫做"混合專家判別器")。這個評審團由兩位專門的專家組成:一位專門評判食材處理是否到位(感知專家),另一位專門評判烹飪邏輯是否合理(推理專家)。新廚師每次炒出一道菜,評審團就會打分,然后把兩位專家的評分加權合并,告訴廚師哪里做得好、哪里還差得遠。廚師根據這個反饋不斷調整,直到炒出來的菜越來越接近米其林水準。
更巧妙的是,這個評審團本身也在同步學習和進化。廚師的水平在提升,評審團的評判標準也在跟著調整,始終保持對最新狀態的精準判斷,而不是用一套僵化的老標準評判日益精進的廚師。這解決了強化學習中常見的"獎勵模型過時"問題。
三、"黑盒蒸餾":連示范老師的腦子都不用看
PRISM還有一個特別值得提的技術細節:它的工作方式是"黑盒"的。
在傳統的知識蒸餾方法中(知識蒸餾就是讓小AI學大AI),小AI不僅要看大AI給出的答案,還要能訪問大AI內部每一步的"心理活動"——專業上叫"logits"(可以理解為大AI在每個詞上的置信度分布)。問題是,現實中很多高質量的示范數據來自Gemini、GPT-4這樣的商業AI,外人根本訪問不到它們的內部參數,自然也得不到這些"心理活動"數據。
PRISM完全繞開了這個限制。它只需要看示范AI給出的最終答案文本,不需要任何內部參數。評審團通過對比"新廚師炒的菜"和"米其林菜譜里的成品菜"之間的差異,就能給出有效的反饋。這種方式被稱為"響應級別的對抗游戲"——AI的輸出和示范數據在評審團面前展開比較,評審團學會區分兩者,AI則努力讓自己的輸出更難被識別為"外行之作"。整個過程在數學上被形式化為一個"最小最大博弈"(minimax game),AI和評審團互相博弈,共同進步。
這種無需訪問示范模型內部參數的特性,讓PRISM具有極強的實用價值:現實世界中大量的高質量監督數據都來自不開放源碼的商業模型,而PRISM完全可以利用這些數據進行對齊訓練。
四、精心烹制的"食材":11.3萬條高質量多模態數據的煉成
好的訓練方法需要好的數據配合。研究團隊為PRISM專門準備了兩套數據,就像廚師備菜一樣精心。
第一套是規模龐大的基礎食材:團隊利用了來自同一Gemini模型家族的126萬條公開多模態推理示范,這些數據覆蓋面廣,用于監督微調階段給AI打下寬泛的基礎。
第二套是專門為"校準層"精心烹制的高質量食材:團隊從零開始,專門篩選出當前最強的AI模型(包括Gemini等)都答不對的、最難的多模態推理題,然后用Gemini 3 Flash這個高性能AI生成詳細的解題示范,每道題的答案都包含三個部分——對圖像的精細描述、逐步推理的思考過程、以及最終答案。生成后還要經過三道嚴格的質量過濾:先過濾掉生成失敗或格式不對的,再過濾掉答案明顯錯誤的(由另一個AI擔任評判官),最終沉淀出11.3萬條高質量數據。這11.3萬條數據中,10.7萬條用于監督微調,剩下6000條質量最高的留給對齊階段使用。
為什么要專門找"當前AI答不對的難題"來制造訓練數據?這背后有個很有趣的邏輯:對于那些模型已經能輕松答對的題目,再多的訓練也不會帶來多大進步;只有在那些模型還掌握不好的"盲區"里下功夫,才能真正提升上限。這就好比一個鋼琴學生,與其反復練已經爛熟的曲子,不如專門針對自己最難掌握的技巧下功夫。
五、兩位"專家評審":感知專家和推理專家各司其職
回到PRISM核心的評審團設計。研究團隊為何要專門設置兩位獨立專家,而不是用一個全能評委打綜合分?這背后有很深的考量。
在多模態推理任務里,一個完整的解題回答包含兩個本質上不同的部分:對圖像內容的描述(比如"圖中有三角形,三角形的三條邊長分別是...,圖中還標注了角度..."),以及基于這些視覺信息的推理鏈條(比如"根據勾股定理,斜邊的平方等于...")。
這兩部分的質量問題,性質截然不同。視覺描述的問題往往是"看錯了"或"漏看了"——比如把六角星描述成了"星形輪廓"而非"六尖星",或者忽略了某個關鍵的角度標注。推理的問題則往往是"想錯了"或"跳步了"——比如用了錯誤的公式,或者某個推導步驟不嚴謹。
如果用一個評委打綜合分,當AI在視覺描述上進步了但推理退步了(或反過來),這兩種變化的信號會相互抵消,評委給出的分數變化就會模糊不清,AI根本不知道該往哪個方向調整。而兩位各司其職的專家,能分別提供清晰的視覺反饋和推理反饋,讓AI精準地知道每個維度上的差距在哪里。
實驗也印證了這一設計的價值。研究團隊專門做了對比實驗:把雙專家評審替換成一個能力相當的單一評委(計算量相同)。結果顯示,單一評委方案的平均分下降了3.4個百分點,在推理密集型任務(WeMath)上的跌幅高達6.0個百分點。這證明了分離視覺和推理反饋的必要性。
此外,研究團隊還觀察了兩位專家在訓練過程中的進化軌跡,發現一個有趣的現象:感知專家的評分差距(示范數據得分減去AI輸出得分)在訓練早期迅速攀升到高峰后很快趨于穩定;而推理專家的評分差距則上升得更緩慢,而且一路上起伏更大,經歷更多震蕩才逐漸收斂到穩定水平。這說明讓AI學會準確描述圖像,比讓AI學會正確推理要容易一些——視覺感知的對齊速度更快,而推理邏輯的對齊則需要更長時間的反復調整。這兩種截然不同的收斂軌跡,本身就是為雙專家設計提供支撐的有力證據。
六、三步缺一不可:拆掉任何一層,效果都大打折扣
研究團隊對PRISM的三層結構做了系統的"拆解實驗",逐一移除某一層,看看會發生什么。
先把校準層(第二層)拆掉,只保留第一層和第三層。這就退化成了傳統的"臨摹字帖→做題拿獎勵"兩步流程。結果:平均準確率下跌4.4個百分點。這直接證明了校準層的價值——沒有它,AI在進入強化學習階段時,攜帶了太多從監督微調遺留的"壞習慣",強化學習無法將其完全糾正。
再把第一層(監督微調)也拆掉,直接從校準層開始,會發生什么?結果更慘:平均準確率暴跌16.8個百分點。道理也很清楚:如果AI在進入校準階段時,水平和示范數據差距太大,評審團能輕易地一眼看穿AI的輸出和示范數據之間的區別,這樣的比較幾乎沒有意義,AI也無從改進。監督微調的作用,正是先把AI的基礎水平拉到和示范數據"在同一個量級"的程度,為后續的精細校準創造前提條件。
由此可以理解這三步之間的分工:第一步(監督微調)的任務是"入門",縮短AI和示范數據之間的巨大鴻溝,讓校準階段得以開展;第二步(校準層)的任務是"精調",在更精細的層面上對齊視覺感知和推理風格;第三步(強化學習)的任務是"沖刺",在有了高質量初始狀態的基礎上,通過對答案正確性的直接反饋來最大化實際表現。三者環環相扣,缺少任何一環,整個系統都會顯著退步。
七、讓AI說話更少,做事更好:數據效率的意外收獲
PRISM還帶來了一個意料之外的好處:更高的"語言效率"。
研究團隊對比了三種配置的AI在做題時的平均用詞量和準確率:原始的基礎模型、經過傳統"監督微調+強化學習"訓練的模型,以及經過PRISM訓練的模型。
在數學視覺推理任務(MathVision)上,PRISM訓練的模型準確率最高(45.4%),而且平均每道題只用了2889個詞;而傳統兩步訓練的模型準確率只有35.5%,卻用了5724個詞;原始模型準確率36.5%,用了9538個詞。
簡單說就是:PRISM訓練的AI更聰明,而且話更少。這和某種直覺是吻合的——一個真正理解了題目本質的學生,解題過程往往簡潔明了;反倒是一知半解的學生,容易寫一大堆廢話來填充答案篇幅。PRISM的校準過程,可能在客觀上幫助AI學會了更精煉地表達推理過程。
八、實驗結果:數字背后的進步有多顯著
研究團隊在兩個規模的模型(40億參數和80億參數的Qwen3-VL)上,針對數學推理和通用多模態理解共7個標準測試集進行了評測,測試集涵蓋MathVista、MathVerse、MathVision、WeMath這四個數學推理測試,以及MMMU、MMMU-Pro、HallusionBench這三個通用理解測試。
在40億參數版本上,PRISM搭配標準強化學習算法(GRPO)的組合,相比傳統"監督微調+GRPO"的組合,7個測試集的平均準確率提升了4.4個百分點。在80億參數的更大模型上,提升幅度更大,達到6.0個百分點。具體來看,提升最明顯的是MathVision(數學視覺推理)和WeMath(類人數學推理)兩個測試集,這兩個恰恰是對視覺感知和推理邏輯雙重要求最高的測試。
更值得關注的是強化學習算法的適用性。研究團隊測試了三種不同的強化學習算法:GRPO、DAPO和GSPO,結果顯示PRISM對三種算法都帶來了一致的提升。這說明校準層的價值不依賴于某一種特定的強化學習方式,而是普遍有效的——無論后續用什么方式"做題拿獎勵",有了更好的初始狀態,效果就更好。
還有一個頗為微妙的觀察:在完成校準層訓練但還沒進入強化學習階段時,AI的準確率并沒有比監督微調后有明顯提升。這不是缺陷,而是設計如此——校準層的目標不是直接提高答題正確率,而是調整AI輸出的"風格"和"結構",使其更接近高質量示范數據的分布模式。這種調整的價值,在進入強化學習階段后才充分體現出來,因為此時AI有了一個更扎實、更少偏差的起點。
九、越強的模型,越怕"臨摹"拖后腿
研究發現了一個反直覺的規律:模型本身越強,監督微調造成的傷害往往越大。
原始的Qwen3-VL-8B(80億參數)作為基礎模型,在7個測試集上的平均得分是63.3分。經過監督微調后,分數不升反降,變成了58.1分——平均下跌5.2分。而且在后續的強化學習階段,無論用GRPO還是GSPO算法,分數只能勉強恢復到63.3分左右,和原始模型持平,并沒有真正的提升。
反過來,PRISM+GRPO組合下的80億參數模型最終得分達到69.3分,比原始模型高出整整6分。
這個現象背后的邏輯是:一個本來就很強的模型,已經掌握了一套成熟的推理分布。當你強迫它去逐字逐句模仿示范數據時,這種模仿會破壞它原有的優勢分布,而模仿的收益(學到示范數據的精華)又不足以彌補這種破壞。越強的模型,這種"破壞原有優勢"的副作用越明顯。而PRISM通過校準層修復了這種破壞,讓強大的基礎能力得以保留并在強化學習中進一步發揮。
十、AI的進步軌跡可以被"看見"
研究團隊還設計了一種巧妙的方法來直觀展示AI在不同訓練階段的變化。由于直接觀察高維度的AI輸出分布太抽象,團隊選擇了兩個容易量化的"結構性代理指標":推理鏈條中包含的步驟數,以及圖像描述中列出的具體要素數量。
在基礎模型階段,AI生成的推理步驟數和描述要素數,與高質量示范數據相比差距明顯——步驟偏少,描述也偏簡略。經過監督微調之后,兩項指標都向示范數據靠近了,但仍有明顯差距,而且圖像描述這一項還出現了"過頭"的問題——AI寫了比示范數據還多的描述要素,說明它在這里過度模仿,矯枉過正了。進入校準層之后,兩項指標都進一步向示范數據收斂,過度描述的問題也得到了修正,整體分布和示范數據高度吻合。更重要的是,在最后的強化學習階段完成后,這種分布對齊的效果依然保持穩定,沒有在優化答案正確性的過程中退化回去。
這意味著PRISM的校準效果是持久的,不會被后續的強化學習訓練所沖刷消除。校準層為AI塑造的"推理風格",成為了一個穩固的基底,支撐著強化學習在此之上發揮出更大的效能。
說到底,PRISM做的事情,就是在AI訓練流水線里,把長期被忽視的那個"中間地帶"認真對待了一次。以前大家要么專注于讓AI更好地模仿示范(改進監督微調),要么專注于讓強化學習算法更穩定高效(改進GRPO等算法),卻很少有人認真思考:從"模仿階段"到"自我優化階段"的過渡本身,是否足夠平穩?PRISM給出的答案是:這個過渡根本沒有被認真對待過,而一旦認真對待,效果就會顯著提升。
對于普通用戶來說,這意味著未來AI助手的推理能力和視覺理解能力可能會同步、均衡地提升,而不是出現"會算但看不準圖"或"描述準確但推理混亂"這樣的偏科現象。這對依賴AI解決涉及圖表、示意圖、空間關系等視覺信息問題的場景——比如醫學影像分析、工程圖紙理解、數學輔導——來說,是實實在在的進步。
有興趣深入了解技術細節的讀者,可以通過arXiv平臺搜索論文編號arXiv:2604.28123查閱完整原文,其中包含完整的算法偽代碼、超參數設置,以及更多實驗細節和樣本示例。
Q&A
Q1:PRISM的校準層具體是如何訓練的,和普通的監督微調有什么區別?
A:普通監督微調是讓AI直接對著示范答案逐字學習,類似于照著字帖臨摹。PRISM的校準層則不讓AI直接模仿,而是設置一個由感知專家和推理專家組成的評審團,AI生成自己的答案,評審團判斷這個答案和示范數據有多像,然后反饋給AI。AI的目標是讓自己的答案越來越難被評審團識別為"非示范數據"。兩者在目標和機制上都有本質區別,前者是逐詞模仿,后者是整體風格對齊。
Q2:PRISM為什么需要專門收集難題數據,用已有的公開數據不行嗎?
A:已有的126萬條公開數據質量參差不齊,很多題目的答案缺乏詳細的視覺描述和完整的推理步驟,而這兩點恰恰是PRISM校準層所依賴的核心內容。更重要的是,公開數據中大量是當前AI已經能輕松答對的題目,用這些題目做對齊訓練效果有限。研究團隊專門篩選當前最強模型都答不對的難題,確保訓練數據能真正觸及AI的能力邊界。
Q3:PRISM需要額外的訓練開銷,比直接用更多數據做監督微調劃算嗎?
A:研究團隊的消融實驗給出了直接對比:僅用10.7萬條精選數據(而非全部137萬條數據)做監督微調,再加上PRISM的校準層,最終平均得分(62.5分)仍然高于用全部137萬條數據做監督微調但不加校準層的方案(61.8分)。這說明校準層帶來的提升不能簡單地用"堆更多監督數據"來替代。額外的計算開銷(僅500步的校準訓練)換來的性能提升是值得的。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.