網易首頁 > 網易號 > 正文申請入駐

香港科技大學（廣州）等機構聯合提出PRISM

2026-05-11 17:14:34　來源: 科技行者

天津舉報

分享至

這項由香港科技大學（廣州）聯合清華大學、南洋理工大學、中國人民大學、中國科學技術大學、中國科學院大學等多家機構共同完成的研究，以預印本形式發布于2026年5月，論文編號為arXiv:2604.28123。研究提出了一種名為PRISM的三階段訓練框架，專門用于提升大型多模態模型（即同時能看圖、能推理的AI）的訓練效果。感興趣的讀者可通過arXiv平臺搜索該編號查閱完整論文。

當前訓練聰明AI的主流做法，就像教一個孩子先臨摹字帖（監督微調，SFT），再通過做題拿獎勵來鞏固（強化學習，RLVR）。這條路走了很久，效果也不錯，但研究團隊發現其中藏著一個隱患：臨摹字帖這一步，不僅沒能讓孩子真正學會寫字的精髓，反而讓他養成了一些壞習慣，而這些壞習慣在后續做題階段會越來越難糾正。PRISM的核心貢獻，就是在"臨摹字帖"和"做題拿獎勵"之間，專門插入了一個"糾正壞習慣"的環節，從而讓整個訓練過程更順暢、效果更顯著。

一、從"臨摹字帖"到"做題拿獎勵"，中間那步被忽視了多久

要理解這項研究的價值，先得搞清楚AI模型是怎么被訓練出來的。現在訓練一個能看圖答題的AI（專業上叫"大型多模態模型"），通常分兩大步：第一步，給AI看大量高質量的示范答案，讓它模仿著學，這個過程叫"監督微調"；第二步，給AI出題，答對了給獎勵，答錯了不獎勵甚至懲罰，讓AI自己摸索出更好的解題方式，這叫"強化學習"。

這個流程聽起來挺合理的，就像先讓學生抄課文、背范文，再讓學生自己寫作文。但問題出在"抄課文"這一步上。當AI在模仿示范答案時，它是在逐字逐句地"背誦"，而不是真正理解背后的邏輯。更糟糕的是，這種逐字模仿的方式，會讓AI的輸出風格逐漸偏離它原本擅長的東西，同時又沒能完全學到示范答案的精華。用專業術語說，這叫"分布漂移"——AI的輸出分布既沒有對準示范數據的分布，又偏離了自己原來的分布，卡在了一個兩頭不靠的尷尬位置。

在只處理文字的AI上，這個問題還不算太嚴重。但在需要同時看圖和推理的多模態AI上，這個問題會被成倍放大。原因在于，看圖這件事和推理這件事的"漂移"方式完全不一樣。比如，對于一道幾何題，AI可能對圖中形狀的描述已經學得七七八八了，但對解題步驟的推理邏輯還差得遠；或者反過來，推理鏈條寫得頭頭是道，但對圖里的關鍵視覺信息描述得一塌糊涂。這兩種錯誤方式，用同一套糾正方法根本處理不好。

正因如此，研究團隊提出了一個關鍵問題：能不能在"臨摹字帖"和"做題拿獎勵"之間，專門加一道工序，針對性地修正這種雙重漂移？PRISM就是這道工序的具體實現。

二、三明治結構：PRISM如何在兩步之間插入關鍵的"校準層"

PRISM這個名字是"通過黑盒在線策略蒸餾實現多模態強化學習預對齊"的英文縮寫，聽起來復雜，但核心思路其實很直觀。

整個訓練過程被設計成三層結構，就像一個三明治。第一層是"臨摹字帖"（監督微調），這一步和以前一樣，讓AI通過大量示范數據建立基本的推理能力。第三層是"做題拿獎勵"（強化學習），這一步也和以前一樣，通過自動評判答案對錯來進一步提升AI的解題準確率。關鍵的創新在第二層——"校準層"，也就是PRISM的分布對齊階段。

這個校準層做的事情，可以用一個類比來理解。假設一位新廚師（AI）學了一段時間米其林廚師（示范數據）的菜譜，現在他的炒菜水平有了一定基礎，但炒出來的菜和米其林水準還有差距。差距體現在兩方面：一是對食材的處理方式（類比"視覺感知"，即看圖描述）還不夠精準，二是烹飪步驟的邏輯（類比"推理過程"）還不夠嚴密。

校準層的方案是引入一位專業評審團（叫做"混合專家判別器"）。這個評審團由兩位專門的專家組成：一位專門評判食材處理是否到位（感知專家），另一位專門評判烹飪邏輯是否合理（推理專家）。新廚師每次炒出一道菜，評審團就會打分，然后把兩位專家的評分加權合并，告訴廚師哪里做得好、哪里還差得遠。廚師根據這個反饋不斷調整，直到炒出來的菜越來越接近米其林水準。

更巧妙的是，這個評審團本身也在同步學習和進化。廚師的水平在提升，評審團的評判標準也在跟著調整，始終保持對最新狀態的精準判斷，而不是用一套僵化的老標準評判日益精進的廚師。這解決了強化學習中常見的"獎勵模型過時"問題。

三、"黑盒蒸餾"：連示范老師的腦子都不用看

PRISM還有一個特別值得提的技術細節：它的工作方式是"黑盒"的。

在傳統的知識蒸餾方法中（知識蒸餾就是讓小AI學大AI），小AI不僅要看大AI給出的答案，還要能訪問大AI內部每一步的"心理活動"——專業上叫"logits"（可以理解為大AI在每個詞上的置信度分布）。問題是，現實中很多高質量的示范數據來自Gemini、GPT-4這樣的商業AI，外人根本訪問不到它們的內部參數，自然也得不到這些"心理活動"數據。

PRISM完全繞開了這個限制。它只需要看示范AI給出的最終答案文本，不需要任何內部參數。評審團通過對比"新廚師炒的菜"和"米其林菜譜里的成品菜"之間的差異，就能給出有效的反饋。這種方式被稱為"響應級別的對抗游戲"——AI的輸出和示范數據在評審團面前展開比較，評審團學會區分兩者，AI則努力讓自己的輸出更難被識別為"外行之作"。整個過程在數學上被形式化為一個"最小最大博弈"（minimax game），AI和評審團互相博弈，共同進步。

這種無需訪問示范模型內部參數的特性，讓PRISM具有極強的實用價值：現實世界中大量的高質量監督數據都來自不開放源碼的商業模型，而PRISM完全可以利用這些數據進行對齊訓練。

四、精心烹制的"食材"：11.3萬條高質量多模態數據的煉成

好的訓練方法需要好的數據配合。研究團隊為PRISM專門準備了兩套數據，就像廚師備菜一樣精心。

第一套是規模龐大的基礎食材：團隊利用了來自同一Gemini模型家族的126萬條公開多模態推理示范，這些數據覆蓋面廣，用于監督微調階段給AI打下寬泛的基礎。

第二套是專門為"校準層"精心烹制的高質量食材：團隊從零開始，專門篩選出當前最強的AI模型（包括Gemini等）都答不對的、最難的多模態推理題，然后用Gemini 3 Flash這個高性能AI生成詳細的解題示范，每道題的答案都包含三個部分——對圖像的精細描述、逐步推理的思考過程、以及最終答案。生成后還要經過三道嚴格的質量過濾：先過濾掉生成失敗或格式不對的，再過濾掉答案明顯錯誤的（由另一個AI擔任評判官），最終沉淀出11.3萬條高質量數據。這11.3萬條數據中，10.7萬條用于監督微調，剩下6000條質量最高的留給對齊階段使用。

為什么要專門找"當前AI答不對的難題"來制造訓練數據？這背后有個很有趣的邏輯：對于那些模型已經能輕松答對的題目，再多的訓練也不會帶來多大進步；只有在那些模型還掌握不好的"盲區"里下功夫，才能真正提升上限。這就好比一個鋼琴學生，與其反復練已經爛熟的曲子，不如專門針對自己最難掌握的技巧下功夫。

五、兩位"專家評審"：感知專家和推理專家各司其職

回到PRISM核心的評審團設計。研究團隊為何要專門設置兩位獨立專家，而不是用一個全能評委打綜合分？這背后有很深的考量。

在多模態推理任務里，一個完整的解題回答包含兩個本質上不同的部分：對圖像內容的描述（比如"圖中有三角形，三角形的三條邊長分別是...，圖中還標注了角度..."），以及基于這些視覺信息的推理鏈條（比如"根據勾股定理，斜邊的平方等于..."）。

這兩部分的質量問題，性質截然不同。視覺描述的問題往往是"看錯了"或"漏看了"——比如把六角星描述成了"星形輪廓"而非"六尖星"，或者忽略了某個關鍵的角度標注。推理的問題則往往是"想錯了"或"跳步了"——比如用了錯誤的公式，或者某個推導步驟不嚴謹。

如果用一個評委打綜合分，當AI在視覺描述上進步了但推理退步了（或反過來），這兩種變化的信號會相互抵消，評委給出的分數變化就會模糊不清，AI根本不知道該往哪個方向調整。而兩位各司其職的專家，能分別提供清晰的視覺反饋和推理反饋，讓AI精準地知道每個維度上的差距在哪里。

實驗也印證了這一設計的價值。研究團隊專門做了對比實驗：把雙專家評審替換成一個能力相當的單一評委（計算量相同）。結果顯示，單一評委方案的平均分下降了3.4個百分點，在推理密集型任務（WeMath）上的跌幅高達6.0個百分點。這證明了分離視覺和推理反饋的必要性。

此外，研究團隊還觀察了兩位專家在訓練過程中的進化軌跡，發現一個有趣的現象：感知專家的評分差距（示范數據得分減去AI輸出得分）在訓練早期迅速攀升到高峰后很快趨于穩定；而推理專家的評分差距則上升得更緩慢，而且一路上起伏更大，經歷更多震蕩才逐漸收斂到穩定水平。這說明讓AI學會準確描述圖像，比讓AI學會正確推理要容易一些——視覺感知的對齊速度更快，而推理邏輯的對齊則需要更長時間的反復調整。這兩種截然不同的收斂軌跡，本身就是為雙專家設計提供支撐的有力證據。

六、三步缺一不可：拆掉任何一層，效果都大打折扣

研究團隊對PRISM的三層結構做了系統的"拆解實驗"，逐一移除某一層，看看會發生什么。

先把校準層（第二層）拆掉，只保留第一層和第三層。這就退化成了傳統的"臨摹字帖→做題拿獎勵"兩步流程。結果：平均準確率下跌4.4個百分點。這直接證明了校準層的價值——沒有它，AI在進入強化學習階段時，攜帶了太多從監督微調遺留的"壞習慣"，強化學習無法將其完全糾正。

再把第一層（監督微調）也拆掉，直接從校準層開始，會發生什么？結果更慘：平均準確率暴跌16.8個百分點。道理也很清楚：如果AI在進入校準階段時，水平和示范數據差距太大，評審團能輕易地一眼看穿AI的輸出和示范數據之間的區別，這樣的比較幾乎沒有意義，AI也無從改進。監督微調的作用，正是先把AI的基礎水平拉到和示范數據"在同一個量級"的程度，為后續的精細校準創造前提條件。

由此可以理解這三步之間的分工：第一步（監督微調）的任務是"入門"，縮短AI和示范數據之間的巨大鴻溝，讓校準階段得以開展；第二步（校準層）的任務是"精調"，在更精細的層面上對齊視覺感知和推理風格；第三步（強化學習）的任務是"沖刺"，在有了高質量初始狀態的基礎上，通過對答案正確性的直接反饋來最大化實際表現。三者環環相扣，缺少任何一環，整個系統都會顯著退步。

七、讓AI說話更少，做事更好：數據效率的意外收獲

PRISM還帶來了一個意料之外的好處：更高的"語言效率"。

研究團隊對比了三種配置的AI在做題時的平均用詞量和準確率：原始的基礎模型、經過傳統"監督微調+強化學習"訓練的模型，以及經過PRISM訓練的模型。

在數學視覺推理任務（MathVision）上，PRISM訓練的模型準確率最高（45.4%），而且平均每道題只用了2889個詞；而傳統兩步訓練的模型準確率只有35.5%，卻用了5724個詞；原始模型準確率36.5%，用了9538個詞。

簡單說就是：PRISM訓練的AI更聰明，而且話更少。這和某種直覺是吻合的——一個真正理解了題目本質的學生，解題過程往往簡潔明了；反倒是一知半解的學生，容易寫一大堆廢話來填充答案篇幅。PRISM的校準過程，可能在客觀上幫助AI學會了更精煉地表達推理過程。

八、實驗結果：數字背后的進步有多顯著

研究團隊在兩個規模的模型（40億參數和80億參數的Qwen3-VL）上，針對數學推理和通用多模態理解共7個標準測試集進行了評測，測試集涵蓋MathVista、MathVerse、MathVision、WeMath這四個數學推理測試，以及MMMU、MMMU-Pro、HallusionBench這三個通用理解測試。

在40億參數版本上，PRISM搭配標準強化學習算法（GRPO）的組合，相比傳統"監督微調+GRPO"的組合，7個測試集的平均準確率提升了4.4個百分點。在80億參數的更大模型上，提升幅度更大，達到6.0個百分點。具體來看，提升最明顯的是MathVision（數學視覺推理）和WeMath（類人數學推理）兩個測試集，這兩個恰恰是對視覺感知和推理邏輯雙重要求最高的測試。

更值得關注的是強化學習算法的適用性。研究團隊測試了三種不同的強化學習算法：GRPO、DAPO和GSPO，結果顯示PRISM對三種算法都帶來了一致的提升。這說明校準層的價值不依賴于某一種特定的強化學習方式，而是普遍有效的——無論后續用什么方式"做題拿獎勵"，有了更好的初始狀態，效果就更好。

還有一個頗為微妙的觀察：在完成校準層訓練但還沒進入強化學習階段時，AI的準確率并沒有比監督微調后有明顯提升。這不是缺陷，而是設計如此——校準層的目標不是直接提高答題正確率，而是調整AI輸出的"風格"和"結構"，使其更接近高質量示范數據的分布模式。這種調整的價值，在進入強化學習階段后才充分體現出來，因為此時AI有了一個更扎實、更少偏差的起點。

九、越強的模型，越怕"臨摹"拖后腿

研究發現了一個反直覺的規律：模型本身越強，監督微調造成的傷害往往越大。

原始的Qwen3-VL-8B（80億參數）作為基礎模型，在7個測試集上的平均得分是63.3分。經過監督微調后，分數不升反降，變成了58.1分——平均下跌5.2分。而且在后續的強化學習階段，無論用GRPO還是GSPO算法，分數只能勉強恢復到63.3分左右，和原始模型持平，并沒有真正的提升。

反過來，PRISM+GRPO組合下的80億參數模型最終得分達到69.3分，比原始模型高出整整6分。

這個現象背后的邏輯是：一個本來就很強的模型，已經掌握了一套成熟的推理分布。當你強迫它去逐字逐句模仿示范數據時，這種模仿會破壞它原有的優勢分布，而模仿的收益（學到示范數據的精華）又不足以彌補這種破壞。越強的模型，這種"破壞原有優勢"的副作用越明顯。而PRISM通過校準層修復了這種破壞，讓強大的基礎能力得以保留并在強化學習中進一步發揮。

十、AI的進步軌跡可以被"看見"

研究團隊還設計了一種巧妙的方法來直觀展示AI在不同訓練階段的變化。由于直接觀察高維度的AI輸出分布太抽象，團隊選擇了兩個容易量化的"結構性代理指標"：推理鏈條中包含的步驟數，以及圖像描述中列出的具體要素數量。

在基礎模型階段，AI生成的推理步驟數和描述要素數，與高質量示范數據相比差距明顯——步驟偏少，描述也偏簡略。經過監督微調之后，兩項指標都向示范數據靠近了，但仍有明顯差距，而且圖像描述這一項還出現了"過頭"的問題——AI寫了比示范數據還多的描述要素，說明它在這里過度模仿，矯枉過正了。進入校準層之后，兩項指標都進一步向示范數據收斂，過度描述的問題也得到了修正，整體分布和示范數據高度吻合。更重要的是，在最后的強化學習階段完成后，這種分布對齊的效果依然保持穩定，沒有在優化答案正確性的過程中退化回去。

這意味著PRISM的校準效果是持久的，不會被后續的強化學習訓練所沖刷消除。校準層為AI塑造的"推理風格"，成為了一個穩固的基底，支撐著強化學習在此之上發揮出更大的效能。

說到底，PRISM做的事情，就是在AI訓練流水線里，把長期被忽視的那個"中間地帶"認真對待了一次。以前大家要么專注于讓AI更好地模仿示范（改進監督微調），要么專注于讓強化學習算法更穩定高效（改進GRPO等算法），卻很少有人認真思考：從"模仿階段"到"自我優化階段"的過渡本身，是否足夠平穩？PRISM給出的答案是：這個過渡根本沒有被認真對待過，而一旦認真對待，效果就會顯著提升。

對于普通用戶來說，這意味著未來AI助手的推理能力和視覺理解能力可能會同步、均衡地提升，而不是出現"會算但看不準圖"或"描述準確但推理混亂"這樣的偏科現象。這對依賴AI解決涉及圖表、示意圖、空間關系等視覺信息問題的場景——比如醫學影像分析、工程圖紙理解、數學輔導——來說，是實實在在的進步。

有興趣深入了解技術細節的讀者，可以通過arXiv平臺搜索論文編號arXiv:2604.28123查閱完整原文，其中包含完整的算法偽代碼、超參數設置，以及更多實驗細節和樣本示例。

Q&A

Q1：PRISM的校準層具體是如何訓練的，和普通的監督微調有什么區別？

A：普通監督微調是讓AI直接對著示范答案逐字學習，類似于照著字帖臨摹。PRISM的校準層則不讓AI直接模仿，而是設置一個由感知專家和推理專家組成的評審團，AI生成自己的答案，評審團判斷這個答案和示范數據有多像，然后反饋給AI。AI的目標是讓自己的答案越來越難被評審團識別為"非示范數據"。兩者在目標和機制上都有本質區別，前者是逐詞模仿，后者是整體風格對齊。

Q2：PRISM為什么需要專門收集難題數據，用已有的公開數據不行嗎？

A：已有的126萬條公開數據質量參差不齊，很多題目的答案缺乏詳細的視覺描述和完整的推理步驟，而這兩點恰恰是PRISM校準層所依賴的核心內容。更重要的是，公開數據中大量是當前AI已經能輕松答對的題目，用這些題目做對齊訓練效果有限。研究團隊專門篩選當前最強模型都答不對的難題，確保訓練數據能真正觸及AI的能力邊界。

Q3：PRISM需要額外的訓練開銷，比直接用更多數據做監督微調劃算嗎？

A：研究團隊的消融實驗給出了直接對比：僅用10.7萬條精選數據（而非全部137萬條數據）做監督微調，再加上PRISM的校準層，最終平均得分（62.5分）仍然高于用全部137萬條數據做監督微調但不加校準層的方案（61.8分）。這說明校準層帶來的提升不能簡單地用"堆更多監督數據"來替代。額外的計算開銷（僅500步的校準訓練）換來的性能提升是值得的。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.