<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      當(dāng)AI學(xué)生"一錯再錯"時,浙江大學(xué)等機(jī)構(gòu)找到了精準(zhǔn)"糾錯"的方法

      0
      分享至


      這項(xiàng)由浙江大學(xué)、中國科學(xué)院大學(xué)和上海人工智能實(shí)驗(yàn)室聯(lián)合完成的研究,于2026年4月以預(yù)印本形式發(fā)布,論文編號為arXiv:2604.24819,感興趣的讀者可以通過這個編號找到完整論文。

      你有沒有遇到過這種令人抓狂的情況:你辛辛苦苦教了一個學(xué)生很多知識,最后考試他答錯了,但你根本不知道他到底哪里沒學(xué)會,也不知道該重新教他哪些內(nèi)容,只能無奈地把所有課程從頭再來一遍?這正是當(dāng)前人工智能領(lǐng)域面臨的一個核心困境,而這支研究團(tuán)隊(duì)提出了一個令人眼前一亮的解決方案。

      在過去幾年里,大型語言模型(說白了就是類似ChatGPT那樣的AI)已經(jīng)能夠通過學(xué)習(xí)大量專業(yè)書籍和文獻(xiàn)來掌握醫(yī)學(xué)、物理、法律等領(lǐng)域的專業(yè)知識。但這個"教AI學(xué)專業(yè)知識"的過程有一個根本性的缺陷:當(dāng)AI答錯題時,沒有任何機(jī)制能告訴你它究竟是在哪份訓(xùn)練材料上"卡住"了,也沒有辦法去針對性地補(bǔ)救。整個訓(xùn)練流程就像一個黑箱——你往里面塞數(shù)據(jù),等待結(jié)果,如果結(jié)果不理想,唯一的辦法就是再塞更多數(shù)據(jù)。這種"堆數(shù)據(jù)"的方式既浪費(fèi)資源,又缺乏邏輯,效果還完全沒有保障。

      這支團(tuán)隊(duì)的核心洞察在于:教AI學(xué)習(xí)專業(yè)知識,和軟件工程師寫程序,其實(shí)在結(jié)構(gòu)上是同一件事。程序員寫出的代碼如果有bug,可以通過測試精確定位到問題在哪一行,然后針對性地修改那一行代碼。為什么不能讓AI的訓(xùn)練數(shù)據(jù)也具備同樣的可追溯、可調(diào)試的特性呢?他們將這套新方法命名為"用數(shù)據(jù)編程"(Programming with Data,簡稱ProDa),并在包括物理、醫(yī)學(xué)、經(jīng)濟(jì)學(xué)、天文學(xué)在內(nèi)的16個不同學(xué)科上進(jìn)行了驗(yàn)證,證明這套方法確實(shí)有效。

      一、那個令所有AI工程師頭疼的"黑箱"問題

      要理解這項(xiàng)研究解決了什么問題,先回到那個"教學(xué)生"的比喻,但這次要更具體一些。

      假設(shè)你是一位負(fù)責(zé)教AI學(xué)習(xí)醫(yī)學(xué)知識的老師。你手頭有一本厚厚的醫(yī)學(xué)教科書,你從中提取了數(shù)萬道題目,讓AI一道一道地學(xué)習(xí)和練習(xí)。學(xué)完之后,你用一套考題來測試這個AI。結(jié)果AI在"心臟病發(fā)作的機(jī)制"這道題上答錯了。

      現(xiàn)在問題來了:這道題答錯,是因?yàn)榻滩睦镪P(guān)于"鈉離子通道"的那段內(nèi)容沒有被提取成訓(xùn)練題目?還是關(guān)于"心肌細(xì)胞去極化"的解釋被遺漏了?還是說這兩個概念都教了,但AI就是沒學(xué)會把它們聯(lián)系起來進(jìn)行推理?你完全不知道。你能做的,只有把醫(yī)學(xué)教材里的內(nèi)容再多提取幾萬道題,希望下次運(yùn)氣更好一些。

      這就是研究團(tuán)隊(duì)所說的"開環(huán)問題"——訓(xùn)練和測試之間沒有反饋回路。就像你往一個無底洞里不斷投石頭,卻永遠(yuǎn)不知道哪塊石頭剛好填住了漏洞。

      更深層的原因在于,當(dāng)前主流的AI訓(xùn)練思路是從大規(guī)模預(yù)訓(xùn)練那里"借"來的。預(yù)訓(xùn)練的時候,模型要看的數(shù)據(jù)是以萬億字為單位來計(jì)量的,那種量級下,數(shù)據(jù)本身的統(tǒng)計(jì)規(guī)律就能保證知識的覆蓋面,出了問題還有下一個相似的句子來彌補(bǔ)。但是,當(dāng)我們把目標(biāo)從"讓AI學(xué)會說話"縮小為"讓AI掌握心臟科專業(yè)知識"的時候,可用的教材是有限的,每一次答錯都是一個有價值的診斷信號,但現(xiàn)有的流程完全無法利用這個信號。整個過程依然是開環(huán)的,測試結(jié)果只是一個分?jǐn)?shù),沒有告訴你任何關(guān)于"哪里出了問題、該如何修復(fù)"的信息。

      二、軟件工程師早就解決了這個問題——他們是怎么做的

      在軟件工程領(lǐng)域,程序員們曾經(jīng)也面臨過類似的困境。早期的編程是一種手藝,開發(fā)者寫代碼、運(yùn)行代碼、發(fā)現(xiàn)錯誤,然后憑經(jīng)驗(yàn)猜測問題在哪里,反復(fù)修改。這個過程效率極低,而且高度依賴個人經(jīng)驗(yàn)。

      后來出現(xiàn)了一種叫做"測試驅(qū)動開發(fā)"的工程方法,徹底改變了這一局面。這種方法的核心思想是:在寫代碼之前,先把"這段代碼應(yīng)該實(shí)現(xiàn)什么功能"寫成一份清晰的規(guī)格文檔。接著,基于這份文檔寫出代碼,也基于這份文檔寫出測試用例。當(dāng)某個測試失敗時,因?yàn)榇a和測試用例都來自同一份規(guī)格文檔,你可以像偵探循著地圖一樣,精確追溯到"規(guī)格文檔的第幾條要求沒有被代碼正確實(shí)現(xiàn)",然后只修改那一小塊代碼,而不需要把整個程序推倒重來。

      這支研究團(tuán)隊(duì)發(fā)現(xiàn),只要在AI訓(xùn)練流程中引入一個類似"規(guī)格文檔"的東西,讓訓(xùn)練數(shù)據(jù)和測試題目都從這個共同基礎(chǔ)中派生出來,那么軟件工程的這套邏輯就能完整地移植過來。訓(xùn)練數(shù)據(jù)相當(dāng)于代碼,模型訓(xùn)練相當(dāng)于編譯,測試基準(zhǔn)相當(dāng)于單元測試,而針對錯誤的數(shù)據(jù)修復(fù)相當(dāng)于調(diào)試和打補(bǔ)丁。這不是比喻,而是結(jié)構(gòu)上完全對應(yīng)的同一件事。這套框架使得AI的訓(xùn)練過程從一個"一錘子買賣"的單向流程,變成了一個能夠持續(xù)自我優(yōu)化的閉環(huán)工程。

      三、這份"規(guī)格文檔"長什么樣——三層知識結(jié)構(gòu)的設(shè)計(jì)

      那么,這份連接訓(xùn)練和測試的"規(guī)格文檔"究竟是如何構(gòu)建的?研究團(tuán)隊(duì)設(shè)計(jì)了一種包含三個層次的知識結(jié)構(gòu),從原始的教材文本中自動提取出來。

      最底層是原子概念,團(tuán)隊(duì)稱之為L1。你可以把它想象成一本學(xué)科詞典,里面收錄了這個領(lǐng)域里每一個重要的專業(yè)詞匯——每個詞條都有精確的定義,并且標(biāo)注了這個定義來自原始教材的哪個位置。例如,在醫(yī)學(xué)領(lǐng)域,"鈉離子通道失活"就是一個L1概念,附帶著一句簡潔精準(zhǔn)的定義:"電壓門控鈉離子通道在膜電位持續(xù)去極化后進(jìn)入失活狀態(tài),無法在沒有足夠超極化的情況下復(fù)位。"

      在L1的基礎(chǔ)上,中間層是知識關(guān)系,稱為L2。如果說L1是詞典,那么L2就是這個領(lǐng)域的"關(guān)系網(wǎng)絡(luò)"。它記錄了兩個L1概念之間的具體聯(lián)系,每條關(guān)系都是一個"主語-謂語-賓語"的三元組,并且注明了這種關(guān)系的類型,例如因果關(guān)系、先決條件關(guān)系、專化關(guān)系、對比關(guān)系等。"高鉀血癥(主語)導(dǎo)致(謂語)膜持續(xù)去極化(賓語)"就是一條L2關(guān)系,而且這不是隨便瞎說的,旁邊還附著原始教材中支持這個論斷的原文引用。

      最頂層是推理鏈,稱為L3。如果L1是詞匯,L2是詞匯之間的兩兩連線,那么L3就是把這些連線串成的一條完整的因果故事。L3記錄了一個多步驟的推理過程:高鉀血癥 → 細(xì)胞外鉀離子濃度升高 → 靜息膜電位向去極化方向移動 → 鈉離子通道持續(xù)處于失活狀態(tài) → 鈉離子通道無法復(fù)位 → 細(xì)胞膜失去興奮性 → 出現(xiàn)特征性心電圖改變。每一步到下一步都有明確的邏輯依據(jù),整條鏈路就是一個可以被拆解驗(yàn)證的完整推理過程。

      這三層結(jié)構(gòu)的提取順序是一個關(guān)鍵的工程決策:從上往下,先提取L3推理鏈,再從L3中拆解出L2關(guān)系,最后從L2中收割L1概念。這個順序保證了一個數(shù)學(xué)上可證明的性質(zhì):每一個L1概念和每一個L2關(guān)系,都至少參與了一條L3推理鏈。用工程語言說,知識圖譜中沒有任何"孤兒節(jié)點(diǎn)"——每一個概念都是可測試的,每一次測試失敗也都可以追溯到某個具體的概念或關(guān)系。這個性質(zhì)是整個框架能夠閉環(huán)調(diào)試的根本前提。

      四、訓(xùn)練數(shù)據(jù)、測試題目,以及它們之間的精妙分工

      有了三層知識結(jié)構(gòu)之后,研究團(tuán)隊(duì)從中派生出兩類東西:訓(xùn)練數(shù)據(jù)和測試基準(zhǔn)題目,而且這兩類東西的生成來源是刻意分開的。

      訓(xùn)練數(shù)據(jù)從L1和L2中生成。系統(tǒng)會從知識關(guān)系網(wǎng)絡(luò)中取出一批L2關(guān)系和相關(guān)的L1定義,讓AI自動生成三種格式的練習(xí)題:開放性問答題(要求解釋原理和機(jī)制)、單項(xiàng)或多項(xiàng)選擇題(考查關(guān)系的掌握),以及判斷題(測試對邊界條件和常見誤區(qū)的識別)。這些題目覆蓋了知識的"磚塊和砂漿"——即具體的概念和兩兩之間的關(guān)系。

      測試題目則從L3推理鏈中生成,而且故意不和訓(xùn)練題目重疊。每道測試題都要求模型沿著某條L3推理鏈走完全程,在多個關(guān)鍵節(jié)點(diǎn)上做出判斷。這意味著,要答對測試題,模型必須真正理解并能靈活運(yùn)用L1和L2中的知識,而不是簡單地背誦訓(xùn)練題目的答案。就像你背下了所有歷史事件的年份和名稱,卻不一定能回答"如果當(dāng)時沒有發(fā)生這件事,后來的歷史走向會有什么不同"——后者需要真正的理解和推理能力。

      為了讓測試題足夠有區(qū)分度,每道題的干擾選項(xiàng)也是從知識結(jié)構(gòu)中精心構(gòu)造的,而不是隨便編造幾個明顯錯誤的答案。干擾選項(xiàng)是通過三種方式制造的:把L3推理鏈中的某個L1概念替換成語義相近但不同的概念,把L2關(guān)系的方向顛倒(把"A促進(jìn)B"改成"B促進(jìn)A"),或者把一條完整的L3推理鏈截?cái)嘣谥虚g,給出一個貌似合理卻缺乏最終結(jié)論的選項(xiàng)。這樣構(gòu)造出來的干擾選項(xiàng),只有真正理解了知識結(jié)構(gòu)的模型才能辨別,那些只是死記硬背的模型會很容易被迷惑。

      五、當(dāng)AI答錯題,系統(tǒng)是怎么"抓住病根"的

      這套框架最精彩的部分在于調(diào)試環(huán)節(jié),也就是團(tuán)隊(duì)所說的"Debugger"(調(diào)試器)的工作方式。

      當(dāng)經(jīng)過第一輪訓(xùn)練的模型在測試基準(zhǔn)上答錯某道題時,調(diào)試器會接管這道題。它會收到這道題的題目、模型的錯誤答案、正確答案,以及這道題所對應(yīng)的知識結(jié)構(gòu)元數(shù)據(jù)(即這道題來自哪條L3推理鏈,涉及哪些L2關(guān)系,以及哪些L1概念)。然后,調(diào)試器要做的事是把這次失敗分類成兩種情況。

      第一種情況叫"概念缺口":模型對某個具體的L1概念或L2關(guān)系存在混淆或缺失。就像一個學(xué)生把"相對論"和"量子力學(xué)"的適用范圍搞混了,這是一個明確的知識點(diǎn)缺失問題。第二種情況叫"推理缺陷":模型其實(shí)知道所有相關(guān)的L1和L2知識,但就是無法按正確順序把它們串聯(lián)成完整的推理過程。這更像是一個學(xué)生知道所有公式,卻在解題時不知道該先用哪個公式、后用哪個公式。

      針對這兩種不同的失敗類型,調(diào)試器會采用完全不同的修復(fù)策略。對于概念缺口,系統(tǒng)會生成一批新的訓(xùn)練樣本,專門把混淆的概念和它的近鄰概念放在一起,用精確的對比和例子來強(qiáng)化邊界。對于推理缺陷,系統(tǒng)會生成帶有完整中間步驟的"思維鏈"樣本,把那條失敗的推理路徑拆成若干明確的小步驟,一步一步地教模型如何走通。

      生成的修復(fù)樣本會和原始訓(xùn)練數(shù)據(jù)的一個精心選取的子集混合在一起,構(gòu)成下一輪訓(xùn)練的數(shù)據(jù)集。選取子集的原則是:子集中的訓(xùn)練樣本所覆蓋的L2關(guān)系,必須和修復(fù)樣本覆蓋的L2關(guān)系完全不重疊。這樣做是為了防止模型在學(xué)新東西的時候把以前學(xué)會的東西忘掉,就像復(fù)習(xí)考試時,你不應(yīng)該只反復(fù)看最近做錯的題,還要偶爾溫習(xí)一下已經(jīng)掌握的內(nèi)容。

      六、在16個學(xué)科上實(shí)際跑出來的結(jié)果

      研究團(tuán)隊(duì)把這套框架落地為一個叫做ProDa的系統(tǒng),并在16個學(xué)科上進(jìn)行了大規(guī)模測試,這16個學(xué)科涵蓋了物理、工程、醫(yī)學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)、生物、化學(xué)、地球科學(xué)、材料科學(xué)、教育學(xué)、經(jīng)濟(jì)學(xué)、歷史、環(huán)境科學(xué)、社會學(xué)、心理學(xué)和天文學(xué)。

      原始語料的規(guī)模相當(dāng)可觀,從約117000份教材級別的文檔出發(fā),經(jīng)過層層質(zhì)量篩選,最終保留了48000個高質(zhì)量的文本片段,大約包含15億個詞符。從這些文本中,系統(tǒng)自動提取出了43953條L3推理鏈、186784條L2關(guān)系和227869個L1概念,合計(jì)約46萬個知識節(jié)點(diǎn)。提取完成后,研究團(tuán)隊(duì)特別檢驗(yàn)了孤兒節(jié)點(diǎn)的比例,結(jié)果是零——每一個概念和關(guān)系都被至少一條可測試的推理鏈所覆蓋。在知識圖譜的連通性上,16個學(xué)科中,每個學(xué)科的最大連通組件都覆蓋了99%以上的節(jié)點(diǎn),其中11個學(xué)科超過了99.8%。

      基于這套知識結(jié)構(gòu),系統(tǒng)生成了16000道測試題(每個學(xué)科1000道)和16萬道訓(xùn)練題。研究團(tuán)隊(duì)對這套測試基準(zhǔn)的可信度進(jìn)行了嚴(yán)格的外部驗(yàn)證:把多個AI模型在這套題上的成績,與11個國際知名測試基準(zhǔn)(包括GPQA、MMLU-Pro、GSM8K等)的成績進(jìn)行相關(guān)性比較,發(fā)現(xiàn)斯皮爾曼秩相關(guān)系數(shù)達(dá)到了0.847,與GPQA的相關(guān)性更高達(dá)0.943。換句話說,在這套題上表現(xiàn)好的模型,在其他權(quán)威測試上也表現(xiàn)好,反之亦然,證明這套題不是"自娛自樂",而是真實(shí)反映模型能力的有效工具。

      接下來是關(guān)于訓(xùn)練效果的核心數(shù)據(jù)。研究團(tuán)隊(duì)用兩個主流AI模型家族進(jìn)行了測試:Llama和Qwen,參數(shù)規(guī)模從30億到320億不等。第一輪訓(xùn)練(未經(jīng)調(diào)試)結(jié)果就已經(jīng)相當(dāng)亮眼:以Qwen-3-4B這個30億參數(shù)的小模型為例,經(jīng)過16萬條ProDa訓(xùn)練數(shù)據(jù)的一輪微調(diào)之后,它在16學(xué)科測試上的平均分從54.62%躍升至65.79%,超過了它的官方指令版本整整11.17個百分點(diǎn),而官方版本是經(jīng)過了人類反饋強(qiáng)化學(xué)習(xí)(RLHF)這種昂貴且復(fù)雜的對齊過程訓(xùn)練出來的。另一個例子是320億參數(shù)的Qwen-3-32B,經(jīng)過第一輪訓(xùn)練后達(dá)到77.35%,超過了所有開源指令模型,僅次于GPT-5.4等商業(yè)閉源前沿模型。

      但第一輪之后并非所有模型都超過了官方版本,部分參數(shù)規(guī)模的模型還有差距。這正是調(diào)試環(huán)節(jié)登場的時機(jī)。經(jīng)過一輪基于錯誤診斷的數(shù)據(jù)修復(fù)(即第二輪訓(xùn)練),所有9個被測試的模型無一例外地全部提升了成績,沒有任何例外。最戲劇性的案例是Llama-3.1-8B,這個模型在第一輪訓(xùn)練后只有30.35%的正確率(主要原因是它不太會按指定格式回答多選題),但調(diào)試之后直接跳到63.02%,超過了它的官方指令版本(60.65%)。320億參數(shù)的Qwen-2.5-32B經(jīng)過調(diào)試后達(dá)到78.84%,Qwen-3-32B達(dá)到79.52%,都超過了GPT-5.4(76.82%)、Gemini-3-flash(76.60%)和DeepSeek-v3.2(76.69%)。

      七、三個讓人看得津津有味的真實(shí)修復(fù)案例

      數(shù)據(jù)之外,研究團(tuán)隊(duì)還展示了三個具體的"診斷-修復(fù)"案例,分別來自物理、經(jīng)濟(jì)學(xué)和醫(yī)學(xué),把整套調(diào)試機(jī)制的運(yùn)作方式講得非常生動。

      第一個案例來自光學(xué)。在一道關(guān)于"菲涅耳半波帶法"的題目中,模型在第一輪訓(xùn)練后把其中一個錯誤選項(xiàng)C認(rèn)為是對的,這個選項(xiàng)聲稱高階亮紋強(qiáng)度減弱是因?yàn)?未抵消半波帶的振幅保持不變"。調(diào)試器把這次失敗分類為概念缺口,并精確定位到L1概念"未抵消的菲涅耳半波帶",以及一條L2邏輯"隨著衍射級數(shù)增加,未抵消的半波帶在整個縫寬中占據(jù)的面積比例減小,因此強(qiáng)度下降"。錯誤不在于模型不知道有"未抵消半波帶"這個概念,而在于它沒有理解"面積比例減小"這個核心機(jī)制。針對這條L2關(guān)系,系統(tǒng)生成了一批新的訓(xùn)練樣本,用定量比較的方式展示了不同衍射級數(shù)下未抵消半波帶的面積變化。第二輪訓(xùn)練后,模型在同類題目上的作答完全正確。

      第二個案例來自經(jīng)濟(jì)學(xué)和法律的交叉地帶,涉及世貿(mào)組織《衛(wèi)生與植物檢疫措施協(xié)定》中的一個真實(shí)爭端案例——日本對蘋果品種檢驗(yàn)措施的WTO裁定。模型在第一輪訓(xùn)練后把美國提出但未被專家組采納的"產(chǎn)品測試替代方案"誤認(rèn)為是專家組的最終裁定。調(diào)試器把這次失敗分類為推理缺陷,定位到L1概念"吸收水平測試"和相關(guān)的L2司法邏輯鏈條。修復(fù)策略是生成專注于"三重檢驗(yàn)標(biāo)準(zhǔn)"的學(xué)習(xí)樣本,強(qiáng)化模型對"提案階段"與"最終裁定階段"的區(qū)分能力。修復(fù)之后,模型能夠準(zhǔn)確區(qū)分不同司法論證環(huán)節(jié),得出正確的法律解讀。

      第三個案例來自醫(yī)學(xué),考查高鉀血癥(血液中鉀離子濃度過高)導(dǎo)致心臟興奮性喪失的機(jī)制。模型在第一輪訓(xùn)練后雖然認(rèn)出了一些心電圖表現(xiàn),但遺漏了"鈉離子通道失活"這個核心機(jī)制。調(diào)試器定位到L1概念"鈉離子通道失活"和其對應(yīng)的L2命題:"缺乏膜超極化使已失活的鈉離子通道無法復(fù)位。"修復(fù)樣本著重讓模型內(nèi)化這條雙重否定邏輯:不是"去極化激活了什么",而是"持續(xù)去極化使鈉離子通道無法從失活狀態(tài)退出"。第二輪訓(xùn)練后,模型能夠完整準(zhǔn)確地描述這個電生理機(jī)制。

      八、調(diào)試后的AI還記得以前學(xué)的東西嗎

      任何針對特定缺陷的"強(qiáng)化訓(xùn)練"都面臨一個風(fēng)險:模型在學(xué)會新東西的同時,可能把以前學(xué)會的舊東西忘掉。這個問題在深度學(xué)習(xí)領(lǐng)域有個專門的名字,叫"災(zāi)難性遺忘",是許多模型調(diào)優(yōu)項(xiàng)目的噩夢。

      研究團(tuán)隊(duì)對此進(jìn)行了專項(xiàng)測試,用MMLU和C-Eval這兩個通用知識基準(zhǔn)的相關(guān)子集來衡量模型的通用能力在訓(xùn)練過程中有沒有下滑。結(jié)果顯示,第一輪訓(xùn)練之后,確實(shí)存在輕微的通用能力下滑,在MMLU上的中位下滑幅度是0.48個百分點(diǎn),在C-Eval上是0.41個百分點(diǎn)。但在第二輪調(diào)試訓(xùn)練之后,9個模型中有7個的MMLU成績不僅恢復(fù)到了基線水平,甚至略有超越,中位變化是正0.27個百分點(diǎn)。這說明精準(zhǔn)的數(shù)據(jù)修復(fù)機(jī)制在修補(bǔ)專業(yè)知識缺陷的同時,也相應(yīng)地修復(fù)了第一輪訓(xùn)練帶來的通用能力損耗,而不是進(jìn)一步侵蝕通用能力。

      九、它和其他"多給AI一些訓(xùn)練數(shù)據(jù)"的方法相比,到底好在哪里

      研究團(tuán)隊(duì)還做了一個控制實(shí)驗(yàn),專門把ProDa和其他三種主流數(shù)據(jù)生成方法進(jìn)行了對比,包括Alpaca(讓AI自己生成訓(xùn)練指令)、EasyDataset(直接從文檔生成訓(xùn)練數(shù)據(jù))和DataFlow(數(shù)據(jù)生成流水線)。控制變量是數(shù)據(jù)量,四種方法分別在每學(xué)科1000、2000、5000和10000條數(shù)據(jù)的規(guī)模下進(jìn)行比較,所有方法都使用同一個基礎(chǔ)模型(Qwen-2.5-7B)。

      結(jié)果在每一個數(shù)據(jù)量級上,ProDa都明顯領(lǐng)先。最能說明問題的一個數(shù)字是:ProDa在僅使用每學(xué)科1000條修復(fù)樣本(即第二輪調(diào)試數(shù)據(jù))的情況下,平均得分達(dá)到68.72%;而其他方法在每學(xué)科10000條數(shù)據(jù)的情況下,最高也只能做到59.79%(Alpaca)和57.07%(DataFlow)。換句話說,精準(zhǔn)的錯誤診斷驅(qū)動的修復(fù)數(shù)據(jù),在效果上等價于或超越了盲目堆砌的十倍數(shù)據(jù)量。這個對比清楚地說明,真正的瓶頸不在于數(shù)據(jù)的數(shù)量,而在于數(shù)據(jù)與模型實(shí)際缺陷之間的匹配程度。

      十、ProDa Studio:把整套流程裝進(jìn)一個工具箱

      為了讓這套方法不只停留在論文里,研究團(tuán)隊(duì)還開發(fā)了一個叫做"ProDa Studio"的集成開發(fā)環(huán)境,把知識提取、基準(zhǔn)生成、訓(xùn)練數(shù)據(jù)合成、模型訓(xùn)練和評估調(diào)試這五個環(huán)節(jié)整合到一個統(tǒng)一的界面中,并以開源形式發(fā)布。

      在這個環(huán)境里,用戶可以在左側(cè)邊欄看到一個線性流程,依次是"提取知識核心"、"生成測試基準(zhǔn)"、"生成訓(xùn)練數(shù)據(jù)"(包含生成、診斷、補(bǔ)充和合并四個子步驟)、"模型微調(diào)"和"評估"。每個步驟的輸出都會作為下一步的輸入,完整的溯源鏈從原始語料一路延伸到最終的評分結(jié)果。評估完成后,界面上直接提供一個按鈕來啟動針對當(dāng)前錯誤集的調(diào)試器,用戶無需離開這個環(huán)境就能觸發(fā)下一輪的診斷-修復(fù)循環(huán)。這個設(shè)計(jì)使得整套"編譯-測試-調(diào)試"的閉環(huán)能夠以工程化的方式重復(fù)執(zhí)行,而不是每次都要手動拼湊各種腳本。

      說到底,這項(xiàng)研究打通了一條關(guān)鍵的邏輯鏈路:它讓"AI答錯了題"這件事,從一個令人無奈的終點(diǎn),變成了一個有跡可循的起點(diǎn)。通過在訓(xùn)練數(shù)據(jù)和測試題目之間建立共同的知識結(jié)構(gòu)基礎(chǔ),研究團(tuán)隊(duì)證明了模型的能力和訓(xùn)練數(shù)據(jù)之間的關(guān)系并非不可捉摸,而是可以被系統(tǒng)地追蹤、診斷和修復(fù)的。

      這對普通人意味著什么?一個很直接的影響是,未來的醫(yī)療AI、法律AI或教育AI可能不再是靠堆砌海量數(shù)據(jù)來維持性能,而是能夠像一個有自我反思能力的學(xué)生一樣,通過精準(zhǔn)的自我糾錯來持續(xù)進(jìn)步。這不只是訓(xùn)練效率的提升,更是一種關(guān)于"AI如何可靠地掌握人類專業(yè)知識"這個根本問題的新思路。

      當(dāng)然,研究團(tuán)隊(duì)也坦誠地指出,這項(xiàng)工作建立的是這個新范式的宏觀架構(gòu),每一個模塊——知識提取的質(zhì)量、調(diào)試器的診斷精準(zhǔn)度、修復(fù)樣本的生成策略——都還有大量深入研究的空間。特別值得期待的方向包括與檢索增強(qiáng)生成技術(shù)的結(jié)合(讓系統(tǒng)在診斷時能直接檢索原始文獻(xiàn)),以及與可解釋性研究的結(jié)合(更精細(xì)地定位模型內(nèi)部哪些"神經(jīng)回路"對應(yīng)了特定的知識缺陷)。

      有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過arXiv編號2604.24819獲取完整論文。對于想直接上手嘗試的工程師,代碼和數(shù)據(jù)集已經(jīng)在GitHub(OpenRaiser/ProDa)和HuggingFace(OpenRaiser/ProDalib)上公開發(fā)布。

      Q&A

      Q1:ProDa框架是如何判斷AI答錯一道題是"概念缺口"還是"推理缺陷"的?

      A:ProDa的調(diào)試器在拿到錯誤樣本后,會將題目、模型的錯誤答案、正確答案以及這道題所對應(yīng)的知識結(jié)構(gòu)信息(來自哪條推理鏈、涉及哪些關(guān)系和概念)一起交給一個大語言模型來判斷。"概念缺口"指的是模型對某個具體概念或兩個概念之間的關(guān)系存在混淆或缺失;"推理缺陷"指的是相關(guān)概念都有,但模型無法按正確順序把它們串聯(lián)成完整推理。這兩種失敗對應(yīng)完全不同的修復(fù)策略:前者補(bǔ)充對比性概念強(qiáng)化樣本,后者補(bǔ)充帶完整中間步驟的思維鏈樣本。

      Q2:ProDa訓(xùn)練出來的AI模型在專業(yè)領(lǐng)域提升明顯,會不會把以前的通用能力"學(xué)忘了"?

      A:研究團(tuán)隊(duì)專門針對這個問題進(jìn)行了測試,使用MMLU和C-Eval的相關(guān)子集來衡量通用能力變化。第一輪訓(xùn)練后確實(shí)有輕微下降,MMLU上平均降了約0.48個百分點(diǎn)。但在第二輪調(diào)試訓(xùn)練(即基于錯誤診斷的數(shù)據(jù)修復(fù))之后,9個測試模型中有7個的MMLU成績恢復(fù)到或超過了初始基線水平,中位變化是正0.27個百分點(diǎn)。總體來看,精準(zhǔn)的修復(fù)機(jī)制不僅補(bǔ)上了專業(yè)知識短板,還順帶修復(fù)了第一輪訓(xùn)練帶來的通用能力輕微損耗。

      Q3:ProDa方法和直接給AI更多訓(xùn)練數(shù)據(jù)相比,效果差距有多大?

      A:研究團(tuán)隊(duì)做了直接對比實(shí)驗(yàn),將ProDa與Alpaca、EasyDataset、DataFlow三種主流數(shù)據(jù)生成方法在相同數(shù)據(jù)量下進(jìn)行比較。結(jié)果顯示,ProDa僅用每個學(xué)科1000條修復(fù)樣本就達(dá)到了68.72%的平均分,而其他方法在每個學(xué)科10000條數(shù)據(jù)的情況下,最高也只達(dá)到59.79%。也就是說,精準(zhǔn)診斷驅(qū)動的修復(fù)數(shù)據(jù),效果超過了盲目堆砌十倍數(shù)據(jù)量的常規(guī)方法,關(guān)鍵不在于數(shù)據(jù)多不多,而在于數(shù)據(jù)是否精準(zhǔn)對應(yīng)了模型實(shí)際的知識缺陷。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      塞爾主持:姆巴佩可能以為皇馬是主隊(duì)2-0領(lǐng)先,才發(fā)了Hala Madrid

      塞爾主持:姆巴佩可能以為皇馬是主隊(duì)2-0領(lǐng)先,才發(fā)了Hala Madrid

      懂球帝
      2026-05-11 12:09:08
      大快人心!上海地鐵“霸道大媽”終被法辦,倚老賣老真的不靈了

      大快人心!上海地鐵“霸道大媽”終被法辦,倚老賣老真的不靈了

      西莫的藝術(shù)宮殿
      2026-05-11 16:11:00
      德隆秀恩愛,42歲身家過億,二婚娶超模,不工作環(huán)游世界

      德隆秀恩愛,42歲身家過億,二婚娶超模,不工作環(huán)游世界

      大西體育
      2026-05-11 22:38:23
      英國首相稱將對令人失望的選舉結(jié)果負(fù)責(zé)

      英國首相稱將對令人失望的選舉結(jié)果負(fù)責(zé)

      財(cái)聯(lián)社
      2026-05-11 17:32:12
      人民日報(bào)發(fā)聲:機(jī)關(guān)事業(yè)單位的隱性收入,正在消失

      人民日報(bào)發(fā)聲:機(jī)關(guān)事業(yè)單位的隱性收入,正在消失

      細(xì)說職場
      2026-05-09 12:16:27
      香港游泳名將何詩蓓官宣戀情,事業(yè)情場得意,與荷蘭隊(duì)友甜蜜出游

      香港游泳名將何詩蓓官宣戀情,事業(yè)情場得意,與荷蘭隊(duì)友甜蜜出游

      體娛一家親
      2026-05-11 21:33:10
      俄加強(qiáng)對普京的保護(hù)措施,歐洲情報(bào)機(jī)構(gòu)猜測,可能與紹伊古有關(guān)

      俄加強(qiáng)對普京的保護(hù)措施,歐洲情報(bào)機(jī)構(gòu)猜測,可能與紹伊古有關(guān)

      阿甘天天傳
      2026-05-10 23:20:20
      賀希寧走步了嗎?CBA裁判專家分析,給出了一個答案

      賀希寧走步了嗎?CBA裁判專家分析,給出了一個答案

      體育哲人
      2026-05-11 21:04:17
      炸鍋!穆里尼奧回歸皇馬條件曝光,5 大球星要被掃地出門

      炸鍋!穆里尼奧回歸皇馬條件曝光,5 大球星要被掃地出門

      奶蓋熊本熊
      2026-05-11 00:35:03
      價格大跳水!山姆排長隊(duì),一上架遭搶購!有商戶一天賣了9000斤,網(wǎng)友:猝不及防

      價格大跳水!山姆排長隊(duì),一上架遭搶購!有商戶一天賣了9000斤,網(wǎng)友:猝不及防

      極目新聞
      2026-05-11 12:31:11
      國際足聯(lián)愿作出重大讓步,世界杯轉(zhuǎn)播權(quán)或降價!央視態(tài)度很明確

      國際足聯(lián)愿作出重大讓步,世界杯轉(zhuǎn)播權(quán)或降價!央視態(tài)度很明確

      開成運(yùn)動會
      2026-05-11 20:19:11
      我換迷你車拒絕懷孕同事蹭車,五天后人事說她因打車貴已申請離職

      我換迷你車拒絕懷孕同事蹭車,五天后人事說她因打車貴已申請離職

      曉艾故事匯
      2026-05-11 14:13:09
      臺積電、阿斯麥跌超3%

      臺積電、阿斯麥跌超3%

      財(cái)聯(lián)社
      2026-05-11 21:40:09
      我50歲才悟出一個道理:凡是從不參加同學(xué)聚會、不愛發(fā)動態(tài)、不混圈子的人,十有八九在這兩個方面遠(yuǎn)超常人,觀察了身邊上百人屢試不爽

      我50歲才悟出一個道理:凡是從不參加同學(xué)聚會、不愛發(fā)動態(tài)、不混圈子的人,十有八九在這兩個方面遠(yuǎn)超常人,觀察了身邊上百人屢試不爽

      心理觀察局
      2026-05-08 10:35:21
      為啥說帶娃最好遠(yuǎn)離無良親戚?網(wǎng)友:再次驗(yàn)證了物種的多樣性

      為啥說帶娃最好遠(yuǎn)離無良親戚?網(wǎng)友:再次驗(yàn)證了物種的多樣性

      解讀熱點(diǎn)事件
      2026-05-12 00:05:15
      特斯拉Model 3偷偷增配:新電池+高倍率快充,續(xù)航悄悄往上提

      特斯拉Model 3偷偷增配:新電池+高倍率快充,續(xù)航悄悄往上提

      三農(nóng)老歷
      2026-05-11 20:02:44
      慕尼黑1860球迷在德丙聯(lián)賽唱歌嘲諷孔帕尼,調(diào)侃拜仁歐冠出局

      慕尼黑1860球迷在德丙聯(lián)賽唱歌嘲諷孔帕尼,調(diào)侃拜仁歐冠出局

      懂球帝
      2026-05-12 00:46:30
      4只皮皮蝦1035元,官方回應(yīng)是否“帶客吃回扣”

      4只皮皮蝦1035元,官方回應(yīng)是否“帶客吃回扣”

      中國新聞周刊
      2026-05-09 19:38:06
      查爾斯新助手放話:必須讓威廉哈里和好,2年零對話僵局待破

      查爾斯新助手放話:必須讓威廉哈里和好,2年零對話僵局待破

      影視情報(bào)室
      2026-05-11 20:22:15
      齊爾克澤技術(shù)再好也不配效力曼聯(lián),表現(xiàn)激怒B費(fèi)!英媒建議回購1人

      齊爾克澤技術(shù)再好也不配效力曼聯(lián),表現(xiàn)激怒B費(fèi)!英媒建議回購1人

      羅米的曼聯(lián)博客
      2026-05-11 11:54:16
      2026-05-12 03:51:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8300文章數(shù) 563關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機(jī)會

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個我

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協(xié)商解約

      財(cái)經(jīng)要聞

      宗馥莉罷免銷售負(fù)責(zé)人 部分業(yè)務(wù)將外包

      汽車要聞

      吉利銀河“TT”申報(bào)圖曝光 電動尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      旅游
      本地
      家居
      時尚
      公開課

      旅游要聞

      打卡同色系風(fēng)景 帶火城市微旅行

      本地新聞

      用蘇繡的方式,打開江西婺源

      家居要聞

      多元生活 此處無聲

      今年夏天最流行的5雙涼鞋,配裙子絕美!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 成人亚洲黄色av网站| 国产成人久久蜜一区二区| 久久精品亚洲成人av| 亚洲AV无码一区二区三区波多野结衣| 亚洲久悠悠色悠在线播放| 亚洲中文一区二区av| 国产精品一区二区三区自拍| 亚洲成人黄色| 中文字幕人妻在线中文乱码怎么解决| 久久精品人人做人人爽97| 国产情侣真实露脸在线| 国产在线观看免费人成视频| 日韩一区二区三区在线观院| 91精彩视频在线观看| 成人国产精品秘片多多| 99久久九九视频免费| 午夜福利网址| 色老板精品视频在线观看| 亚洲精品成人一二三专区| 国产拳交视频| 五十路六十路七十路熟婆| 亚洲成在人线免费观看| 亚洲国产精品久久av| 欧美熟妇乱子伦XX视频| 色吊丝免费av一区二区| JK浴室自慰到不停喷水尿失禁| 亚州成人无码| 国产一区二区在线观看app| 国产麻豆精品传媒av国产| 精品国产成人三级在线观看| 激情综合网激情五月伊人| 久久88| 狠狠做深爱婷婷久久综合一区| 熟女精品激情免费视频| 国产乱人伦AV在线A麻豆| 精品无码国产自产拍在线观看蜜| 国际视频久久久久久久久国产| 国产熟女一区二区三区四区五区| 激情六月丁香婷婷四房播| 国产成人免费无码AV在线播放| 免费AA片在线观看视频|