網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

美團(tuán)LongCat團(tuán)隊(duì)：讓AI像人類集體討論一樣解題，成績(jī)提升多少？

2026-05-11 17:10:46　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由美團(tuán)LongCat團(tuán)隊(duì)與北京大學(xué)軟件工程國(guó)家工程研究中心聯(lián)合開(kāi)展的研究，以預(yù)印本形式于2026年5月4日發(fā)布，論文編號(hào)為arXiv:2605.02396v1，有興趣深入了解的讀者可通過(guò)該編號(hào)查詢完整論文。

一、當(dāng)一個(gè)AI大腦不夠用，為什么不讓它"開(kāi)小組討論"？

你有沒(méi)有遇到過(guò)這種情況：一道難題自己想了半天沒(méi)頭緒，但和幾個(gè)朋友一起討論，大家各自從不同角度分析，最終得出了正確答案。這種"眾人拾柴火焰高"的現(xiàn)象，在人類解題中屢見(jiàn)不鮮。美團(tuán)LongCat團(tuán)隊(duì)的研究者們就在想：能不能讓AI也用同樣的方式來(lái)解決復(fù)雜問(wèn)題？

這篇論文提出的核心想法叫做HEAVYSKILL，中文可以理解為"重度思考技能"。它的本質(zhì)很簡(jiǎn)單：與其讓AI只思考一次就給出答案，不如讓AI同時(shí)啟動(dòng)多個(gè)獨(dú)立的思維分支，各自解題，然后再由一個(gè)"總結(jié)者"把所有思路匯總，判斷哪個(gè)正確，最終給出答案。就像一個(gè)班級(jí)里，老師把同一道難題交給多個(gè)學(xué)習(xí)小組獨(dú)立解答，然后召集所有小組匯報(bào)結(jié)果，最后由老師綜合各組的思路做出最權(quán)威的判斷。

這個(gè)思路聽(tīng)起來(lái)很直覺(jué)，但研究團(tuán)隊(duì)做的事遠(yuǎn)不止"想出這個(gè)點(diǎn)子"這么簡(jiǎn)單。他們系統(tǒng)地研究了這種方式到底有多有效、在哪些情況下最管用、如何把它變成AI可以直接調(diào)用的"技能"，還探索了能否通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步強(qiáng)化這種能力。接下來(lái)就一步步拆解這項(xiàng)研究。

二、AI智能助手背后的"指揮中心"是怎么工作的？

在理解HEAVYSKILL之前，有必要先了解一下現(xiàn)代AI助手的工作方式。目前主流的AI系統(tǒng)往往不是一個(gè)單獨(dú)的大腦，而更像一個(gè)復(fù)雜的公司組織架構(gòu)——有一個(gè)"總指揮"（稱為編排器或協(xié)調(diào)者），下面管著許多專門的"小分隊(duì)"（子代理），各自負(fù)責(zé)不同任務(wù)，還配有"檔案室"（記憶組件）和"工具庫(kù)"（技能組件）。

這種架構(gòu)被稱為"智能體編排框架"，代表性的系統(tǒng)包括Claude Code、CodeX以及Hermes等。這些系統(tǒng)之所以能夠處理復(fù)雜任務(wù)，是因?yàn)榭傊笓]可以靈活調(diào)配各個(gè)小分隊(duì)協(xié)同工作。然而，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)關(guān)鍵問(wèn)題：這些系統(tǒng)的優(yōu)秀表現(xiàn)，到底是因?yàn)榫畹募軜?gòu)設(shè)計(jì)，還是因?yàn)锳I模型本身的推理能力在發(fā)揮作用？

研究團(tuán)隊(duì)通過(guò)仔細(xì)觀察發(fā)現(xiàn)，無(wú)論架構(gòu)多么復(fù)雜，這些系統(tǒng)的核心工作模式其實(shí)都可以歸納為兩個(gè)步驟：先是讓多個(gè)子代理"并行思考"（各自獨(dú)立分析同一個(gè)問(wèn)題），然后再由總指揮"匯總歸納"（綜合所有分析得出最終答案）。換句話說(shuō)，花哨的系統(tǒng)架構(gòu)其實(shí)只是這兩個(gè)步驟的不同包裝方式。

這一發(fā)現(xiàn)讓研究團(tuán)隊(duì)產(chǎn)生了一個(gè)大膽的想法：既然核心機(jī)制就是"并行思考加匯總"，何不把這個(gè)能力直接內(nèi)化到AI模型本身，讓模型無(wú)需復(fù)雜的外部架構(gòu)就能自己執(zhí)行這套流程？這正是HEAVYSKILL的立論基礎(chǔ)。

三、HEAVYSKILL的工作原理：一場(chǎng)有組織的頭腦風(fēng)暴

HEAVYSKILL的工作流程可以拆分為兩個(gè)清晰的階段，像接力賽一樣前后銜接。

第一階段叫做"并行推理"。給定一道題目，系統(tǒng)會(huì)同時(shí)啟動(dòng)K個(gè)獨(dú)立的推理者（K通常設(shè)為8或16），每個(gè)推理者完全不知道其他推理者在想什么，各自從零開(kāi)始解題。這種相互隔離非常重要——正是因?yàn)槊總€(gè)推理者的思路完全獨(dú)立，才能產(chǎn)生真正多樣化的解題路徑。有人可能用代數(shù)方法，有人用幾何方法，有人傾向于暴力窮舉，有人則尋求簡(jiǎn)潔的優(yōu)雅解法。多樣化的思路意味著更大的概率覆蓋到正確答案。

所有推理者完成解題后，他們的思考過(guò)程會(huì)被整理成一個(gè)"記憶緩存"，也就是一份按順序排列的思路匯總文檔。由于每個(gè)推理者的思考過(guò)程往往非常冗長(zhǎng)，直接把全部?jī)?nèi)容放進(jìn)去會(huì)超出AI的處理上限，所以系統(tǒng)會(huì)對(duì)每條思路進(jìn)行適當(dāng)裁剪，并且打亂順序排列，防止AI對(duì)某個(gè)特定位置的答案產(chǎn)生偏向。

第二階段叫做"順序?qū)徸h"。另一個(gè)AI扮演"總結(jié)者"的角色，拿到這份匯總文檔后，不是簡(jiǎn)單地?cái)?shù)哪個(gè)答案出現(xiàn)次數(shù)最多就采納哪個(gè)，而是進(jìn)行真正的批判性分析。總結(jié)者會(huì)比較各個(gè)推理者思路的差異，找出邏輯漏洞，判斷哪個(gè)推理鏈條最為嚴(yán)密，甚至在發(fā)現(xiàn)所有推理者都錯(cuò)了的情況下，獨(dú)立重新推導(dǎo)出正確答案。

此外，研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)可選的"迭代審議"機(jī)制。在第二階段產(chǎn)生總結(jié)結(jié)果后，這個(gè)總結(jié)可以被重新放回記憶緩存，作為一個(gè)額外的"專家推理者"參與下一輪審議。如此循環(huán)，最多可以進(jìn)行N輪迭代，讓答案在反復(fù)打磨中趨向正確。

四、把工作流程變成一張"說(shuō)明書(shū)"：AI讀懂就能執(zhí)行

這套流程不僅可以通過(guò)外部代碼來(lái)驅(qū)動(dòng)，研究團(tuán)隊(duì)還將其提煉成了一份AI可以直接閱讀和執(zhí)行的"技能文件"——HEAVYSKILL.md。

這份文件本質(zhì)上是一份用自然語(yǔ)言寫(xiě)成的操作規(guī)范，就像給新員工入職時(shí)發(fā)的工作手冊(cè)。文件的第一部分明確規(guī)定了什么情況下應(yīng)該啟用這套流程：當(dāng)面對(duì)競(jìng)賽數(shù)學(xué)、復(fù)雜邏輯推理、算法編程等高難度問(wèn)題時(shí)，應(yīng)當(dāng)激活；對(duì)于簡(jiǎn)單的信息查詢或日常聊天，則不必啟動(dòng)，避免浪費(fèi)計(jì)算資源。

文件的第二部分描述了如何生成并行推理：系統(tǒng)應(yīng)該同時(shí)啟動(dòng)3到5個(gè)（在完整工作流模式下可達(dá)8個(gè)以上）相互獨(dú)立的推理代理，每個(gè)代理必須從頭開(kāi)始解題，不得參考其他代理的工作。文件還鼓勵(lì)不同代理采用不同的解題策略，以最大化多樣性。

文件的第三部分包含了審議階段的核心提示：總結(jié)者必須明確區(qū)分哪些推理鏈條是邏輯嚴(yán)密的，哪些存在缺陷；多數(shù)人的意見(jiàn)是參考信號(hào)，但絕非正確的保證；少數(shù)派的正確推理值得認(rèn)真對(duì)待；如果所有推理者都錯(cuò)了，總結(jié)者有責(zé)任獨(dú)立重新推導(dǎo)答案。

文件的第四部分規(guī)定了輸出格式：最終給用戶的只是答案本身，不需要展示整個(gè)分析元過(guò)程；數(shù)學(xué)題用標(biāo)準(zhǔn)的方框格式，編程題用代碼塊，以保持與用戶期望的一致性。

這份文件最大的優(yōu)勢(shì)在于其可移植性。由于它只是一份純文本文檔，沒(méi)有任何特定系統(tǒng)的依賴，可以被插入任何支持技能加載和子代理調(diào)用的AI編排框架中，無(wú)需修改任何代碼。研究團(tuán)隊(duì)已驗(yàn)證，同一份HEAVYSKILL.md文件在Claude Code和自定義編排框架中均可正常運(yùn)行。

五、真正的考試：讓AI去解競(jìng)賽數(shù)學(xué)題和編程難題

研究團(tuán)隊(duì)為HEAVYSKILL安排了一系列嚴(yán)苛的考試，覆蓋了理工科、編程和通用推理多個(gè)方向。

在理工科方面，測(cè)試題目來(lái)自AIME25（美國(guó)數(shù)學(xué)邀請(qǐng)賽2025年題目）、BeyondAIME（超越AIME難度的題目）、HMMT25-Feb（哈佛-麻省理工數(shù)學(xué)競(jìng)賽2025年2月場(chǎng)）以及GPQA-Diamond（研究生級(jí)別物理、化學(xué)、生物綜合題目）。這些題目對(duì)人類來(lái)說(shuō)也相當(dāng)有挑戰(zhàn)性，對(duì)AI更是如此。

測(cè)試中參與的AI模型涵蓋了閉源和開(kāi)源兩大陣營(yíng)。閉源方面包括GPT-5 Thinking、Claude 4.5 Thinking和Gemini 3 Pro Preview；開(kāi)源方面則包括DeepSeek R1系列、Qwen3系列、Kimi K2 Thinking、GLM 4.6等十余個(gè)模型，涵蓋了從7億到超大規(guī)模參數(shù)的不同體量。

為了衡量效果，研究團(tuán)隊(duì)設(shè)計(jì)了五種評(píng)價(jià)指標(biāo)，形成了一套完整的測(cè)量體系。Mean@K衡量的是K次并行推理的平均準(zhǔn)確率，反映基礎(chǔ)水平。Pass@K衡量的是K次推理中至少有一次正確的比例，代表模型的"能力天花板"。Vote@K則是傳統(tǒng)多數(shù)投票法的準(zhǔn)確率，相當(dāng)于當(dāng)前常用的"最佳K選N"策略（Best-of-N）。在HEAVYSKILL框架下，還有兩個(gè)新指標(biāo)：Heavy-Mean@K（簡(jiǎn)稱HM@K）是經(jīng)過(guò)審議階段后的平均準(zhǔn)確率，Heavy-Pass@K（HP@K）是審議后結(jié)果中至少一次正確的比例。

實(shí)驗(yàn)?zāi)J(rèn)將溫度參數(shù)設(shè)為1.0，并行推理路數(shù)K設(shè)為8或16，審議階段生成4份總結(jié)內(nèi)容。

六、數(shù)據(jù)說(shuō)話：HEAVYSKILL到底有多強(qiáng)？

測(cè)試結(jié)果構(gòu)成了一幅清晰的圖景，整體規(guī)律相當(dāng)穩(wěn)定。

在理工科任務(wù)上，HEAVYSKILL展現(xiàn)出全面且穩(wěn)健的優(yōu)勢(shì)。以DeepSeek R1-0528模型在HMMT25-Feb上的表現(xiàn)為例：在K=8的情況下，單次推理平均準(zhǔn)確率（M@8）為80.8%，多數(shù)投票準(zhǔn)確率（V@8）為86.7%，而HEAVYSKILL的平均準(zhǔn)確率（HM@4）達(dá)到91.7%，進(jìn)一步接近了"能力天花板"Pass@8的93.3%。類似的提升幅度在幾乎所有模型和所有理工科測(cè)試集上都能觀察到。

研究團(tuán)隊(duì)總結(jié)出了一個(gè)貫穿所有實(shí)驗(yàn)的規(guī)律：Heavy-Pass@K ≥ Heavy-Mean@K ≥ Vote@K ≥ Mean@K。這個(gè)層次關(guān)系說(shuō)明，HEAVYSKILL不僅讓平均表現(xiàn)優(yōu)于傳統(tǒng)投票方法，甚至在"潛力天花板"層面也超越了單純并行推理的上限——這意味著審議階段有時(shí)能合成出單個(gè)推理路徑根本沒(méi)有出現(xiàn)過(guò)的正確答案。

對(duì)于頂尖的前沿模型，效果更為顯著。GPT-5 Thinking在BeyondAIME上，K=16時(shí)HM@4達(dá)到82.5%，HP@4達(dá)到88.0%，而相應(yīng)的Mean@16只有70.1%。Kimi K2 Thinking在AIME25上，K=8時(shí)HM@4直接達(dá)到100%，與Pass@8的上限齊平。GLM 4.6在HMMT25-Feb上，K=16時(shí)HM@4達(dá)到99.2%，同樣逼近100%的極限。

傳統(tǒng)多數(shù)投票方法在某些高難度任務(wù)上的局限性也被清楚地暴露出來(lái)。對(duì)于多數(shù)模型而言，在BeyondAIME、HMMT和GPQA-Diamond這類更具挑戰(zhàn)性的測(cè)試集上，HEAVYSKILL相對(duì)投票方法的優(yōu)勢(shì)比在AIME25上更為明顯——正是因?yàn)锳IME25對(duì)強(qiáng)模型來(lái)說(shuō)已經(jīng)接近飽和，反而看不出多大差別。

在通用推理任務(wù)上，情況略有不同，體現(xiàn)出明顯的任務(wù)依賴性。在LiveCodeBench（代碼競(jìng)賽）和IFEval（指令遵循）這類有明確正確答案的任務(wù)上，提升依然顯著。GPT-OSS-20B在LiveCodeBench上的準(zhǔn)確率從69.7%躍升到85.5%；R1-Distill-Qwen3-8B在IFEval上從35.7%提升到69.3%，幾乎翻了一倍。然而在Arena-Hard（人類偏好對(duì)話）這類主觀性任務(wù)上，提升幅度就相當(dāng)有限，有時(shí)甚至略有下降。這說(shuō)明審議機(jī)制在"追求正確性"的任務(wù)上效果突出，但在"追求風(fēng)格偏好"的任務(wù)上未必占優(yōu)。

七、深挖：是哪些環(huán)節(jié)真正決定了成敗？

除了整體測(cè)試，研究團(tuán)隊(duì)還做了一系列拆解實(shí)驗(yàn)，試圖弄清楚HEAVYSKILL各個(gè)部分的具體貢獻(xiàn)。

第一個(gè)實(shí)驗(yàn)研究了審議階段能否糾正并行推理階段的錯(cuò)誤。研究者用R1-Distill-Qwen-7B模型，對(duì)1萬(wàn)道題各自生成16條并行推理路徑，然后按并行通過(guò)率（即K條推理中正確的比例）把題目分組，分別觀察審議后的通過(guò)率變化。結(jié)果顯示，即使對(duì)于那些并行通過(guò)率低于50%的"困難題目"，審議階段依然能夠糾正相當(dāng)一部分錯(cuò)誤——大約有500道原本多數(shù)推理者都答錯(cuò)的題目，經(jīng)過(guò)審議后被成功糾正。而對(duì)于并行通過(guò)率已經(jīng)超過(guò)50%的題目，審議階段的成功率超過(guò)98%，極少出現(xiàn)反向退步。

第二個(gè)實(shí)驗(yàn)研究了審議階段用什么模型最合適。研究者固定第一階段使用R1-Distill-Qwen-7B，第二階段分別換用三種不同的模型：同樣是R1-Distill-Qwen-7B、更新的R1-Distill-Qwen3-8B，以及Qwen2.5-32B-Instruct。結(jié)果頗為出人意料：即便是Qwen2.5-32B-Instruct這個(gè)模型在獨(dú)立解題時(shí)的表現(xiàn)比R1-Distill-Qwen-7B還要差（其在AIME25上的獨(dú)立準(zhǔn)確率只有12.8%），但當(dāng)它被用作第二階段的審議者時(shí)，依然能產(chǎn)生有效的性能提升。這說(shuō)明審議階段考驗(yàn)的不是"會(huì)不會(huì)自己解題"，而是"能不能綜合分析多條推理路徑"——這是一種不同類型的能力，更偏向于批判性閱讀和綜合判斷。

第三個(gè)實(shí)驗(yàn)研究了迭代次數(shù)對(duì)效果的影響。研究者將迭代次數(shù)從1輪擴(kuò)展到4輪，每輪固定使用8條并行推理，觀察HM@K和HP@K的變化趨勢(shì)。結(jié)果顯示，隨著迭代次數(shù)增加，HM@K（平均準(zhǔn)確率）呈現(xiàn)穩(wěn)定的上升趨勢(shì)，說(shuō)明多輪迭代確實(shí)有助于進(jìn)一步提升整體表現(xiàn)。然而HP@K（最高潛力指標(biāo)）卻隨迭代次數(shù)增加而有所下降，說(shuō)明多輪迭代在提升平均表現(xiàn)的同時(shí)，可能也引入了來(lái)自前幾輪的信息干擾，限制了模型在少數(shù)情況下發(fā)揮出極限水平的可能性。這揭示了一個(gè)需要權(quán)衡的核心矛盾：迭代的深度與信息一致性之間存在張力，并非越多越好。

第四個(gè)實(shí)驗(yàn)研究了如何從大量并行推理中選取哪K條進(jìn)行審議。研究者對(duì)每道題生成256條推理路徑，然后比較四種選取策略。隨機(jī)選取是基準(zhǔn)；最大多樣性策略選擇差異最大的K條；最大長(zhǎng)度策略選擇最長(zhǎng)的K條；最高頻率策略選擇包含最高頻率答案的K條（即多數(shù)投票優(yōu)先）。結(jié)果發(fā)現(xiàn)，最大長(zhǎng)度策略表現(xiàn)最差，說(shuō)明推理越長(zhǎng)未必越對(duì)；最大多樣性策略與隨機(jī)選取效果相近，說(shuō)明刻意追求多樣性的邊際收益有限；最高頻率策略表現(xiàn)最好，說(shuō)明先用多數(shù)投票篩選出可信度較高的推理路徑，再交給審議階段精煉，是更明智的組合策略。

第五個(gè)實(shí)驗(yàn)將HEAVYSKILL擴(kuò)展到需要調(diào)用外部工具的場(chǎng)景。研究者讓模型在解題過(guò)程中可以調(diào)用Python解釋器獲取運(yùn)算結(jié)果，每次與解釋器的交互最多50輪。測(cè)試結(jié)果顯示，在AIME25和HMMT25上，HM@4依然全面超過(guò)傳統(tǒng)投票方法，說(shuō)明HEAVYSKILL的核心機(jī)制在工具輔助場(chǎng)景下同樣有效。

八、用強(qiáng)化學(xué)習(xí)繼續(xù)"磨煉"這項(xiàng)技能

除了以上已有能力的測(cè)試，研究團(tuán)隊(duì)還探索了一個(gè)更前沿的問(wèn)題：能不能通過(guò)訓(xùn)練讓AI把這種"重度思考"的能力變得更強(qiáng)？

具體方案是，把并行推理加審議的完整過(guò)程打包成訓(xùn)練數(shù)據(jù)，用可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)（RLVR）來(lái)優(yōu)化模型。訓(xùn)練框架采用VeRL，強(qiáng)化學(xué)習(xí)算法采用GSPO。訓(xùn)練對(duì)象是R1-Distill-Qwen-7B，訓(xùn)練數(shù)據(jù)專門選取了那些"并行通過(guò)率在0到62.5%之間"的困難題目，也就是模型不太擅長(zhǎng)的那類題目，分別用K=8和K=16兩種并行配置進(jìn)行訓(xùn)練。

從訓(xùn)練過(guò)程的圖表來(lái)看，在前100步內(nèi)，模型在訓(xùn)練集和測(cè)試集上的HM@4均呈現(xiàn)穩(wěn)定的上升趨勢(shì)，最終提升幅度約為10個(gè)百分點(diǎn)。然而兩種配置的表現(xiàn)出現(xiàn)了分歧：K=16的配置在超過(guò)100步后出現(xiàn)了明顯的熵崩塌現(xiàn)象，訓(xùn)練變得不穩(wěn)定；而K=8的配置在整個(gè)訓(xùn)練過(guò)程中保持了相對(duì)穩(wěn)定的趨勢(shì)。研究團(tuán)隊(duì)判斷，K=16時(shí)產(chǎn)生的序列化記憶緩存過(guò)長(zhǎng)，超出了R1-Distill-Qwen-7B模型的有效處理范圍，導(dǎo)致訓(xùn)練信號(hào)質(zhì)量下降。

這些初步結(jié)果表明，RLVR確實(shí)能在一定程度上提升HEAVYSKILL的效果，但如何在更大的并行規(guī)模下維持訓(xùn)練穩(wěn)定性，還需要進(jìn)一步的研究來(lái)解決。

說(shuō)到底，這項(xiàng)研究做的事情是把一個(gè)聽(tīng)起來(lái)很復(fù)雜的"多智能體協(xié)作系統(tǒng)"還原成了它的本質(zhì)：AI同時(shí)用多種思路解題，然后由一個(gè)批判性的總結(jié)者篩選出最佳答案。這套機(jī)制被提煉成了一個(gè)可以在任意AI編排框架中插拔使用的技能文件，不依賴于任何特定的系統(tǒng)設(shè)計(jì)。通過(guò)覆蓋十余個(gè)模型、多個(gè)難度層級(jí)測(cè)試集的系統(tǒng)實(shí)驗(yàn)，研究團(tuán)隊(duì)證明了這種方式在理工科推理和代碼競(jìng)賽任務(wù)上的穩(wěn)定有效性，尤其是對(duì)于強(qiáng)模型，表現(xiàn)能夠接近理論上限。對(duì)于普通用戶而言，這意味著未來(lái)AI助手在處理復(fù)雜問(wèn)題時(shí)，有望通過(guò)這類機(jī)制提供更加可靠和準(zhǔn)確的答案，而不只是給出一個(gè)可能出錯(cuò)的一次性推斷。對(duì)于AI研究者而言，如何在不增加系統(tǒng)架構(gòu)復(fù)雜度的前提下，進(jìn)一步通過(guò)訓(xùn)練把這種技能刻入模型本身，仍然是一個(gè)值得深入探索的開(kāi)放問(wèn)題。有興趣進(jìn)一步了解技術(shù)細(xì)節(jié)的讀者，可以通過(guò)arXiv編號(hào)2605.02396查閱完整論文，對(duì)應(yīng)的代碼也已開(kāi)源。

Q&A

Q1：HEAVYSKILL和普通多數(shù)投票（Best-of-N）有什么本質(zhì)區(qū)別？

A：普通多數(shù)投票只是數(shù)哪個(gè)答案出現(xiàn)次數(shù)最多就采納哪個(gè)，本質(zhì)上是一種統(tǒng)計(jì)方法，無(wú)法識(shí)別邏輯對(duì)錯(cuò)。HEAVYSKILL的審議階段則會(huì)真正分析每條推理路徑的邏輯嚴(yán)密性，能夠識(shí)別"少數(shù)正確派"，甚至在所有推理者都犯錯(cuò)時(shí)獨(dú)立推導(dǎo)出新答案。實(shí)驗(yàn)數(shù)據(jù)顯示，HEAVYSKILL在困難題目上始終優(yōu)于多數(shù)投票，差距在高難度測(cè)試集上尤為突出。

Q2：HEAVYSKILL在什么類型的任務(wù)上效果最好？

A：HEAVYSKILL在有明確正確答案、可以被客觀驗(yàn)證的任務(wù)上效果最顯著，比如競(jìng)賽數(shù)學(xué)題、科學(xué)計(jì)算題、算法編程題和指令遵循任務(wù)。對(duì)于主觀性強(qiáng)、以人類偏好為評(píng)判標(biāo)準(zhǔn)的任務(wù)（如開(kāi)放式對(duì)話），提升幅度則相對(duì)有限，有時(shí)甚至略有下降。簡(jiǎn)單來(lái)說(shuō)，越"有標(biāo)準(zhǔn)答案"的任務(wù)，HEAVYSKILL的優(yōu)勢(shì)越明顯。

Q3：審議階段使用能力弱一點(diǎn)的模型會(huì)不會(huì)影響效果？

A：不一定會(huì)。研究實(shí)驗(yàn)發(fā)現(xiàn)，即使用獨(dú)立解題能力較弱的模型作為審議者，也能產(chǎn)生有效的性能提升。這是因?yàn)閷徸h階段需要的核心能力是"綜合分析和批判性判斷"，而不是"獨(dú)立解題"。換句話說(shuō)，一個(gè)不擅長(zhǎng)自己解數(shù)學(xué)題但善于評(píng)估別人解題過(guò)程邏輯性的模型，同樣可以勝任審議工作。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.