<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      美團(tuán)LongCat團(tuán)隊(duì):讓AI像人類集體討論一樣解題,成績(jī)提升多少?

      0
      分享至


      這項(xiàng)由美團(tuán)LongCat團(tuán)隊(duì)與北京大學(xué)軟件工程國(guó)家工程研究中心聯(lián)合開(kāi)展的研究,以預(yù)印本形式于2026年5月4日發(fā)布,論文編號(hào)為arXiv:2605.02396v1,有興趣深入了解的讀者可通過(guò)該編號(hào)查詢完整論文。

      一、當(dāng)一個(gè)AI大腦不夠用,為什么不讓它"開(kāi)小組討論"?

      你有沒(méi)有遇到過(guò)這種情況:一道難題自己想了半天沒(méi)頭緒,但和幾個(gè)朋友一起討論,大家各自從不同角度分析,最終得出了正確答案。這種"眾人拾柴火焰高"的現(xiàn)象,在人類解題中屢見(jiàn)不鮮。美團(tuán)LongCat團(tuán)隊(duì)的研究者們就在想:能不能讓AI也用同樣的方式來(lái)解決復(fù)雜問(wèn)題?

      這篇論文提出的核心想法叫做HEAVYSKILL,中文可以理解為"重度思考技能"。它的本質(zhì)很簡(jiǎn)單:與其讓AI只思考一次就給出答案,不如讓AI同時(shí)啟動(dòng)多個(gè)獨(dú)立的思維分支,各自解題,然后再由一個(gè)"總結(jié)者"把所有思路匯總,判斷哪個(gè)正確,最終給出答案。就像一個(gè)班級(jí)里,老師把同一道難題交給多個(gè)學(xué)習(xí)小組獨(dú)立解答,然后召集所有小組匯報(bào)結(jié)果,最后由老師綜合各組的思路做出最權(quán)威的判斷。

      這個(gè)思路聽(tīng)起來(lái)很直覺(jué),但研究團(tuán)隊(duì)做的事遠(yuǎn)不止"想出這個(gè)點(diǎn)子"這么簡(jiǎn)單。他們系統(tǒng)地研究了這種方式到底有多有效、在哪些情況下最管用、如何把它變成AI可以直接調(diào)用的"技能",還探索了能否通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步強(qiáng)化這種能力。接下來(lái)就一步步拆解這項(xiàng)研究。

      二、AI智能助手背后的"指揮中心"是怎么工作的?

      在理解HEAVYSKILL之前,有必要先了解一下現(xiàn)代AI助手的工作方式。目前主流的AI系統(tǒng)往往不是一個(gè)單獨(dú)的大腦,而更像一個(gè)復(fù)雜的公司組織架構(gòu)——有一個(gè)"總指揮"(稱為編排器或協(xié)調(diào)者),下面管著許多專門的"小分隊(duì)"(子代理),各自負(fù)責(zé)不同任務(wù),還配有"檔案室"(記憶組件)和"工具庫(kù)"(技能組件)。

      這種架構(gòu)被稱為"智能體編排框架",代表性的系統(tǒng)包括Claude Code、CodeX以及Hermes等。這些系統(tǒng)之所以能夠處理復(fù)雜任務(wù),是因?yàn)榭傊笓]可以靈活調(diào)配各個(gè)小分隊(duì)協(xié)同工作。然而,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)關(guān)鍵問(wèn)題:這些系統(tǒng)的優(yōu)秀表現(xiàn),到底是因?yàn)榫畹募軜?gòu)設(shè)計(jì),還是因?yàn)锳I模型本身的推理能力在發(fā)揮作用?

      研究團(tuán)隊(duì)通過(guò)仔細(xì)觀察發(fā)現(xiàn),無(wú)論架構(gòu)多么復(fù)雜,這些系統(tǒng)的核心工作模式其實(shí)都可以歸納為兩個(gè)步驟:先是讓多個(gè)子代理"并行思考"(各自獨(dú)立分析同一個(gè)問(wèn)題),然后再由總指揮"匯總歸納"(綜合所有分析得出最終答案)。換句話說(shuō),花哨的系統(tǒng)架構(gòu)其實(shí)只是這兩個(gè)步驟的不同包裝方式。

      這一發(fā)現(xiàn)讓研究團(tuán)隊(duì)產(chǎn)生了一個(gè)大膽的想法:既然核心機(jī)制就是"并行思考加匯總",何不把這個(gè)能力直接內(nèi)化到AI模型本身,讓模型無(wú)需復(fù)雜的外部架構(gòu)就能自己執(zhí)行這套流程?這正是HEAVYSKILL的立論基礎(chǔ)。

      三、HEAVYSKILL的工作原理:一場(chǎng)有組織的頭腦風(fēng)暴

      HEAVYSKILL的工作流程可以拆分為兩個(gè)清晰的階段,像接力賽一樣前后銜接。

      第一階段叫做"并行推理"。給定一道題目,系統(tǒng)會(huì)同時(shí)啟動(dòng)K個(gè)獨(dú)立的推理者(K通常設(shè)為8或16),每個(gè)推理者完全不知道其他推理者在想什么,各自從零開(kāi)始解題。這種相互隔離非常重要——正是因?yàn)槊總€(gè)推理者的思路完全獨(dú)立,才能產(chǎn)生真正多樣化的解題路徑。有人可能用代數(shù)方法,有人用幾何方法,有人傾向于暴力窮舉,有人則尋求簡(jiǎn)潔的優(yōu)雅解法。多樣化的思路意味著更大的概率覆蓋到正確答案。

      所有推理者完成解題后,他們的思考過(guò)程會(huì)被整理成一個(gè)"記憶緩存",也就是一份按順序排列的思路匯總文檔。由于每個(gè)推理者的思考過(guò)程往往非常冗長(zhǎng),直接把全部?jī)?nèi)容放進(jìn)去會(huì)超出AI的處理上限,所以系統(tǒng)會(huì)對(duì)每條思路進(jìn)行適當(dāng)裁剪,并且打亂順序排列,防止AI對(duì)某個(gè)特定位置的答案產(chǎn)生偏向。

      第二階段叫做"順序?qū)徸h"。另一個(gè)AI扮演"總結(jié)者"的角色,拿到這份匯總文檔后,不是簡(jiǎn)單地?cái)?shù)哪個(gè)答案出現(xiàn)次數(shù)最多就采納哪個(gè),而是進(jìn)行真正的批判性分析。總結(jié)者會(huì)比較各個(gè)推理者思路的差異,找出邏輯漏洞,判斷哪個(gè)推理鏈條最為嚴(yán)密,甚至在發(fā)現(xiàn)所有推理者都錯(cuò)了的情況下,獨(dú)立重新推導(dǎo)出正確答案。

      此外,研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)可選的"迭代審議"機(jī)制。在第二階段產(chǎn)生總結(jié)結(jié)果后,這個(gè)總結(jié)可以被重新放回記憶緩存,作為一個(gè)額外的"專家推理者"參與下一輪審議。如此循環(huán),最多可以進(jìn)行N輪迭代,讓答案在反復(fù)打磨中趨向正確。

      四、把工作流程變成一張"說(shuō)明書(shū)":AI讀懂就能執(zhí)行

      這套流程不僅可以通過(guò)外部代碼來(lái)驅(qū)動(dòng),研究團(tuán)隊(duì)還將其提煉成了一份AI可以直接閱讀和執(zhí)行的"技能文件"——HEAVYSKILL.md。

      這份文件本質(zhì)上是一份用自然語(yǔ)言寫(xiě)成的操作規(guī)范,就像給新員工入職時(shí)發(fā)的工作手冊(cè)。文件的第一部分明確規(guī)定了什么情況下應(yīng)該啟用這套流程:當(dāng)面對(duì)競(jìng)賽數(shù)學(xué)、復(fù)雜邏輯推理、算法編程等高難度問(wèn)題時(shí),應(yīng)當(dāng)激活;對(duì)于簡(jiǎn)單的信息查詢或日常聊天,則不必啟動(dòng),避免浪費(fèi)計(jì)算資源。

      文件的第二部分描述了如何生成并行推理:系統(tǒng)應(yīng)該同時(shí)啟動(dòng)3到5個(gè)(在完整工作流模式下可達(dá)8個(gè)以上)相互獨(dú)立的推理代理,每個(gè)代理必須從頭開(kāi)始解題,不得參考其他代理的工作。文件還鼓勵(lì)不同代理采用不同的解題策略,以最大化多樣性。

      文件的第三部分包含了審議階段的核心提示:總結(jié)者必須明確區(qū)分哪些推理鏈條是邏輯嚴(yán)密的,哪些存在缺陷;多數(shù)人的意見(jiàn)是參考信號(hào),但絕非正確的保證;少數(shù)派的正確推理值得認(rèn)真對(duì)待;如果所有推理者都錯(cuò)了,總結(jié)者有責(zé)任獨(dú)立重新推導(dǎo)答案。

      文件的第四部分規(guī)定了輸出格式:最終給用戶的只是答案本身,不需要展示整個(gè)分析元過(guò)程;數(shù)學(xué)題用標(biāo)準(zhǔn)的方框格式,編程題用代碼塊,以保持與用戶期望的一致性。

      這份文件最大的優(yōu)勢(shì)在于其可移植性。由于它只是一份純文本文檔,沒(méi)有任何特定系統(tǒng)的依賴,可以被插入任何支持技能加載和子代理調(diào)用的AI編排框架中,無(wú)需修改任何代碼。研究團(tuán)隊(duì)已驗(yàn)證,同一份HEAVYSKILL.md文件在Claude Code和自定義編排框架中均可正常運(yùn)行。

      五、真正的考試:讓AI去解競(jìng)賽數(shù)學(xué)題和編程難題

      研究團(tuán)隊(duì)為HEAVYSKILL安排了一系列嚴(yán)苛的考試,覆蓋了理工科、編程和通用推理多個(gè)方向。

      在理工科方面,測(cè)試題目來(lái)自AIME25(美國(guó)數(shù)學(xué)邀請(qǐng)賽2025年題目)、BeyondAIME(超越AIME難度的題目)、HMMT25-Feb(哈佛-麻省理工數(shù)學(xué)競(jìng)賽2025年2月場(chǎng))以及GPQA-Diamond(研究生級(jí)別物理、化學(xué)、生物綜合題目)。這些題目對(duì)人類來(lái)說(shuō)也相當(dāng)有挑戰(zhàn)性,對(duì)AI更是如此。

      測(cè)試中參與的AI模型涵蓋了閉源和開(kāi)源兩大陣營(yíng)。閉源方面包括GPT-5 Thinking、Claude 4.5 Thinking和Gemini 3 Pro Preview;開(kāi)源方面則包括DeepSeek R1系列、Qwen3系列、Kimi K2 Thinking、GLM 4.6等十余個(gè)模型,涵蓋了從7億到超大規(guī)模參數(shù)的不同體量。

      為了衡量效果,研究團(tuán)隊(duì)設(shè)計(jì)了五種評(píng)價(jià)指標(biāo),形成了一套完整的測(cè)量體系。Mean@K衡量的是K次并行推理的平均準(zhǔn)確率,反映基礎(chǔ)水平。Pass@K衡量的是K次推理中至少有一次正確的比例,代表模型的"能力天花板"。Vote@K則是傳統(tǒng)多數(shù)投票法的準(zhǔn)確率,相當(dāng)于當(dāng)前常用的"最佳K選N"策略(Best-of-N)。在HEAVYSKILL框架下,還有兩個(gè)新指標(biāo):Heavy-Mean@K(簡(jiǎn)稱HM@K)是經(jīng)過(guò)審議階段后的平均準(zhǔn)確率,Heavy-Pass@K(HP@K)是審議后結(jié)果中至少一次正確的比例。

      實(shí)驗(yàn)?zāi)J(rèn)將溫度參數(shù)設(shè)為1.0,并行推理路數(shù)K設(shè)為8或16,審議階段生成4份總結(jié)內(nèi)容。

      六、數(shù)據(jù)說(shuō)話:HEAVYSKILL到底有多強(qiáng)?

      測(cè)試結(jié)果構(gòu)成了一幅清晰的圖景,整體規(guī)律相當(dāng)穩(wěn)定。

      在理工科任務(wù)上,HEAVYSKILL展現(xiàn)出全面且穩(wěn)健的優(yōu)勢(shì)。以DeepSeek R1-0528模型在HMMT25-Feb上的表現(xiàn)為例:在K=8的情況下,單次推理平均準(zhǔn)確率(M@8)為80.8%,多數(shù)投票準(zhǔn)確率(V@8)為86.7%,而HEAVYSKILL的平均準(zhǔn)確率(HM@4)達(dá)到91.7%,進(jìn)一步接近了"能力天花板"Pass@8的93.3%。類似的提升幅度在幾乎所有模型和所有理工科測(cè)試集上都能觀察到。

      研究團(tuán)隊(duì)總結(jié)出了一個(gè)貫穿所有實(shí)驗(yàn)的規(guī)律:Heavy-Pass@K ≥ Heavy-Mean@K ≥ Vote@K ≥ Mean@K。這個(gè)層次關(guān)系說(shuō)明,HEAVYSKILL不僅讓平均表現(xiàn)優(yōu)于傳統(tǒng)投票方法,甚至在"潛力天花板"層面也超越了單純并行推理的上限——這意味著審議階段有時(shí)能合成出單個(gè)推理路徑根本沒(méi)有出現(xiàn)過(guò)的正確答案。

      對(duì)于頂尖的前沿模型,效果更為顯著。GPT-5 Thinking在BeyondAIME上,K=16時(shí)HM@4達(dá)到82.5%,HP@4達(dá)到88.0%,而相應(yīng)的Mean@16只有70.1%。Kimi K2 Thinking在AIME25上,K=8時(shí)HM@4直接達(dá)到100%,與Pass@8的上限齊平。GLM 4.6在HMMT25-Feb上,K=16時(shí)HM@4達(dá)到99.2%,同樣逼近100%的極限。

      傳統(tǒng)多數(shù)投票方法在某些高難度任務(wù)上的局限性也被清楚地暴露出來(lái)。對(duì)于多數(shù)模型而言,在BeyondAIME、HMMT和GPQA-Diamond這類更具挑戰(zhàn)性的測(cè)試集上,HEAVYSKILL相對(duì)投票方法的優(yōu)勢(shì)比在AIME25上更為明顯——正是因?yàn)锳IME25對(duì)強(qiáng)模型來(lái)說(shuō)已經(jīng)接近飽和,反而看不出多大差別。

      在通用推理任務(wù)上,情況略有不同,體現(xiàn)出明顯的任務(wù)依賴性。在LiveCodeBench(代碼競(jìng)賽)和IFEval(指令遵循)這類有明確正確答案的任務(wù)上,提升依然顯著。GPT-OSS-20B在LiveCodeBench上的準(zhǔn)確率從69.7%躍升到85.5%;R1-Distill-Qwen3-8B在IFEval上從35.7%提升到69.3%,幾乎翻了一倍。然而在Arena-Hard(人類偏好對(duì)話)這類主觀性任務(wù)上,提升幅度就相當(dāng)有限,有時(shí)甚至略有下降。這說(shuō)明審議機(jī)制在"追求正確性"的任務(wù)上效果突出,但在"追求風(fēng)格偏好"的任務(wù)上未必占優(yōu)。

      七、深挖:是哪些環(huán)節(jié)真正決定了成敗?

      除了整體測(cè)試,研究團(tuán)隊(duì)還做了一系列拆解實(shí)驗(yàn),試圖弄清楚HEAVYSKILL各個(gè)部分的具體貢獻(xiàn)。

      第一個(gè)實(shí)驗(yàn)研究了審議階段能否糾正并行推理階段的錯(cuò)誤。研究者用R1-Distill-Qwen-7B模型,對(duì)1萬(wàn)道題各自生成16條并行推理路徑,然后按并行通過(guò)率(即K條推理中正確的比例)把題目分組,分別觀察審議后的通過(guò)率變化。結(jié)果顯示,即使對(duì)于那些并行通過(guò)率低于50%的"困難題目",審議階段依然能夠糾正相當(dāng)一部分錯(cuò)誤——大約有500道原本多數(shù)推理者都答錯(cuò)的題目,經(jīng)過(guò)審議后被成功糾正。而對(duì)于并行通過(guò)率已經(jīng)超過(guò)50%的題目,審議階段的成功率超過(guò)98%,極少出現(xiàn)反向退步。

      第二個(gè)實(shí)驗(yàn)研究了審議階段用什么模型最合適。研究者固定第一階段使用R1-Distill-Qwen-7B,第二階段分別換用三種不同的模型:同樣是R1-Distill-Qwen-7B、更新的R1-Distill-Qwen3-8B,以及Qwen2.5-32B-Instruct。結(jié)果頗為出人意料:即便是Qwen2.5-32B-Instruct這個(gè)模型在獨(dú)立解題時(shí)的表現(xiàn)比R1-Distill-Qwen-7B還要差(其在AIME25上的獨(dú)立準(zhǔn)確率只有12.8%),但當(dāng)它被用作第二階段的審議者時(shí),依然能產(chǎn)生有效的性能提升。這說(shuō)明審議階段考驗(yàn)的不是"會(huì)不會(huì)自己解題",而是"能不能綜合分析多條推理路徑"——這是一種不同類型的能力,更偏向于批判性閱讀和綜合判斷。

      第三個(gè)實(shí)驗(yàn)研究了迭代次數(shù)對(duì)效果的影響。研究者將迭代次數(shù)從1輪擴(kuò)展到4輪,每輪固定使用8條并行推理,觀察HM@K和HP@K的變化趨勢(shì)。結(jié)果顯示,隨著迭代次數(shù)增加,HM@K(平均準(zhǔn)確率)呈現(xiàn)穩(wěn)定的上升趨勢(shì),說(shuō)明多輪迭代確實(shí)有助于進(jìn)一步提升整體表現(xiàn)。然而HP@K(最高潛力指標(biāo))卻隨迭代次數(shù)增加而有所下降,說(shuō)明多輪迭代在提升平均表現(xiàn)的同時(shí),可能也引入了來(lái)自前幾輪的信息干擾,限制了模型在少數(shù)情況下發(fā)揮出極限水平的可能性。這揭示了一個(gè)需要權(quán)衡的核心矛盾:迭代的深度與信息一致性之間存在張力,并非越多越好。

      第四個(gè)實(shí)驗(yàn)研究了如何從大量并行推理中選取哪K條進(jìn)行審議。研究者對(duì)每道題生成256條推理路徑,然后比較四種選取策略。隨機(jī)選取是基準(zhǔn);最大多樣性策略選擇差異最大的K條;最大長(zhǎng)度策略選擇最長(zhǎng)的K條;最高頻率策略選擇包含最高頻率答案的K條(即多數(shù)投票優(yōu)先)。結(jié)果發(fā)現(xiàn),最大長(zhǎng)度策略表現(xiàn)最差,說(shuō)明推理越長(zhǎng)未必越對(duì);最大多樣性策略與隨機(jī)選取效果相近,說(shuō)明刻意追求多樣性的邊際收益有限;最高頻率策略表現(xiàn)最好,說(shuō)明先用多數(shù)投票篩選出可信度較高的推理路徑,再交給審議階段精煉,是更明智的組合策略。

      第五個(gè)實(shí)驗(yàn)將HEAVYSKILL擴(kuò)展到需要調(diào)用外部工具的場(chǎng)景。研究者讓模型在解題過(guò)程中可以調(diào)用Python解釋器獲取運(yùn)算結(jié)果,每次與解釋器的交互最多50輪。測(cè)試結(jié)果顯示,在AIME25和HMMT25上,HM@4依然全面超過(guò)傳統(tǒng)投票方法,說(shuō)明HEAVYSKILL的核心機(jī)制在工具輔助場(chǎng)景下同樣有效。

      八、用強(qiáng)化學(xué)習(xí)繼續(xù)"磨煉"這項(xiàng)技能

      除了以上已有能力的測(cè)試,研究團(tuán)隊(duì)還探索了一個(gè)更前沿的問(wèn)題:能不能通過(guò)訓(xùn)練讓AI把這種"重度思考"的能力變得更強(qiáng)?

      具體方案是,把并行推理加審議的完整過(guò)程打包成訓(xùn)練數(shù)據(jù),用可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)來(lái)優(yōu)化模型。訓(xùn)練框架采用VeRL,強(qiáng)化學(xué)習(xí)算法采用GSPO。訓(xùn)練對(duì)象是R1-Distill-Qwen-7B,訓(xùn)練數(shù)據(jù)專門選取了那些"并行通過(guò)率在0到62.5%之間"的困難題目,也就是模型不太擅長(zhǎng)的那類題目,分別用K=8和K=16兩種并行配置進(jìn)行訓(xùn)練。

      從訓(xùn)練過(guò)程的圖表來(lái)看,在前100步內(nèi),模型在訓(xùn)練集和測(cè)試集上的HM@4均呈現(xiàn)穩(wěn)定的上升趨勢(shì),最終提升幅度約為10個(gè)百分點(diǎn)。然而兩種配置的表現(xiàn)出現(xiàn)了分歧:K=16的配置在超過(guò)100步后出現(xiàn)了明顯的熵崩塌現(xiàn)象,訓(xùn)練變得不穩(wěn)定;而K=8的配置在整個(gè)訓(xùn)練過(guò)程中保持了相對(duì)穩(wěn)定的趨勢(shì)。研究團(tuán)隊(duì)判斷,K=16時(shí)產(chǎn)生的序列化記憶緩存過(guò)長(zhǎng),超出了R1-Distill-Qwen-7B模型的有效處理范圍,導(dǎo)致訓(xùn)練信號(hào)質(zhì)量下降。

      這些初步結(jié)果表明,RLVR確實(shí)能在一定程度上提升HEAVYSKILL的效果,但如何在更大的并行規(guī)模下維持訓(xùn)練穩(wěn)定性,還需要進(jìn)一步的研究來(lái)解決。

      說(shuō)到底,這項(xiàng)研究做的事情是把一個(gè)聽(tīng)起來(lái)很復(fù)雜的"多智能體協(xié)作系統(tǒng)"還原成了它的本質(zhì):AI同時(shí)用多種思路解題,然后由一個(gè)批判性的總結(jié)者篩選出最佳答案。這套機(jī)制被提煉成了一個(gè)可以在任意AI編排框架中插拔使用的技能文件,不依賴于任何特定的系統(tǒng)設(shè)計(jì)。通過(guò)覆蓋十余個(gè)模型、多個(gè)難度層級(jí)測(cè)試集的系統(tǒng)實(shí)驗(yàn),研究團(tuán)隊(duì)證明了這種方式在理工科推理和代碼競(jìng)賽任務(wù)上的穩(wěn)定有效性,尤其是對(duì)于強(qiáng)模型,表現(xiàn)能夠接近理論上限。對(duì)于普通用戶而言,這意味著未來(lái)AI助手在處理復(fù)雜問(wèn)題時(shí),有望通過(guò)這類機(jī)制提供更加可靠和準(zhǔn)確的答案,而不只是給出一個(gè)可能出錯(cuò)的一次性推斷。對(duì)于AI研究者而言,如何在不增加系統(tǒng)架構(gòu)復(fù)雜度的前提下,進(jìn)一步通過(guò)訓(xùn)練把這種技能刻入模型本身,仍然是一個(gè)值得深入探索的開(kāi)放問(wèn)題。有興趣進(jìn)一步了解技術(shù)細(xì)節(jié)的讀者,可以通過(guò)arXiv編號(hào)2605.02396查閱完整論文,對(duì)應(yīng)的代碼也已開(kāi)源。

      Q&A

      Q1:HEAVYSKILL和普通多數(shù)投票(Best-of-N)有什么本質(zhì)區(qū)別?

      A:普通多數(shù)投票只是數(shù)哪個(gè)答案出現(xiàn)次數(shù)最多就采納哪個(gè),本質(zhì)上是一種統(tǒng)計(jì)方法,無(wú)法識(shí)別邏輯對(duì)錯(cuò)。HEAVYSKILL的審議階段則會(huì)真正分析每條推理路徑的邏輯嚴(yán)密性,能夠識(shí)別"少數(shù)正確派",甚至在所有推理者都犯錯(cuò)時(shí)獨(dú)立推導(dǎo)出新答案。實(shí)驗(yàn)數(shù)據(jù)顯示,HEAVYSKILL在困難題目上始終優(yōu)于多數(shù)投票,差距在高難度測(cè)試集上尤為突出。

      Q2:HEAVYSKILL在什么類型的任務(wù)上效果最好?

      A:HEAVYSKILL在有明確正確答案、可以被客觀驗(yàn)證的任務(wù)上效果最顯著,比如競(jìng)賽數(shù)學(xué)題、科學(xué)計(jì)算題、算法編程題和指令遵循任務(wù)。對(duì)于主觀性強(qiáng)、以人類偏好為評(píng)判標(biāo)準(zhǔn)的任務(wù)(如開(kāi)放式對(duì)話),提升幅度則相對(duì)有限,有時(shí)甚至略有下降。簡(jiǎn)單來(lái)說(shuō),越"有標(biāo)準(zhǔn)答案"的任務(wù),HEAVYSKILL的優(yōu)勢(shì)越明顯。

      Q3:審議階段使用能力弱一點(diǎn)的模型會(huì)不會(huì)影響效果?

      A:不一定會(huì)。研究實(shí)驗(yàn)發(fā)現(xiàn),即使用獨(dú)立解題能力較弱的模型作為審議者,也能產(chǎn)生有效的性能提升。這是因?yàn)閷徸h階段需要的核心能力是"綜合分析和批判性判斷",而不是"獨(dú)立解題"。換句話說(shuō),一個(gè)不擅長(zhǎng)自己解數(shù)學(xué)題但善于評(píng)估別人解題過(guò)程邏輯性的模型,同樣可以勝任審議工作。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      12GB+512GB+7550mAh,小米熱銷手機(jī)重回低價(jià),高配版跌至1888元

      12GB+512GB+7550mAh,小米熱銷手機(jī)重回低價(jià),高配版跌至1888元

      小愚測(cè)評(píng)
      2026-05-11 23:01:26
      次輪39號(hào)簽在手!火箭隊(duì)可摘控衛(wèi)或射手?惠特摩爾再為休城送助攻

      次輪39號(hào)簽在手!火箭隊(duì)可摘控衛(wèi)或射手?惠特摩爾再為休城送助攻

      熊哥愛(ài)籃球
      2026-05-11 12:23:35
      他的詩(shī)人人會(huì)背,他的苦無(wú)人敢想

      他的詩(shī)人人會(huì)背,他的苦無(wú)人敢想

      最愛(ài)歷史
      2026-05-10 13:07:20
      到了東決會(huì)有大用場(chǎng)?尼克斯替補(bǔ)中鋒的身材優(yōu)勢(shì)真是太明顯了?

      到了東決會(huì)有大用場(chǎng)?尼克斯替補(bǔ)中鋒的身材優(yōu)勢(shì)真是太明顯了?

      稻谷與小麥
      2026-05-11 23:45:25
      他活埋近5000紅軍,逃往國(guó)外安享晚年,如今國(guó)內(nèi)竟還有人紀(jì)念他!

      他活埋近5000紅軍,逃往國(guó)外安享晚年,如今國(guó)內(nèi)竟還有人紀(jì)念他!

      興趣知識(shí)
      2026-05-08 00:23:54
      1985年,國(guó)安叛徒藏身南美,中國(guó)6名兵王萬(wàn)里鋤奸,F(xiàn)BI顏面盡失

      1985年,國(guó)安叛徒藏身南美,中國(guó)6名兵王萬(wàn)里鋤奸,F(xiàn)BI顏面盡失

      文史達(dá)觀
      2026-05-08 06:45:13
      吳前妻子公開(kāi)怒懟對(duì)浙江隊(duì):職業(yè)體育“人情”與“功利”的碰撞

      吳前妻子公開(kāi)怒懟對(duì)浙江隊(duì):職業(yè)體育“人情”與“功利”的碰撞

      姜大叔侃球
      2026-05-11 21:21:57
      突發(fā)大新聞!莫迪呼吁:印度全民別買黃金!發(fā)生了什么?

      突發(fā)大新聞!莫迪呼吁:印度全民別買黃金!發(fā)生了什么?

      王爺說(shuō)圖表
      2026-05-11 18:24:22
      隱翅蟲(chóng)爬孩子胳膊,媽媽一套操作太高明,鄰居醫(yī)生:不用去醫(yī)院!

      隱翅蟲(chóng)爬孩子胳膊,媽媽一套操作太高明,鄰居醫(yī)生:不用去醫(yī)院!

      菁媽育兒
      2026-05-09 14:56:16
      售價(jià)或降至25萬(wàn)元內(nèi) 小米YU7將推新入門版本

      售價(jià)或降至25萬(wàn)元內(nèi) 小米YU7將推新入門版本

      車質(zhì)網(wǎng)
      2026-05-11 09:29:18
      美股光通信板塊開(kāi)盤大漲 Lumentum漲超10%

      美股光通信板塊開(kāi)盤大漲 Lumentum漲超10%

      財(cái)聯(lián)社
      2026-05-11 21:35:16
      堅(jiān)決抵制!國(guó)際足聯(lián)天價(jià)轉(zhuǎn)播權(quán)被拒絕后,直接把中文從官網(wǎng)除名

      堅(jiān)決抵制!國(guó)際足聯(lián)天價(jià)轉(zhuǎn)播權(quán)被拒絕后,直接把中文從官網(wǎng)除名

      南方健哥
      2026-05-11 22:55:35
      OPPO母親節(jié)宣傳文案翻車,段永平稱確實(shí)不合適、欠妥,武漢大學(xué)、中國(guó)廣告協(xié)會(huì)等發(fā)聲

      OPPO母親節(jié)宣傳文案翻車,段永平稱確實(shí)不合適、欠妥,武漢大學(xué)、中國(guó)廣告協(xié)會(huì)等發(fā)聲

      界面新聞
      2026-05-11 10:12:06
      與丈夫離婚后,她開(kāi)始和上海首富同居,如今重操舊業(yè)卻已無(wú)人問(wèn)津

      與丈夫離婚后,她開(kāi)始和上海首富同居,如今重操舊業(yè)卻已無(wú)人問(wèn)津

      風(fēng)月得自難尋
      2026-05-11 02:17:01
      廣東官宣G3前適應(yīng)訓(xùn)練!崔永熙空接,張皓嘉暴扣,杜鋒情緒不錯(cuò)!

      廣東官宣G3前適應(yīng)訓(xùn)練!崔永熙空接,張皓嘉暴扣,杜鋒情緒不錯(cuò)!

      籃球資訊達(dá)人
      2026-05-11 23:19:07
      公交集團(tuán)正式員工已經(jīng)躺平不了了,想要混到退休不太可能

      公交集團(tuán)正式員工已經(jīng)躺平不了了,想要混到退休不太可能

      娛樂(lè)圈見(jiàn)解說(shuō)
      2026-05-09 00:23:44
      吉爾吉斯主帥:中國(guó)是一個(gè)偉大的國(guó)家,中國(guó)隊(duì)是支偉大的球隊(duì)

      吉爾吉斯主帥:中國(guó)是一個(gè)偉大的國(guó)家,中國(guó)隊(duì)是支偉大的球隊(duì)

      懂球帝
      2026-05-11 11:37:55
      影院衛(wèi)生間被曝用“手握香蕉西柚”代指男女,門店回應(yīng):已撤下

      影院衛(wèi)生間被曝用“手握香蕉西柚”代指男女,門店回應(yīng):已撤下

      現(xiàn)代快報(bào)
      2026-05-10 15:06:06
      第14次躋身WTA1000賽八強(qiáng)!奧斯塔彭科勢(shì)頭強(qiáng)勁,2-0橫掃對(duì)手

      第14次躋身WTA1000賽八強(qiáng)!奧斯塔彭科勢(shì)頭強(qiáng)勁,2-0橫掃對(duì)手

      月下追尋者
      2026-05-11 22:08:22
      轉(zhuǎn)會(huì)重磅?拜仁將目光投向曼城球星

      轉(zhuǎn)會(huì)重磅?拜仁將目光投向曼城球星

      綠茵情報(bào)局
      2026-05-11 18:17:23
      2026-05-12 00:04:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8300文章數(shù) 563關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機(jī)會(huì)

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個(gè)我

      娛樂(lè)要聞

      “孕婦墜崖案”王暖暖稱被霸凌協(xié)商解約

      財(cái)經(jīng)要聞

      宗馥莉罷免銷售負(fù)責(zé)人 部分業(yè)務(wù)將外包

      汽車要聞

      吉利銀河“TT”申報(bào)圖曝光 電動(dòng)尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      藝術(shù)
      游戲
      旅游
      家居
      教育

      藝術(shù)要聞

      陸抑非寫(xiě)竹,筆力遒勁

      LOL第一支MSI戰(zhàn)隊(duì)出爐,TSW確定晉級(jí)季中賽!BLG已鎖定淘汰賽名額

      旅游要聞

      天壇公園5月12日景點(diǎn)暫停開(kāi)放

      家居要聞

      多元生活 此處無(wú)聲

      教育要聞

      10-4是個(gè)什么信號(hào)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 欧洲亚洲精品免费二区| 久久99国产精品一国产精品 | 无码人妻h动漫| 亚洲一区二区三区电影在线观看| 美女视频黄a视频免费全过程| 熟妇的味道hd中文字幕 | 日本久久香蕉一本一道| 亚洲精品中文字幕无乱码麻豆 | www.97| 日韩人妻无码一区二区三区99| 天天做天天爱天天综合网2021 | 免费午夜无码片在线观看影院| 人妻一区三区| 免费AV人体片在线观看| 制服.丝袜.亚洲.中文.综合懂| 日韩高清在线亚洲专区不卡 | 亚洲国产成人精品av区按摩| 欧美99久久无码一区人妻a片 | a级免费视频| 国产精品麻豆中文字幕| 国产黄站| 免费A级毛片无码免费视频首页| 亚洲成人久久躁狠狠躁| 久久精品国产99国产精品严洲| 艳妇乳肉豪妇荡乳在线观看| 国产成人亚洲综合无码精品| 国产无套专区精品一区| 亚洲一区二区三区在线观看精品中文 | 国产精品综合色区小说| 欧美成人免费全部| 欧美巨大极度另类| 久久亚洲精品11p| 久久久久国产精品熟女影院| 欧美日韩国产成人综合在线| 欧美丰满大乳大屁股流白浆| 国产精品人妻一码二码尿失禁| 国模一区二区三区私拍视频 | 3d动漫精品啪啪一区| 中文字幕av不卡电影网| 国产精品热久久无码av| 欧美一区二区三区啪啪|