<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      告別「單線(xiàn)程」思維,智能體進(jìn)化出了原生的并行推理大腦

      0
      分享至




      論文發(fā)表于 ICML 2026 主會(huì),核心作者為北京通用人工智能研究院(通研院)研究員吳桐、劉洋和白駿,以及通訊作者為通研院語(yǔ)言交互實(shí)驗(yàn)室研究員賈子夏和 實(shí)驗(yàn)室主任鄭子隆。

      近年來(lái),大語(yǔ)言模型在「寫(xiě)得長(zhǎng)、寫(xiě)得順」這件事上進(jìn)步飛快。但當(dāng)任務(wù)升級(jí)到真正復(fù)雜的推理場(chǎng)景 —— 需要兵分多路探索、需要自我反思與相互印證、需要在多條線(xiàn)索之間做匯總與取舍時(shí),傳統(tǒng)的鏈?zhǔn)剿季S(Chain-of-Thought)往往就開(kāi)始「吃力」:容易被早期判斷帶偏、發(fā)散不足、自我糾錯(cuò)弱,而且順序生成的效率天然受限。

      北京通用人工智能研究院(BIGAI)語(yǔ)言交互實(shí)驗(yàn)室(NLCo)最新工作Native Parallel Reasoner(NPR,原生并行推理器),瞄準(zhǔn)的正是這類(lèi)瓶頸:

      讓智能體在一次思考中同時(shí)衍生并維護(hù)多條候選推理路徑,并在關(guān)鍵節(jié)點(diǎn)「分支 + 聚合」,最終像拼圖一樣匯總線(xiàn)索,合成最優(yōu)解。

      更重要的是,NPR 的突破點(diǎn)不只是「并行生成的工程技巧」,而是提出了一套「自蒸餾 + 并行強(qiáng)化學(xué)習(xí)」三階段訓(xùn)練范式,并配套專(zhuān)門(mén)的并行推理引擎,目標(biāo)是讓并行推理從外部推理策略變?yōu)槟P偷脑J(rèn)知能力。



      • 論文標(biāo)題:Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning
      • 論文鏈接:https://arxiv.org/abs/2512.07461
      • 代碼實(shí)現(xiàn):https://github.com/bigai-nlco/Native-Parallel-Reasoner
      • 項(xiàng)目主頁(yè):https://bigai-nlco.github.io/Native-Parallel-Reasoner

      人們對(duì)語(yǔ)言智能體(Language Agent)的研究已經(jīng)把關(guān)注從「單一思維鏈擴(kuò)展」推廣到了「多步深度推理」。模型能夠進(jìn)行更深層次的推理令人興奮,但未來(lái)的超級(jí)智能真正需要的,是能更廣泛地并行探索多條可能思考路徑—— 也就是在一次推理過(guò)程中同時(shí)嘗試多種解法,然后再把結(jié)果合并校驗(yàn)。類(lèi)似 MapReduce [2] 的分而治之思路對(duì)進(jìn)一步擴(kuò)展智能體的測(cè)試時(shí)計(jì)算 [3] 的能力邊界至關(guān)重要,但想把它天然地整合進(jìn)一個(gè)智能體中,存在巨大的挑戰(zhàn)。

      1. 算法與架構(gòu)不匹配

      現(xiàn)有推理引擎和 RL 算法很難原生地支持「分支 + 聚合」操作。推理引擎通常無(wú)法有效調(diào)度并行分支;常用的 RL 技術(shù)又會(huì)截?cái)嗷蛳魅跄切┯|發(fā)并行結(jié)構(gòu)的特殊詞元的梯度,阻礙模型學(xué)習(xí)嚴(yán)格的并行控制邏輯。

      2. 低效的手工并行機(jī)制

      早期把并行思路內(nèi)化的嘗試多依賴(lài)于手工設(shè)計(jì)的分治規(guī)則,無(wú)法充分復(fù)用共享的 KV Cache 狀態(tài),導(dǎo)致每個(gè)分支重復(fù)計(jì)算,時(shí)間復(fù)雜度退化到線(xiàn)性 O (N),難以滿(mǎn)足實(shí)時(shí)或大規(guī)模部署的效率要求。

      3. 對(duì)強(qiáng)監(jiān)督蒸餾的依賴(lài)

      像 Multiverse [4] 這類(lèi)方法雖能實(shí)現(xiàn)并行,但高度依賴(lài)于強(qiáng)教師模型蒸餾出的示例,無(wú)法通過(guò)自舉的方式擴(kuò)展自身的智能邊界。學(xué)生模型不過(guò)是在模仿教師的串行拓?fù)洳阉溉搿共⑿懈袷剑Y(jié)果是把教師的局限也一并繼承,短時(shí)間內(nèi)難以產(chǎn)生新的、模型本身固有的并行策略 —— 達(dá)到了目前的「智能瓶頸」。

      背景與痛點(diǎn):為什么我們迫切需要并行推理?

      人們對(duì)智能體的期待,正在從「能多想一步」的單一思維鏈,升級(jí)到「能多維思考」的深度推理。未來(lái)更強(qiáng)的智能體,必須具備廣泛探索多條思考路徑的能力 —— 這很像經(jīng)典的MapReduce [2]思想:把復(fù)雜問(wèn)題拆開(kāi)并行處理,再聚合結(jié)果完成全局最優(yōu)的決策。

      但要讓模型真正學(xué)會(huì)這種「分身術(shù)」,現(xiàn)實(shí)里往往卡在三座大山:

      1)并行思考數(shù)據(jù)極難獲得:對(duì)強(qiáng)教師蒸餾的過(guò)度依賴(lài)

      現(xiàn)有不少并行推理工作需要強(qiáng)教師模型提供高質(zhì)量并行軌跡(如 Multiverse [4] 類(lèi)方法)。問(wèn)題在于:

      • 學(xué)生模型更多是在模仿教師的串行拓?fù)湓佟溉M(jìn)并行格式」,
      • 結(jié)果是把教師的局限一并繼承,難以自舉式擴(kuò)展智能邊界,
      • 很難真正涌現(xiàn)出「模型自身固有的并行策略」,形成新的智能瓶頸。

      2)低效的手工并行機(jī)制:分支之間難共享、重復(fù)計(jì)算嚴(yán)重

      早期模型并行常依賴(lài)手工設(shè)計(jì)的分治規(guī)則:每條路徑按既定模式推理或生成。由于缺乏對(duì)共享步驟的有效復(fù)用,常常出現(xiàn)每個(gè)分支都重復(fù)計(jì)算公共前綴的情況,效率很難滿(mǎn)足實(shí)時(shí)推理和大規(guī)模部署需求。

      3)基礎(chǔ)設(shè)施與算法對(duì)并行架構(gòu)支持不足:分支 + 聚合「學(xué)不會(huì)」

      現(xiàn)有推理引擎、強(qiáng)化學(xué)習(xí)算法對(duì)「分支 — 聚合」結(jié)構(gòu)往往缺乏原生支持:

      • 推理引擎難以高效調(diào)度并行分支;
      • 常用 RL 技術(shù)可能會(huì)截?cái)嗷蛳魅跤|發(fā)并行結(jié)構(gòu)的特殊控制詞元梯度,從而阻礙模型學(xué)習(xí)嚴(yán)格的并行控制邏輯。


      NPR 的核心理念:把「并行性」升維成模型的原生能力

      NPR 的關(guān)鍵詞在「原生」二字:研究團(tuán)隊(duì)試圖在零外部監(jiān)督(不依賴(lài)強(qiáng)教師并行軌跡)的條件下,探索一條讓模型自我進(jìn)化出并行推理能力的路徑。

      整體思路是一個(gè)漸進(jìn)式的三階段訓(xùn)練范式,讓模型從「會(huì)用并行格式寫(xiě)出來(lái)」,逐步過(guò)渡到「計(jì)算圖層面真的并行執(zhí)行」。

      三階段訓(xùn)練范式:從「并行外形」到「并行大腦」

      階段一:并行格式學(xué)習(xí) —— 先學(xué)會(huì)「怎么寫(xiě)成并行」

      第一步不追求一步到位「真的并行」,而是讓模型先掌握并行推理的表達(dá)結(jié)構(gòu):如何標(biāo)記分支、如何組織多條候選路徑、如何定義聚合點(diǎn)。

      階段二:自蒸餾 —— 內(nèi)化「并行思考邏輯」,擺脫外部老師

      在具備并行表達(dá)能力后,NPR 用自蒸餾方式讓模型用自己的生成結(jié)果反過(guò)來(lái)訓(xùn)練自己:

      通過(guò)篩選與沉淀,讓模型逐步內(nèi)化「多分支探索 — 相互印證 — 匯總收斂」的推理規(guī)律,而不是照搬教師的串行偏好與局限。

      階段三:并行感知強(qiáng)化學(xué)習(xí) —— 從「模仿并行」邁向「執(zhí)行并行」

      最后一步是關(guān)鍵躍遷:利用并行感知的強(qiáng)化學(xué)習(xí),讓模型學(xué)到什么時(shí)候該分叉、分叉多少、如何在聚合點(diǎn)進(jìn)行比較與合并,使并行不再停留在文本表面,而是真正成為推理過(guò)程可執(zhí)行的控制邏輯。

      這一步把「并行性」從工程技巧,推進(jìn)到模型的原生能力層面。

      如下圖所示,經(jīng)過(guò)三個(gè)階段的訓(xùn)練,NPR 準(zhǔn)確率從約 17% 持續(xù)爬升,最終達(dá)到 50.4%(中間兩條學(xué)習(xí)曲線(xiàn)分別對(duì)應(yīng)第一階段的格式學(xué)習(xí)與第三階段的并行強(qiáng)化學(xué)習(xí));與傳統(tǒng)推理方式相比,NPR 實(shí)現(xiàn)了約 4.6 倍生成加速(右側(cè)柱狀圖)。



      NPR 具體實(shí)現(xiàn)細(xì)節(jié)

      NPR 訓(xùn)練范式

      Stage 1:Format-following Reinforcement Learning(NPR-ZERO)

      • 目標(biāo):在無(wú)任何外部并行示例 / 教師情況下,讓模型學(xué)會(huì)生成結(jié)構(gòu)化的并行格式(如
      • 等結(jié)構(gòu)化標(biāo)簽),并盡量保證答案正確性。
      • 方法:以格式合規(guī)與答案正確為獎(jiǎng)勵(lì)信號(hào),對(duì)初始指令微調(diào)模型進(jìn)行 DAPO [6] 風(fēng)格的強(qiáng)化學(xué)習(xí),從而得到能產(chǎn)出并行格式軌跡的生成器(NPR-ZERO)。這一步為后續(xù)自蒸餾提供原始候選軌跡。

      Stage 2:Rejection Sampling + Parallel Warmup(NPR-BETA)

      • 目標(biāo):把 Stage 1 的「格式化產(chǎn)物」變?yōu)楦哔|(zhì)量的訓(xùn)練數(shù)據(jù)并讓模型在并行語(yǔ)義上穩(wěn)定。
      • 方法:對(duì) NPR-ZERO 進(jìn)行拒絕采樣 [7] 并應(yīng)用嚴(yán)格的篩選器(必須同時(shí)滿(mǎn)足 「格式合規(guī)」與「答案正確」),保留自蒸餾的并行推理軌跡,然后在此之上做冷啟動(dòng)的并行 SFT 預(yù)熱微調(diào),同時(shí)引入并行注意力掩碼(Parallel Attention Mask)與并行位置編碼(Parallel Positional Encoding),讓模型內(nèi)部能夠支持并行分支的獨(dú)立計(jì)算(并實(shí)現(xiàn) KV Cache 重用以避免重復(fù)計(jì)算)。

      Stage 3:Native-Parallel RL(PAPO)

      • 目標(biāo):在并行執(zhí)行引擎上用強(qiáng)化學(xué)習(xí)直接優(yōu)化并行分支策略,使其不僅會(huì)「寫(xiě)」并行格式,也會(huì)「算」并行結(jié)果。
      • 方法:提出并實(shí)現(xiàn)Parallel-Aware Policy Optimization (PAPO)—— 對(duì)并行語(yǔ)義做專(zhuān)門(mén)修改的策略?xún)?yōu)化方法:使用并行 Rollout 的 NPR-Engine 推理引擎以保證結(jié)構(gòu)正確性、在批次層級(jí)進(jìn)行優(yōu)勢(shì)歸一化、保留特殊結(jié)構(gòu)化 Token 的梯度并放棄重要性采樣以維持穩(wěn)定的 On-Policy 同策略梯度更新 [8]。PAPO 能直接在并行計(jì)算圖內(nèi)優(yōu)化分支策略,從不斷地試錯(cuò)中學(xué)會(huì)有效的問(wèn)題拆解與合并策略。



      關(guān)鍵技術(shù)細(xì)節(jié)

      1. 自蒸餾與嚴(yán)格篩選(Rejection Sampling)

      從 NPR-ZERO 生成大量并行格式的候選軌跡后,采用兩條硬性篩選規(guī)則只保留高質(zhì)量樣本進(jìn)入 D_accept:

      • Outcome Correctness:模型生成的候選軌跡的解析答案與 Ground Truth 一致。
      • Structured Parallelism:輸出嚴(yán)格遵循并行格式的 Schema(標(biāo)簽、塊邊界等)。

      當(dāng)且僅當(dāng)同時(shí)滿(mǎn)足以上兩條規(guī)則的采樣軌跡被接受用于冷啟動(dòng)并行 SFT(NPR-BETA),此策略顯著減少噪聲并保證訓(xùn)練語(yǔ)料的并行性與可學(xué)習(xí)性。

      2. 并行注意力掩碼與并行位置編碼

      為在單次前向傳遞中同時(shí)存在多條 Reasoning Path,NPR 采用 Multiverse 風(fēng)格的并行注意力掩碼與專(zhuān)門(mén)設(shè)計(jì)的并行位置編碼(對(duì)應(yīng)論文給出的 Algorithm 2 偽代碼),保證不同分支互相隔離但共享上下文 KV Cache [8],從而實(shí)現(xiàn)KV Cache 重用并避免每條分支重復(fù)計(jì)算上下文代價(jià)。該編碼亦允許通過(guò)標(biāo)簽 Token 標(biāo)明分支 / 步驟 / 指南塊,便于引擎解析。

      3. Parallel-Aware Policy Optimization(PAPO)

      并行語(yǔ)義下直接套用經(jīng)典 PPO [9] 或 DAPO 會(huì)遇到特殊 Token 被剪裁掉、重要性采樣不穩(wěn)定等問(wèn)題。PAPO 的主要設(shè)計(jì)包括:

      1. 并行 Rollout:使用 NPR-Engine 產(chǎn)生嚴(yán)格遵守并行 Schema 的軌跡,保證樣本合法。
      2. 結(jié)構(gòu)化過(guò)濾:格式違規(guī)樣本在進(jìn)入優(yōu)化前被剔除,獎(jiǎng)勵(lì)退化為純準(zhǔn)確性(+1 / ?1)。
      3. 批次級(jí)優(yōu)勢(shì)歸一化(Batch-level Normalization):由于格式違規(guī)樣本被移除,組內(nèi)方差塌縮,因此用更大范圍(batch 內(nèi)多組)統(tǒng)計(jì)標(biāo)準(zhǔn)差來(lái)穩(wěn)定優(yōu)勢(shì)估計(jì)。
      4. 保留特殊 Token 的梯度 & 放棄重要性采樣:為防止觸發(fā)并行結(jié)構(gòu)的特殊標(biāo)簽被裁剪掉,PAPO 在 Token 級(jí)別保留梯度流;同時(shí)放棄重要性采樣,采用嚴(yán)格的 On-policy Objective,避免重采樣比帶來(lái)的不穩(wěn)定。



      AI Infra 工程化改進(jìn):NPR-Engine

      實(shí)驗(yàn)證明:把并行語(yǔ)義放到生產(chǎn)環(huán)境的并行 RL,會(huì)暴露出大量的工程問(wèn)題(KV Cache 重復(fù)釋放導(dǎo)致的內(nèi)存泄漏、并行 Token 計(jì)數(shù)導(dǎo)致的超長(zhǎng)生成、非法并行 schema 導(dǎo)致的未定義狀態(tài)等)。論文在引擎層面做了幾項(xiàng)關(guān)鍵修復(fù):

      • 預(yù)算感知的 KV 回收:避免 Radix-Tree KV 路徑的 Opportunistic Recycling 導(dǎo)致 Double-Free,引入預(yù)算感知的確定性回收機(jī)制與 Memory Flush 策略。
      • 分支感知的 Token 累積策略:把全局 Token 預(yù)算從「只看最長(zhǎng)分支」改為 「按活躍分支因子累計(jì)」,避免超出 max_new_tokens。
      • 格式預(yù)檢與輕量不變性:在分支展開(kāi)前加一層格式合法性檢查,快速拒絕潛在非法分支以保證 Determinism。

      這些工程改進(jìn)和實(shí)現(xiàn)是確保能穩(wěn)定 Parallel RL 的訓(xùn)練,進(jìn)而獲得并行思考智能體的前提。

      主要實(shí)驗(yàn)與結(jié)論

      評(píng)測(cè)基準(zhǔn)與度量

      在 8 個(gè)推理型基準(zhǔn)上評(píng)測(cè):AIME24/25、HMMT25、OlympiadBench、Minerva-Math、ZebraLogic、AMC23、MATH500 等。對(duì)小規(guī)模競(jìng)賽類(lèi)數(shù)據(jù)使用 avg@8(采樣 8 條解答的平均正確率),對(duì)大規(guī)模或單答設(shè)置使用 avg@1。

      訓(xùn)練數(shù)據(jù)優(yōu)勢(shì):性能提升的關(guān)鍵在于用自行提煉的數(shù)據(jù)集(NPR-BETA 的 ORZ-8k)替換了 Multiverse 的訓(xùn)練語(yǔ)料庫(kù)(MV-4B 的 s1.1-8k)。盡管兩個(gè)流程在實(shí)現(xiàn)細(xì)節(jié)上略有不同,但都依賴(lài)于并行式的 SFT,因此比較結(jié)果具有意義。數(shù)據(jù)替換的影響清晰且一致:AIME24 的性能從 46.7 提升至 50.8(+4.1),ZebraLogic 從 60.2 提升至 76.1(+15.9),AMC23 從 75.0 提升至 85.9(+10.9),MATH500 從 81.6 提升至 91.6(+10.0)。總體而言,平均得分從 50.1 提升至 59.0(+8.9)。

      并行 SFT 的優(yōu)勢(shì):從順序 SFT(例如 SR-BETA)切換到并行 SFT 方法(NPR-BETA)能夠顯著提升各種推理基準(zhǔn)測(cè)試的性能。順序 SFT 引入了較強(qiáng)的步驟依賴(lài)性先驗(yàn),限制了任務(wù)分解的靈活性。相比之下,并行 SFT 在訓(xùn)練過(guò)程中使模型能夠接觸到結(jié)構(gòu)上并行的軌跡,從而實(shí)現(xiàn)更獨(dú)立的子問(wèn)題探索。具體而言,AIME25 從 37.1 提升至 42.9 (+5.8),OlympiadBench 從 56.3 提升至 60.1 (+3.8),HMMT25 從 22.5 提升至 23.3 (+0.8),ZebraLogic 從 72.8 提升至 76.1 (+3.3)。整體性能從 58.2 提升至 59.0 (+0.8),僅在少數(shù)基準(zhǔn)測(cè)試中出現(xiàn)輕微退步。

      并行強(qiáng)化學(xué)習(xí)優(yōu)勢(shì):基于 NPR-BETA,應(yīng)用并行強(qiáng)化學(xué)習(xí)算法可獲得進(jìn)一步的性能提升,并始終優(yōu)于順序強(qiáng)化學(xué)習(xí)(NPR 與 SR 相比)。這些改進(jìn)是廣泛而系統(tǒng)的:AIME24 從 57.1 提升至 63.3(+6.2),HMMT25 從 26.3 提升至 30.8(+4.5),Minerva-Math 從 38.2 提升至 43.0(+4.8)。其他基準(zhǔn)測(cè)試也顯示出穩(wěn)步提升,AIME25(+1.2)、OlympiadBench(+1.5)、ZebraLogic(+2.8)、AMC23(+2.2)和 MATH500(+0.8)。總體而言,平均得分從 62.0 提升至 65.0(+3.0)。



      Multiverse-32B 在不同數(shù)據(jù)集上的并行率差異顯著,表明其并行推理的采用高度依賴(lài)于數(shù)據(jù)集。尤其是在 ZebraLogic 等邏輯密集型任務(wù)上,其性能明顯低于多個(gè)數(shù)學(xué)競(jìng)賽數(shù)據(jù)集,這表明從順序行為逐步過(guò)渡到并行行為的 Multiverse 訓(xùn)練范式,導(dǎo)致并行策略的內(nèi)化不一致,并且對(duì)領(lǐng)域特征非常敏感。

      相比之下,NPR 模型在所有八個(gè)數(shù)據(jù)集上均達(dá)到了 100.0% 的并行觸發(fā)率。這種一致性意味著端到端的 NPR 訓(xùn)練流程能夠更可靠地將并行推理作為模型的默認(rèn)問(wèn)題解決模式,而不受數(shù)據(jù)集領(lǐng)域或復(fù)雜性的影響。實(shí)際上,這意味著 NPR 不僅能更頻繁地觸發(fā)并行推理,而且能夠在不同的評(píng)估數(shù)據(jù)集上穩(wěn)健地實(shí)現(xiàn)這一點(diǎn)。



      NPR 在所有五個(gè)基準(zhǔn)測(cè)試中均取得了最佳效率,始終優(yōu)于 Multiverse(1.3 倍至 2.4 倍)和自回歸基線(xiàn),這表明該方法具有穩(wěn)健的泛化能力。重要的是,加速比隨任務(wù)難度而增加:NPR 在較難的問(wèn)題(AIME25:4.6 倍;HMMT25:4.1 倍)上觀察到的加速比在較容易的問(wèn)題(AMC23:2.9 倍)上更大,這表明當(dāng)需要更深入地探索解路徑時(shí),NPR 優(yōu)勢(shì)日益凸顯;證明了 NPR 既能提高準(zhǔn)確率,而且在可以并行探索多種解策略時(shí)尤其有效。



      案例解析

      論文給了若干具體題目的并行解法示例,典型模式為:

      1. :并行產(chǎn)生若干獨(dú)立 plan(每個(gè) plan 一句戰(zhàn)術(shù));
      2. :每個(gè) plan 獨(dú)立并行展開(kāi)具體推理步驟;
      3. :整合與交叉驗(yàn)證,得出最終結(jié)論并給出簡(jiǎn)短答案(boxed answer)。

      舉例:對(duì)于域函數(shù)或幾何題,某些 plan 會(huì)分別做不同的分解(代數(shù)、數(shù)值檢驗(yàn)、幾何角度關(guān)系),最后 多角度并行 + 匯總」能顯著減少因單一路徑假設(shè)錯(cuò)導(dǎo)致的花費(fèi)。

      將各分支結(jié)果比對(duì)、剔除不一致項(xiàng)并輸出最終答案。這種「





      結(jié)語(yǔ)

      本文提出了一種簡(jiǎn)單且可擴(kuò)展的框架,用于構(gòu)建原生并行推理器。該推理器無(wú)需依賴(lài)外部教師模型即可學(xué)習(xí)自適應(yīng)分解、多樣化的并行規(guī)劃和可靠的聚合。通過(guò)將自提煉的并行 SFT 與智能體并行 RL 相結(jié)合,NPR 能夠生成真正的并行推理策略,而非模擬或腳本化的策略。

      在八個(gè)推理基準(zhǔn)測(cè)試上的實(shí)驗(yàn)表明,與 Multiverse 數(shù)據(jù)集、自回歸訓(xùn)練和直接強(qiáng)化學(xué)習(xí)相比,該方法均有顯著的改進(jìn)。論文中的分析進(jìn)一步證明了該方法能夠顯著加速推理、增強(qiáng)測(cè)試時(shí)的可擴(kuò)展性,并且不存在偽并行行為。

      案例研究展示了該模型如何根據(jù)問(wèn)題難度調(diào)整其并行性,從而實(shí)現(xiàn)結(jié)構(gòu)化探索和穩(wěn)健的驗(yàn)證。這些結(jié)果表明,原生并行推理是實(shí)現(xiàn)更通用、可擴(kuò)展智能的一個(gè)有前景的方向。

      參考文獻(xiàn)

      [1] Wei et al. Chain of Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.

      [2] Dean et al. MapReduce: Simplified Data Processing on Large Clusters. OSDI'04: Sixth Symposium on Operating System Design and Implementation 2004.

      [3] Snell et al. Scaling LLM Test-Time Compute Optimally Can be More Effective than Scaling Parameters for Reasoning. ICLR 2025.

      [4] Yang et al. Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation. NeurIPS 2025.

      [5] Zhao et al. Absolute Zero: Reinforced Self-play Reasoning with Zero Data. NeurIPS 2025.

      [6] Yu et al. DAPO: An Open-Source LLM Reinforcement Learning System at Scale. NeurIPS 2025.

      [7] Gilks et al. Adaptive Rejection Sampling for Gibbs Sampling. Journal of the Royal Statistical Society Series C: Applied Statistics 2018.

      [8] Sutton et al. Policy gradient methods for reinforcement learning with function approximation. NeurIPS 1999.

      [9] Zheng et al. SGLang: Efficient Execution of Structured Language Model Programs. NeurIPS 2024.

      [10] Schulman et al. Proximal Policy Optimization Algorithms. arXiv 2017.

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      動(dòng)手了!中國(guó)海警抵近中業(yè)島,人員沖上礁,海警船隨時(shí)戒備

      動(dòng)手了!中國(guó)海警抵近中業(yè)島,人員沖上礁,海警船隨時(shí)戒備

      阿龍聊軍事
      2026-05-19 05:19:21
      賴(lài)清德彈劾案闖關(guān)失敗!同意票共56張未達(dá)門(mén)檻,但仍創(chuàng)下紀(jì)錄

      賴(lài)清德彈劾案闖關(guān)失敗!同意票共56張未達(dá)門(mén)檻,但仍創(chuàng)下紀(jì)錄

      海峽導(dǎo)報(bào)社
      2026-05-19 12:01:06
      從7月1日起,越南基本工資將上調(diào)至每月253萬(wàn)越南盾

      從7月1日起,越南基本工資將上調(diào)至每月253萬(wàn)越南盾

      緬甸中文網(wǎng)
      2026-05-17 14:00:49
      果然!是華人而不是中國(guó)人統(tǒng)治了芯片,真夠扎心的…

      果然!是華人而不是中國(guó)人統(tǒng)治了芯片,真夠扎心的…

      慧翔百科
      2026-05-19 08:34:16
      正式官宣!瓜迪奧拉確定周日離任曼城,十年藍(lán)月傳奇落幕

      正式官宣!瓜迪奧拉確定周日離任曼城,十年藍(lán)月傳奇落幕

      夜白侃球
      2026-05-19 10:05:51
      越扒瓜越大!福建楊梅再添實(shí)錘,不只是商戶(hù)投毒,還有一地更惡劣

      越扒瓜越大!福建楊梅再添實(shí)錘,不只是商戶(hù)投毒,還有一地更惡劣

      奇思妙想草葉君
      2026-05-18 20:35:10
      哈馬斯絕密信曝光:10月7日,他們真正想引爆的,是整個(gè)中東

      哈馬斯絕密信曝光:10月7日,他們真正想引爆的,是整個(gè)中東

      以色列計(jì)劃Pro
      2026-05-18 22:01:10
      5244人全扒完!黑龍江26年公務(wù)員錄取名單曝光,發(fā)現(xiàn)三個(gè)讓家長(zhǎng)失眠真相

      5244人全扒完!黑龍江26年公務(wù)員錄取名單曝光,發(fā)現(xiàn)三個(gè)讓家長(zhǎng)失眠真相

      老滿(mǎn)說(shuō)高考
      2026-05-18 20:54:36
      特朗普剛走,又有4國(guó)爭(zhēng)先恐后訪華,名單公開(kāi),全都是中國(guó)好兄弟

      特朗普剛走,又有4國(guó)爭(zhēng)先恐后訪華,名單公開(kāi),全都是中國(guó)好兄弟

      書(shū)紀(jì)文譚
      2026-05-18 23:45:00
      羅永浩爆料:華為余承東不講誠(chéng)信,借收購(gòu)名義當(dāng)面挖我的首席研發(fā)和產(chǎn)品

      羅永浩爆料:華為余承東不講誠(chéng)信,借收購(gòu)名義當(dāng)面挖我的首席研發(fā)和產(chǎn)品

      爆角追蹤
      2026-05-19 12:38:40
      湖北宣恩暴雨致3人遇難4人失聯(lián),村民:水漲很快,村里連夜通知轉(zhuǎn)移,有七旬夫妻遇難

      湖北宣恩暴雨致3人遇難4人失聯(lián),村民:水漲很快,村里連夜通知轉(zhuǎn)移,有七旬夫妻遇難

      瀟湘晨報(bào)
      2026-05-19 11:48:17
      一報(bào)告顯示:逾八成中俄青年認(rèn)為中俄關(guān)系友好

      一報(bào)告顯示:逾八成中俄青年認(rèn)為中俄關(guān)系友好

      中國(guó)青年報(bào)
      2026-05-18 16:33:06
      越扒越嚇人!福建楊梅再添實(shí)錘,不止是商戶(hù)投毒,還有一地更惡劣

      越扒越嚇人!福建楊梅再添實(shí)錘,不止是商戶(hù)投毒,還有一地更惡劣

      三農(nóng)雷哥
      2026-05-18 20:34:19
      特朗普對(duì)小細(xì)節(jié)很感興趣,還在繼續(xù)發(fā)布照片,很享受這個(gè)過(guò)程

      特朗普對(duì)小細(xì)節(jié)很感興趣,還在繼續(xù)發(fā)布照片,很享受這個(gè)過(guò)程

      三叔的裝備空間
      2026-05-19 07:39:00
      何立峰會(huì)見(jiàn)AMD CEO蘇姿豐!

      何立峰會(huì)見(jiàn)AMD CEO蘇姿豐!

      半導(dǎo)體產(chǎn)業(yè)縱橫
      2026-05-19 10:58:37
      活106歲,熬死所有親人:宋美齡看似風(fēng)光百年,其實(shí)輸?shù)靡粺o(wú)所有

      活106歲,熬死所有親人:宋美齡看似風(fēng)光百年,其實(shí)輸?shù)靡粺o(wú)所有

      小莜讀史
      2026-05-18 13:53:12
      特朗普:我很震驚黃仁勛竟然沒(méi)有私人飛機(jī),臨時(shí)來(lái)華是因?yàn)樗麤](méi)提前申請(qǐng)

      特朗普:我很震驚黃仁勛竟然沒(méi)有私人飛機(jī),臨時(shí)來(lái)華是因?yàn)樗麤](méi)提前申請(qǐng)

      西虹市閑話(huà)
      2026-05-18 18:21:07
      蔡卓妍含淚控訴丈夫,黑料曝光,港媒標(biāo)題,還是一如既往的勁爆!

      蔡卓妍含淚控訴丈夫,黑料曝光,港媒標(biāo)題,還是一如既往的勁爆!

      川渝視覺(jué)
      2026-05-19 08:53:55
      安帥遭吐槽!巴西最好中鋒落選世界杯,34歲內(nèi)馬爾憑什么鎖定名額

      安帥遭吐槽!巴西最好中鋒落選世界杯,34歲內(nèi)馬爾憑什么鎖定名額

      聽(tīng)我說(shuō)球
      2026-05-19 09:18:49
      良子和安娜正式分手,安娜無(wú)縫銜接新男友,新男友一身肌肉

      良子和安娜正式分手,安娜無(wú)縫銜接新男友,新男友一身肌肉

      新游戲大妹子
      2026-05-18 11:20:46
      2026-05-19 14:04:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專(zhuān)業(yè)的人工智能媒體
      13031文章數(shù) 142651關(guān)注度
      往期回顧 全部

      科技要聞

      蘋(píng)果WWDC26定檔6月9日凌晨:iOS27將亮相

      頭條要聞

      賴(lài)清德彈劾案未通過(guò):同意票56張未達(dá)門(mén)檻 但仍創(chuàng)紀(jì)錄

      頭條要聞

      賴(lài)清德彈劾案未通過(guò):同意票56張未達(dá)門(mén)檻 但仍創(chuàng)紀(jì)錄

      體育要聞

      58順位的保羅,最強(qiáng)第三中鋒

      娛樂(lè)要聞

      張雪峰42歲冥誕,學(xué)生家長(zhǎng)自發(fā)緬懷

      財(cái)經(jīng)要聞

      從賣(mài)流量到賣(mài)Token,運(yùn)營(yíng)商算力生意破局

      汽車(chē)要聞

      試駕與眾07:首搭CEA架構(gòu) 德味操控+聰明大腦

      態(tài)度原創(chuàng)

      教育
      時(shí)尚
      家居
      數(shù)碼
      手機(jī)

      教育要聞

      爸爸1米75,媽媽1米65,兒子12歲長(zhǎng)到1米77

      休閑闊腿褲怎么穿才美?看看這些穿搭公式,解鎖不重樣的造型

      家居要聞

      觀山隱秀 心靈沉淀

      數(shù)碼要聞

      蘋(píng)果或在今年秋季推出大改款 Apple Watch Ultra 4

      手機(jī)要聞

      宋雨琦代言!OPPO Reno16系列正式亮相:3D懸浮星球工藝 配色夢(mèng)幻

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 无翼乌口工全彩无遮挡h全彩| 草裙社区精品视频播放| 熟女丰满老熟女熟妇| 天天色天天拍天天操| 国产精品亚洲А∨天堂免下载 | 五月丁香色综合久久4438| 人妻二区三区五区| 日本激情网站| 亚洲色一色噜一噜噜噜| 狠狠色噜噜狠狠狠狠7777米奇| 中文字幕日韩一区二区不卡| 精品亚洲AⅤ无码午夜在线| 亚洲成a无码| 国产99视频精品免费视看6| 成人三级网址| 18成人片黄网站www| 91蜜臀国产自产在线观看| 欧美色爽| 国产伊人网视频在线观看| 漯河市| 99在线精品偷拍视频 | 亚洲精品成人福利网站| 一本色道国产在线观看二区| 无码中文字幕乱码免费2| 中文字幕人妻系列人妻?无码| 亚洲精品国产A久久久久久| 亚洲国产精品成人精品小说| 久久香蕉国产线看观看亚洲片| 亚洲精品综合网中文字幕| 中文字幕日韩精品人妻| 一区精品| 国产精品AV在线| 日韩在线视频线观看一区| 国产成人无码A区视频在线观看| 国产MD视频一区二区三区| 亚洲av免费成人精品区| 91丝袜视频| 性按摩xxxx在线观看| 日韩av中出在线免费播放网站 | 国产午夜A理论毛片| 麻豆久久久9性大片|