<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      大模型高效推理新答案:ICLR 2026提出Balanced Thinking

      0
      分享至



      在過去一年中,大模型推理中的「過度思考」問題引發(fā)了廣泛關(guān)注。然而,真正的挑戰(zhàn)并非簡單地縮短思維鏈。面對簡單問題,模型往往在得出正確答案后仍持續(xù)進(jìn)行冗余驗(yàn)證;而許多旨在抑制過度思考的方法雖能壓縮輸出長度,卻常常將必要的推理探索一并剔除,導(dǎo)致模型從「想太多」直接滑向「想太少」。高效推理的核心目標(biāo)并非一刀切地削減推理步驟,而是使模型在不同任務(wù)中實(shí)現(xiàn)恰到好處的思考深度。

      針對這一問題,哈爾濱工業(yè)大學(xué)(深圳)等機(jī)構(gòu)的研究者提出了 ReBalance 方法,并首次系統(tǒng)性引入Balanced Thinking這一新視角。該工作的核心觀點(diǎn)明確:高效推理的關(guān)鍵并非盲目壓縮推理長度,而是在過度思考與思考不足之間維持動態(tài)平衡。

      基于此,ReBalance 利用模型自身的置信度信號,在思考過程中實(shí)時調(diào)控其內(nèi)部狀態(tài),無需額外訓(xùn)練即可實(shí)現(xiàn)推理行為的動態(tài)引導(dǎo)。實(shí)驗(yàn)表明,在參數(shù)規(guī)模從 0.5B 至 32B 的四個主流模型上,以及涵蓋數(shù)學(xué)推理、通用問答和編程任務(wù)的九個基準(zhǔn)測試中,ReBalance 在精度提升 10.0 的同時,推理長度直降 35.4%。



      • 論文標(biāo)題:Efficient Reasoning with Balanced Thinking
      • 項(xiàng)目主頁:https://rebalance-ai.github.io
      • 會議:ICLR 2026
      • 方法名稱:ReBalance
      • 作者機(jī)構(gòu):哈爾濱工業(yè)大學(xué)(深圳)等

      真正的問題,不是「過度思考」,而是「思考失衡」

      慢思考模型已展現(xiàn)出強(qiáng)大的推理能力,但「會推理」不等于「高效推理」。在簡單題目上,模型經(jīng)常在答案收斂后持續(xù)分叉、回看、復(fù)核,帶來更高的延遲和 token 成本,甚至可能引入額外幻覺。現(xiàn)有方法主要通過抑制反思關(guān)鍵詞的生成或直接施加推理長度懲罰來緩解這一問題,但它們往往隱含了一個過于簡化的假設(shè),即推理「越短越好」。

      然而,過度思考與思考不足本質(zhì)不同。前者指在正確推理路徑已然顯現(xiàn)后仍無謂延展,后者則是在探索尚未充分時便倉促得出結(jié)論。若將這兩種失衡模式混為一談,許多標(biāo)榜「高效」的方法實(shí)則以犧牲準(zhǔn)確率為代價換取推理長度縮減。

      ReBalance 的核心貢獻(xiàn)在于將高效推理重新定義為一種「平衡」問題:模型不應(yīng)一味追求縮短推理,而應(yīng)在恰當(dāng)?shù)臅r機(jī)停止冗余思考,在必要時繼續(xù)深入探索,從而實(shí)現(xiàn)簡潔性與充分性的統(tǒng)一。



      圖 1:在同一問題上,慢思考模型在得出正確答案后仍進(jìn)行冗余反思;現(xiàn)有抑制方法則過度壓縮有效推理,導(dǎo)致思考不足;而 ReBalance 能夠生成既簡潔又充分的推理過程。

      關(guān)鍵發(fā)現(xiàn):置信度是推理狀態(tài)的可靠連續(xù)信號

      論文中提供了一個具有啟發(fā)性的見解。作者通過分析 step-level confidence 及局部 confidence variance 發(fā)現(xiàn),不同推理失衡狀態(tài)呈現(xiàn)出顯著差異的置信度軌跡。在過度思考情形下,模型置信度在多個推理步驟中表現(xiàn)出明顯波動,反映出其在不同推理路徑之間反復(fù)搖擺,難以收斂。相比之下,思考不足通常表現(xiàn)為持續(xù)偏高的置信度與較低的波動性,表明模型并非缺乏推理能力,而是因過度自信而過早鎖定于錯誤的推理路徑。

      這一發(fā)現(xiàn)具有重要意義。它將高效推理的調(diào)控機(jī)制從依賴經(jīng)驗(yàn)性關(guān)鍵詞抑制,推進(jìn)至基于模型原生信號的動態(tài)狀態(tài)建模。置信度并非靜態(tài)評分,而是一種可在線觀測、連續(xù)演化且與推理行為緊密耦合的狀態(tài)指標(biāo)。一旦識別出該連續(xù)信號,便為實(shí)現(xiàn)細(xì)粒度的動態(tài)推理控制提供了可能。



      圖 2:現(xiàn)有過度思考抑制方法在縮短正確樣本推理長度的同時,也壓縮了錯誤樣本的推理過程,表明其在緩解過度思考的同時引入了思考不足的問題。相比之下,ReBalance 能夠更有效地維持推理平衡。

      ReBalance:將模型實(shí)時引導(dǎo)至推理平衡區(qū)


      基于上述洞察,ReBalance 提出了一種無需訓(xùn)練的兩階段推理調(diào)控框架。第一階段為離線數(shù)據(jù)采集:在小規(guī)模已知數(shù)據(jù)集上執(zhí)行單次前向推理,依據(jù)置信度及其波動程度識別具有過度思考或思考不足傾向的推理步驟,并從深層 hidden states 中分別提取兩類原型表示。兩類原型之差構(gòu)成一個引導(dǎo)向量(steering vector),用以刻畫模型在兩種失衡狀態(tài)之間的內(nèi)部遷移方向。

      第二階段為在線動態(tài)引導(dǎo):在實(shí)際思考過程中,ReBalance 持續(xù)監(jiān)測當(dāng)前推理步驟的置信度與波動幅度,并通過一個基于模型行為擬合的動態(tài)控制函數(shù),實(shí)時確定引導(dǎo)的方向與強(qiáng)度。當(dāng)模型處于低置信度、高波動狀態(tài)時,方法增強(qiáng)其收斂傾向,抑制冗余反思;當(dāng)模型處于高置信度、低波動狀態(tài)時,則施加反向引導(dǎo),鼓勵進(jìn)一步探索,防止過早終止。該方法全程無需重新訓(xùn)練、不依賴輔助模型,亦不引入額外推理階段。



      圖 3:ReBalance 框架示意圖

      實(shí)驗(yàn)驗(yàn)證:兼顧效率與性能的精準(zhǔn)壓縮


      實(shí)驗(yàn)結(jié)果充分驗(yàn)證了 Balanced Thinking 的有效性與魯棒性。論文在四個參數(shù)規(guī)模從 0.5B 至 32B 的慢思考模型上開展了系統(tǒng)性評估,涵蓋數(shù)學(xué)推理、通用問答和代碼生成任務(wù)等九項(xiàng)基準(zhǔn)測試。結(jié)果表明,ReBalance 并非以犧牲性能換取輸出長度的縮減,而是在提升推理效率的同時顯著增強(qiáng)模型表現(xiàn)。

      在數(shù)學(xué)推理任務(wù)中,該方法最高實(shí)現(xiàn) 10.0 個百分點(diǎn)的 Pass@1 準(zhǔn)確率提升,并將生成長度最多壓縮 35.4%。在非數(shù)學(xué)任務(wù)如 GPQA-D、StrategyQA 和 LiveCodeBench 上,ReBalance 同樣展現(xiàn)出穩(wěn)定的跨領(lǐng)域泛化能力,其中 GPQA-D 準(zhǔn)確率最高提升 6.6 個百分點(diǎn),同時 token 消耗最多降低 29.9%。

      尤為關(guān)鍵的是,ReBalance 并非對所有輸出進(jìn)行無差別截?cái)唷U撐姆治霰砻鳎F(xiàn)有方法往往同步縮短正確與錯誤樣本的推理鏈,導(dǎo)致在緩解過度思考的同時誘發(fā)思考不足。相比之下,ReBalance 能夠動態(tài)調(diào)節(jié)推理深度:當(dāng)模型已步入正確推理路徑時,有效削減冗余內(nèi)容;當(dāng)模型仍需深入探索時,則保留必要推理步驟。這種自適應(yīng)機(jī)制正是 Balanced Thinking 的核心優(yōu)勢。

      此外,作者在 Ascend 910B NPU 平臺的 openPangu slow-thinking 模式中驗(yàn)證了該方法的部署兼容性。在 AIME 2025 基準(zhǔn)上,ReBalance 在準(zhǔn)確率提升 3.4 個百分點(diǎn)的同時,輸出長度減少 35.3%,進(jìn)一步凸顯其在實(shí)際應(yīng)用中的潛力。



      ·表 1:數(shù)學(xué)推理任務(wù)驗(yàn)證

      結(jié)語


      ReBalance 的價值不僅在于提出了一種新的高效推理方法,更在于系統(tǒng)引入了Balanced Thinking這一全新視角。高效推理本質(zhì)上并非單純的序列壓縮問題,而應(yīng)是一個動態(tài)控制過程。當(dāng)目標(biāo)從「縮短推理鏈」轉(zhuǎn)變?yōu)椤妇S持推理過程的平衡」時,置信度自然成為連續(xù)可靠的控制信號,而潛空間引導(dǎo)(Latent Steering)則成為輕量且高效的干預(yù)機(jī)制,從而重構(gòu)了整個問題的求解范式。

      對于面向?qū)嶋H部署的推理模型,這一視角尤為重要。在延遲敏感、算力受限的應(yīng)用場景中,模型所需并非無限制延長推理時間,而是以更優(yōu)的方式思考,并恰當(dāng)?shù)乜刂仆评黹L度。ReBalance 為此提供了一個簡潔、輕量且具有良好泛化能力的解決方案。目前,該項(xiàng)目已開源,并配套提供了交互式演示及多個模型的引導(dǎo)向量,降低了復(fù)現(xiàn)與應(yīng)用門檻。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      美國軍艦強(qiáng)行“疏導(dǎo)”霍爾木茲海峽,成功了嗎?

      美國軍艦強(qiáng)行“疏導(dǎo)”霍爾木茲海峽,成功了嗎?

      澎湃新聞
      2026-05-05 13:38:26
      新老球王恭喜吳宜澤 趙心童:這是中國斯諾克 丁俊暉:我們的時代

      新老球王恭喜吳宜澤 趙心童:這是中國斯諾克 丁俊暉:我們的時代

      風(fēng)過鄉(xiāng)
      2026-05-05 06:27:29
      連滾帶爬!賴清德連夜返回臺島,斯威士蘭把事做絕了

      連滾帶爬!賴清德連夜返回臺島,斯威士蘭把事做絕了

      阿龍聊軍事
      2026-05-05 10:53:11
      停火以來最嚴(yán)重直接對抗,美伊進(jìn)入新海戰(zhàn)模式?特朗普:處于“迷你戰(zhàn)爭”狀態(tài)

      停火以來最嚴(yán)重直接對抗,美伊進(jìn)入新海戰(zhàn)模式?特朗普:處于“迷你戰(zhàn)爭”狀態(tài)

      紅星新聞
      2026-05-05 13:13:12
      博主教邏輯學(xué)竟被網(wǎng)友舉報(bào),說“居心叵測”

      博主教邏輯學(xué)竟被網(wǎng)友舉報(bào),說“居心叵測”

      蔥哥說
      2026-05-04 22:43:36
      “WU!”連續(xù)兩年世錦賽冠軍歸屬中國,中國斯諾克時代已至

      “WU!”連續(xù)兩年世錦賽冠軍歸屬中國,中國斯諾克時代已至

      澎湃新聞
      2026-05-05 11:24:28
      61歲大姐:退休金3千,不聚會,不串門,不隨便找人閑聊,很幸福

      61歲大姐:退休金3千,不聚會,不串門,不隨便找人閑聊,很幸福

      惟來
      2026-05-04 10:21:35
      一家快倒閉的公司,"垃圾堆"中撿到36.9克拉藍(lán)鉆,估價超過2.7億!

      一家快倒閉的公司,"垃圾堆"中撿到36.9克拉藍(lán)鉆,估價超過2.7億!

      燕梳樓頻道
      2026-05-04 21:44:17
      在西方媒體的宣傳下,中國簡直就是世界上最恐怖的國家!?

      在西方媒體的宣傳下,中國簡直就是世界上最恐怖的國家!?

      夢史
      2026-04-07 21:13:07
      砸2600億!武漢存儲擴(kuò)產(chǎn)計(jì)劃曝光:長江存儲產(chǎn)能翻番 劍指全球第三

      砸2600億!武漢存儲擴(kuò)產(chǎn)計(jì)劃曝光:長江存儲產(chǎn)能翻番 劍指全球第三

      三言四拍
      2026-05-04 16:16:39
      全票通過!美國FCC全面封殺中國實(shí)驗(yàn)室!

      全票通過!美國FCC全面封殺中國實(shí)驗(yàn)室!

      芯智訊
      2026-05-04 12:48:19
      贏球輸人品?國乒再輸瑞典,王楚欽當(dāng)場沖隊(duì)友爆粗口,全網(wǎng)炸鍋

      贏球輸人品?國乒再輸瑞典,王楚欽當(dāng)場沖隊(duì)友爆粗口,全網(wǎng)炸鍋

      好賢觀史記
      2026-05-04 15:24:09
      霍爾木茲上演“迷你戰(zhàn)爭”,特朗普威脅將伊朗“從地球表面抹去”!美伊劍拔弩張又要開打?

      霍爾木茲上演“迷你戰(zhàn)爭”,特朗普威脅將伊朗“從地球表面抹去”!美伊劍拔弩張又要開打?

      大風(fēng)新聞
      2026-05-05 10:37:15
      文班11+15+12帽刷爆紀(jì)錄:多項(xiàng)歷史第一難阻惜敗 三分8中0太慘

      文班11+15+12帽刷爆紀(jì)錄:多項(xiàng)歷史第一難阻惜敗 三分8中0太慘

      醉臥浮生
      2026-05-05 12:14:56
      虧損超1.5億!《寒戰(zhàn)1994》票房崩塌,我感慨:這塊金字招牌砸了

      虧損超1.5億!《寒戰(zhàn)1994》票房崩塌,我感慨:這塊金字招牌砸了

      靠譜電影君
      2026-05-05 10:40:44
      鄭欽文跌出TOP50失去種子待遇,稱除薩巴其他人球質(zhì)同她差距大

      鄭欽文跌出TOP50失去種子待遇,稱除薩巴其他人球質(zhì)同她差距大

      網(wǎng)球之家
      2026-05-05 13:03:37
      美軍中央司令部:在霍爾木茲海峽已經(jīng)擊沉6艘試圖阻撓商船航行的伊朗小型船只

      美軍中央司令部:在霍爾木茲海峽已經(jīng)擊沉6艘試圖阻撓商船航行的伊朗小型船只

      魯中晨報(bào)
      2026-05-05 09:38:03
      確定!正式官宣加盟,空降達(dá)拉斯啊,弗拉格終于有救了?

      確定!正式官宣加盟,空降達(dá)拉斯啊,弗拉格終于有救了?

      球童無忌
      2026-05-05 13:40:30
      徹底抹去!最大利空來襲!港股大跳水!

      徹底抹去!最大利空來襲!港股大跳水!

      龍行天下虎
      2026-05-05 10:52:15
      壓力來了!21死61傷!瀏陽一煙花廠爆炸上熱搜,禁煙花的呼聲再起

      壓力來了!21死61傷!瀏陽一煙花廠爆炸上熱搜,禁煙花的呼聲再起

      火山詩話
      2026-05-05 11:09:50
      2026-05-05 15:20:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12916文章數(shù) 142642關(guān)注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設(shè)備處理器

      頭條要聞

      媒體:霍爾木茲海峽徹底變天 中東局勢被推至懸崖邊緣

      頭條要聞

      媒體:霍爾木茲海峽徹底變天 中東局勢被推至懸崖邊緣

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      英皇25周年演唱會 張敬軒被救護(hù)車?yán)?/h3>

      財(cái)經(jīng)要聞

      五一假期,中國年輕人的“首爾病”犯了

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態(tài)度原創(chuàng)

      本地
      游戲
      數(shù)碼
      公開課
      軍事航空

      本地新聞

      用青花瓷的方式,打開西溪濕地

      PS5獨(dú)占光頭女主新作爆料匯總!頑皮狗最具野心之作

      數(shù)碼要聞

      多家鼠標(biāo)品牌準(zhǔn)備推出磁性微動技術(shù)挑戰(zhàn)羅技HITS 中國供應(yīng)商開始發(fā)力

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普回絕伊朗新方案

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲无码日本| 97国产成人无码精品久久久| 大屁股人妻女教师撅着屁股| 一二三三免费观看视频| 精品在线wwwww| 激情肏屄网| 国产在线视频一区二区三区| xxxx免费| 鄂托克旗| 国产男女猛烈无遮挡免费视频网址| 亚洲国产欧美在线观看片| 亚洲欧美囯产动漫制服丝袜美腿| 亚洲欧美另类激情综合区| 久久99久久久无码国产精品色戒| 国内精品久久人妻无码不卡| 99中文字幕精品国产| 国产极品美女高潮抽搐免费网站| 久久久99久久久国产自输拍| 一区二区三区一级黄片| 亚洲免费网站观看视频 | 日韩成人综合| 亚洲精品动漫免费二区| 九九九九热精品视频| 国产在线资源| 亚洲一区二区av观看| 亚洲中文字幕人妻系列| 精品乱人伦一区二区三区| 一区三区电影网| 玩弄丰满少妇xxxxx性多毛| 亚洲18禁私人影院| 国产成人精品午夜在线观看| tayese在线视频| 国产精品av在线| 精品久久久久国产免费| 久久精品国产99麻豆蜜月| 婷婷有码| 久久国产精品超级碰碰热| 亚洲制服丝袜| 黄色亚洲一区二区在线观看| 久久久久人妻一区精品性色av| 夜鲁夜鲁很鲁在线视频 视频|