<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      不更新參數(shù)就能強(qiáng)化學(xué)習(xí)!翁家翌新范式:決策只需AI寫個.py文件

      0
      分享至

      聞樂 發(fā)自 凹非寺
      量子位 | 公眾號 QbitAI

      沒有訓(xùn)練梯度的AI,打破了Atari游戲滿分紀(jì)錄。

      OpenAI核心研究員翁家翌提出了一個強(qiáng)化學(xué)習(xí)新范式——

      啟發(fā)式學(xué)習(xí)(Heuristic Learning, HL)



      全程無神經(jīng)網(wǎng)絡(luò)訓(xùn)練、無梯度更新,全程靠GPT-5.4驅(qū)動的Codex自主迭代,硬是在經(jīng)典游戲Breakout上打到了864分理論滿分。



      與傳統(tǒng)深度強(qiáng)化學(xué)習(xí)優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù)不同,HL不依賴可微權(quán)重存儲策略,而是將決策邏輯遷移到離散程序空間,以代碼編輯替代梯度下降,通過顯式的符號規(guī)則實現(xiàn)狀態(tài)-動作映射。

      在游戲、機(jī)器人仿真多項任務(wù)里,該方法性能甚至超過老牌強(qiáng)化學(xué)習(xí)算法PPO。

      以程序代碼為載體

      傳統(tǒng)深度強(qiáng)化學(xué)習(xí)(DRL)長期默認(rèn)智能體的決策核心必須依托神經(jīng)網(wǎng)絡(luò)實現(xiàn)。

      比如在游戲里,當(dāng)觀測到游戲小球位于左側(cè)時,神經(jīng)網(wǎng)絡(luò)通過復(fù)雜映射直接輸出「向左移動」的動作;

      但整個決策過程是隱式黑箱的,沒人能清晰拆解內(nèi)部邏輯,只能依賴梯度下降算法盲目迭代擬合。

      也正因這種底層架構(gòu),深度強(qiáng)化學(xué)習(xí)始終難以逾越三大核心瓶頸。

      一是災(zāi)難性遺忘。神經(jīng)網(wǎng)絡(luò)以參數(shù)存儲習(xí)得技能,新任務(wù)的梯度迭代會直接覆蓋舊有權(quán)重,無法實現(xiàn)多任務(wù)持續(xù)學(xué)習(xí)。

      二是決策黑箱、不可解釋。智能體每一次動作選擇都隱藏在海量網(wǎng)絡(luò)權(quán)重與矩陣運算中,無法追溯決策依據(jù),也不能人工干預(yù)、拆解邏輯。

      三是樣本效率低下。依賴海量環(huán)境交互數(shù)據(jù)完成訓(xùn)練迭代,收斂周期長、算力消耗巨大,整體研發(fā)與落地成本高。

      HL的思路很直接,既然參數(shù)更新是問題的根源,那干脆不要參數(shù)。

      它把智能體的決策策略從神經(jīng)網(wǎng)絡(luò)的權(quán)重轉(zhuǎn)化為可讀的程序代碼,把學(xué)習(xí)從梯度優(yōu)化變成代碼編輯。

      在HL的框架里,AI維護(hù)的不再是單一策略文件,而是一套完整的智能化軟件系統(tǒng):

      顯式的狀態(tài)檢測器(“球在左上方,速度向右”)、顯式的規(guī)則邏輯(“如果球?qū)⒙湓谧髠?cè),則向左移動”)、還有測試用例、回歸檢查、失敗記錄、版本歷史。

      每次迭代,Codex會審視系統(tǒng)表現(xiàn),閱讀失敗錄像,分析日志,然后做出結(jié)構(gòu)性調(diào)整。



      這種范式的關(guān)鍵的優(yōu)勢是:知識是顯式的。

      舊能力不會被覆蓋,而是封裝成模塊和測試,隨時可調(diào)用、可驗證、可傳承。

      就像翁家翌說的:

      HL把持續(xù)學(xué)習(xí)從“如何更新參數(shù)”變成了”如何維護(hù)一個持續(xù)吸收反饋的軟件系統(tǒng)”。

      當(dāng)然,HL并不是完全排斥梯度技術(shù),它內(nèi)部某些組件(如模型預(yù)測控制MPC)仍然會用梯度做局部搜索。

      但關(guān)鍵在于這類梯度運算不用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練與參數(shù)更新,僅服務(wù)于實時動作決策。



      而且這種架構(gòu)設(shè)計讓HL原生自帶可解釋、抗遺忘、高效率的特性。

      Atari滿分,機(jī)器人控制SOTA

      不只是拿到Breakout的864分,翁家翌完成了完整的Atari 57大規(guī)模測試(Atari 57是行業(yè)公認(rèn)的強(qiáng)化學(xué)習(xí)基準(zhǔn)測試集,包含57款不同類型的經(jīng)典游戲,覆蓋離散動作空間的各類決策場景)。

      每款游戲設(shè)置兩種觀測模式,各自重復(fù)三輪實驗,最終生成342條獨立的智能編碼迭代軌跡。

      結(jié)果顯示,在統(tǒng)一環(huán)境交互步數(shù)的前提下,啟發(fā)式學(xué)習(xí)HL的整體中位表現(xiàn),已經(jīng)和PPO等主流深度強(qiáng)化學(xué)習(xí)算法持平。

      在Breakout、Asterix、Jamesbond等多款經(jīng)典游戲中,成績甚至超越人類玩家基準(zhǔn)水平。

      相比游戲離散決策,MuJoCo機(jī)器人連續(xù)控制任務(wù)難度更高。

      以四足機(jī)器人Ant為例,需要協(xié)同調(diào)控8個關(guān)節(jié),在高維連續(xù)動作空間中維持動態(tài)平衡。

      啟發(fā)式學(xué)習(xí)HL從基礎(chǔ)節(jié)律步態(tài)規(guī)則起步,逐步迭代加入姿態(tài)反饋、觸地信號感知、短程模型預(yù)測等邏輯,最終綜合評分突破6000 分,性能完全對標(biāo)專業(yè)深度強(qiáng)化學(xué)習(xí)模型。



      在HalfCheetah獵豹仿真任務(wù)中,HL更是跑出了11836的平均高分,展現(xiàn)出在復(fù)雜連續(xù)控制場景的極強(qiáng)適配能力。



      不過翁家翌也沒有回避HL的邊界。

      他直言:

      在我目前認(rèn)知范圍內(nèi),我想不出有個agent能搓出一個純Python code、不用神經(jīng)網(wǎng)絡(luò)去解決 ImageNet。

      從原始像素中完成目標(biāo)識別、特征抽象,依舊是深度神經(jīng)網(wǎng)絡(luò)不可替代的強(qiáng)項。

      而啟發(fā)式學(xué)習(xí)HL的核心價值,集中體現(xiàn)在策略持續(xù)迭代層面,當(dāng)環(huán)境動態(tài)變化、需要長期自適應(yīng)調(diào)整行為邏輯時,顯性化的代碼規(guī)則系統(tǒng)更適配持續(xù)學(xué)習(xí)需求。

      所以,當(dāng)下關(guān)鍵的命題在于如何把神經(jīng)網(wǎng)絡(luò)與HL有機(jī)融合,一并攻克在線學(xué)習(xí)與持續(xù)學(xué)習(xí)兩大難題。

      翁家翌指出最具落地前景的思路是,依托HL實時處理在線環(huán)境數(shù)據(jù)流,快速沉淀可復(fù)用的在線行為經(jīng)驗;

      再將這些顯性經(jīng)驗整理、內(nèi)化,轉(zhuǎn)化為可訓(xùn)練、可回歸、可篩選的高質(zhì)量數(shù)據(jù)集,反過來對神經(jīng)網(wǎng)絡(luò)做周期性迭代更新。


      [1]https://x.com/Trinkle23897/status/2052596837547495549
      [2]https://trinkle23897.github.io/learning-beyond-gradients

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      李嘉誠兒子拿下世界杯轉(zhuǎn)播權(quán),全網(wǎng)炸鍋

      李嘉誠兒子拿下世界杯轉(zhuǎn)播權(quán),全網(wǎng)炸鍋

      新浪財經(jīng)
      2026-05-09 18:37:21
      難以饒恕!榴蓮僅退款女孩過分言論曝光:臉真大,不知羞恥的東西

      難以饒恕!榴蓮僅退款女孩過分言論曝光:臉真大,不知羞恥的東西

      小徐講八卦
      2026-05-09 10:31:23
      海參崴的街頭,誰在出賣我們的歷史尊嚴(yán)?

      海參崴的街頭,誰在出賣我們的歷史尊嚴(yán)?

      迷世書童H9527
      2026-05-07 14:55:09
      續(xù)約兩年!科爾繼續(xù)擔(dān)任勇士主帥 仍會是NBA現(xiàn)役最高薪主教練

      續(xù)約兩年!科爾繼續(xù)擔(dān)任勇士主帥 仍會是NBA現(xiàn)役最高薪主教練

      醉臥浮生
      2026-05-10 08:30:28
      國安部發(fā)布緊急提醒:你的手機(jī)或已成“間諜站”!

      國安部發(fā)布緊急提醒:你的手機(jī)或已成“間諜站”!

      看看新聞Knews
      2026-05-09 14:54:03
      這出黑色幽默,沒人笑得出來

      這出黑色幽默,沒人笑得出來

      梳子姐
      2026-05-09 09:23:35
      毛主席原定1950年舉行開國大典,斯大林得知后當(dāng)場變臉警告劉少奇:必須立刻改期!

      毛主席原定1950年舉行開國大典,斯大林得知后當(dāng)場變臉警告劉少奇:必須立刻改期!

      寄史言志
      2026-05-09 19:13:45
      5月9日閱兵的俄羅斯,走向垃圾時間

      5月9日閱兵的俄羅斯,走向垃圾時間

      黔有虎
      2026-05-09 16:22:09
      騎士險勝活塞追到1-2:哈登19+7關(guān)鍵7分 米切爾35+10坎寧安三雙

      騎士險勝活塞追到1-2:哈登19+7關(guān)鍵7分 米切爾35+10坎寧安三雙

      醉臥浮生
      2026-05-10 05:54:31
      黃瓜立大功?醫(yī)生發(fā)現(xiàn):經(jīng)常吃黃瓜的人,不出半年,或有4大改善

      黃瓜立大功?醫(yī)生發(fā)現(xiàn):經(jīng)常吃黃瓜的人,不出半年,或有4大改善

      芹姐說生活
      2026-05-09 21:08:03
      一張照片 認(rèn)出了楊冪 認(rèn)出了李冰冰 唯獨沒有認(rèn)出站在C位的美女是誰

      一張照片 認(rèn)出了楊冪 認(rèn)出了李冰冰 唯獨沒有認(rèn)出站在C位的美女是誰

      喜歡歷史的阿繁
      2026-05-10 02:05:40
      37死51傷!瀏陽煙花廠爆炸:被傳喚到案的8人浮出水面,照片曝出

      37死51傷!瀏陽煙花廠爆炸:被傳喚到案的8人浮出水面,照片曝出

      博士觀察
      2026-05-09 13:39:12
      最新 | 29歲網(wǎng)紅去世!竟因這個癌癥!你一定要知道......

      最新 | 29歲網(wǎng)紅去世!竟因這個癌癥!你一定要知道......

      天津廣播
      2026-05-10 08:44:21
      他套現(xiàn)百億,留下27萬股民和一張ST廢紙,聞泰科技給投資者上了一課

      他套現(xiàn)百億,留下27萬股民和一張ST廢紙,聞泰科技給投資者上了一課

      A活著
      2026-05-09 20:47:26
      我穿便裝到妻子家過年,被廳長大舅哥使喚,警衛(wèi)員送來文件他愣了

      我穿便裝到妻子家過年,被廳長大舅哥使喚,警衛(wèi)員送來文件他愣了

      千秋文化
      2026-05-08 10:29:06
      普京:伊朗戰(zhàn)事讓俄羅斯“處境復(fù)雜”

      普京:伊朗戰(zhàn)事讓俄羅斯“處境復(fù)雜”

      環(huán)球網(wǎng)資訊
      2026-05-10 06:56:42
      里外不是人!“黃鵝粉雇傭兵”被烏克蘭俘虜,爹不親娘不收沒人要

      里外不是人!“黃鵝粉雇傭兵”被烏克蘭俘虜,爹不親娘不收沒人要

      瑜說還休
      2026-05-09 12:03:06
      伊朗宣布:沒收262處“叛國者”房產(chǎn)!霍梅尼之孫:最高領(lǐng)袖正全面掌握國家事務(wù);美軍稱繼續(xù)對伊海上封鎖,英國將派遣艦艇參加護(hù)航行動

      伊朗宣布:沒收262處“叛國者”房產(chǎn)!霍梅尼之孫:最高領(lǐng)袖正全面掌握國家事務(wù);美軍稱繼續(xù)對伊海上封鎖,英國將派遣艦艇參加護(hù)航行動

      每日經(jīng)濟(jì)新聞
      2026-05-10 00:12:09
      笑死!比亞迪 “青蛙車”全網(wǎng)爆火,網(wǎng)友調(diào)侃:喇叭必須是 “呱呱呱”

      笑死!比亞迪 “青蛙車”全網(wǎng)爆火,網(wǎng)友調(diào)侃:喇叭必須是 “呱呱呱”

      品牌新
      2026-05-09 16:55:51
      南寧一群眾到法院申請立案被法警群毆斷兩根肋骨!警方:不予立案

      南寧一群眾到法院申請立案被法警群毆斷兩根肋骨!警方:不予立案

      兵叔評說
      2026-05-09 13:21:06
      2026-05-10 10:48:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      12597文章數(shù) 176461關(guān)注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      媒體:高市要建日版"中情局" 不僅是為重啟"軍國主義"

      頭條要聞

      媒體:高市要建日版"中情局" 不僅是為重啟"軍國主義"

      體育要聞

      成立128年后,這支升班馬首奪頂級聯(lián)賽冠軍

      娛樂要聞

      消失已久的陳寶國,近況曝光惹人揪心

      財經(jīng)要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態(tài)度原創(chuàng)

      家居
      親子
      教育
      本地
      房產(chǎn)

      家居要聞

      菁英人居 全能豪宅

      親子要聞

      母親節(jié),當(dāng)我厚著臉皮,去找寶寶要驚喜

      教育要聞

      特級教師陳紅梅:打造一間“具身交互”的讀寫教室

      本地新聞

      用蘇繡的方式,打開江西婺源

      房產(chǎn)要聞

      低價甩賣!海口這個地標(biāo)商業(yè),無人接盤!

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 日韩精品一区二区三区中文无码 | 全球顶级metart裸体自慰全部| 亚洲人成人无码www| 亚洲精品乱码久久久久| 法国白嫩大屁股xxxx| 九九热视频这里免费看| 中文字幕亚洲综合久久| 丝袜美女二区| 国产在线精品福利一区二区三区| 无码AV动漫精品一区二区免费| 成人网站免费在线观看| 亚洲一区二区三区激情在线 | 久久一日本道色综合久久| 日韩AV无码午夜免费福利制服| 亚洲天堂无码高清| av一区二区亚洲精品| 狠狠色综合久久狠狠色综合| 99久久成人亚洲精品观看| 超碰性爱| 天天干-天天日| 亚洲无码一区在线观看| 色色午夜天| 国产精品九九九一区二区| 91人妻论坛| 国产成人精品无人区一区| 另类国产ts人妖合集| 欧美特大特白屁股ass| 国产亚洲精品一区二区无| 国产一区日韩二区三区| 亚洲精品成人区在线观看| 51精品视频一区二区三区| 成人三级一区二区三区| 久久精品国产6699国产精| 色狠狠色噜噜AV一区| 狼色精品人妻在线视频| 蜜臀av亚洲一区二区| 老司机在线视频导航 | 麻豆乱码国产一区二区三区| 亚洲中文字幕在线无码一区二区| 精品国产AⅤ一区二区三区V免费 | 国产亚洲视频在线观看|