網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

不更新參數(shù)就能強(qiáng)化學(xué)習(xí)！翁家翌新范式：決策只需AI寫個.py文件

2026-05-09 16:05:57　來源: 量子位

北京舉報

分享至

聞樂發(fā)自凹非寺
量子位 | 公眾號 QbitAI

沒有訓(xùn)練梯度的AI，打破了Atari游戲滿分紀(jì)錄。

OpenAI核心研究員翁家翌提出了一個強(qiáng)化學(xué)習(xí)新范式——

啟發(fā)式學(xué)習(xí)（Heuristic Learning, HL）

全程無神經(jīng)網(wǎng)絡(luò)訓(xùn)練、無梯度更新，全程靠GPT-5.4驅(qū)動的Codex自主迭代，硬是在經(jīng)典游戲Breakout上打到了864分理論滿分。

與傳統(tǒng)深度強(qiáng)化學(xué)習(xí)優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù)不同，HL不依賴可微權(quán)重存儲策略，而是將決策邏輯遷移到離散程序空間，以代碼編輯替代梯度下降，通過顯式的符號規(guī)則實現(xiàn)狀態(tài)-動作映射。

在游戲、機(jī)器人仿真多項任務(wù)里，該方法性能甚至超過老牌強(qiáng)化學(xué)習(xí)算法PPO。

以程序代碼為載體

傳統(tǒng)深度強(qiáng)化學(xué)習(xí)（DRL）長期默認(rèn)智能體的決策核心必須依托神經(jīng)網(wǎng)絡(luò)實現(xiàn)。

比如在游戲里，當(dāng)觀測到游戲小球位于左側(cè)時，神經(jīng)網(wǎng)絡(luò)通過復(fù)雜映射直接輸出「向左移動」的動作；

但整個決策過程是隱式黑箱的，沒人能清晰拆解內(nèi)部邏輯，只能依賴梯度下降算法盲目迭代擬合。

也正因這種底層架構(gòu)，深度強(qiáng)化學(xué)習(xí)始終難以逾越三大核心瓶頸。

一是災(zāi)難性遺忘。神經(jīng)網(wǎng)絡(luò)以參數(shù)存儲習(xí)得技能，新任務(wù)的梯度迭代會直接覆蓋舊有權(quán)重，無法實現(xiàn)多任務(wù)持續(xù)學(xué)習(xí)。

二是決策黑箱、不可解釋。智能體每一次動作選擇都隱藏在海量網(wǎng)絡(luò)權(quán)重與矩陣運算中，無法追溯決策依據(jù)，也不能人工干預(yù)、拆解邏輯。

三是樣本效率低下。依賴海量環(huán)境交互數(shù)據(jù)完成訓(xùn)練迭代，收斂周期長、算力消耗巨大，整體研發(fā)與落地成本高。

HL的思路很直接，既然參數(shù)更新是問題的根源，那干脆不要參數(shù)。

它把智能體的決策策略從神經(jīng)網(wǎng)絡(luò)的權(quán)重轉(zhuǎn)化為可讀的程序代碼，把學(xué)習(xí)從梯度優(yōu)化變成代碼編輯。

在HL的框架里，AI維護(hù)的不再是單一策略文件，而是一套完整的智能化軟件系統(tǒng)：

顯式的狀態(tài)檢測器（“球在左上方，速度向右”）、顯式的規(guī)則邏輯（“如果球?qū)⒙湓谧髠?cè)，則向左移動”）、還有測試用例、回歸檢查、失敗記錄、版本歷史。

每次迭代，Codex會審視系統(tǒng)表現(xiàn)，閱讀失敗錄像，分析日志，然后做出結(jié)構(gòu)性調(diào)整。

這種范式的關(guān)鍵的優(yōu)勢是：知識是顯式的。

舊能力不會被覆蓋，而是封裝成模塊和測試，隨時可調(diào)用、可驗證、可傳承。

就像翁家翌說的：

HL把持續(xù)學(xué)習(xí)從“如何更新參數(shù)”變成了”如何維護(hù)一個持續(xù)吸收反饋的軟件系統(tǒng)”。

當(dāng)然，HL并不是完全排斥梯度技術(shù)，它內(nèi)部某些組件（如模型預(yù)測控制MPC）仍然會用梯度做局部搜索。

但關(guān)鍵在于這類梯度運算不用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練與參數(shù)更新，僅服務(wù)于實時動作決策。

而且這種架構(gòu)設(shè)計讓HL原生自帶可解釋、抗遺忘、高效率的特性。

Atari滿分，機(jī)器人控制SOTA

不只是拿到Breakout的864分，翁家翌完成了完整的Atari 57大規(guī)模測試（Atari 57是行業(yè)公認(rèn)的強(qiáng)化學(xué)習(xí)基準(zhǔn)測試集，包含57款不同類型的經(jīng)典游戲，覆蓋離散動作空間的各類決策場景）。

每款游戲設(shè)置兩種觀測模式，各自重復(fù)三輪實驗，最終生成342條獨立的智能編碼迭代軌跡。

結(jié)果顯示，在統(tǒng)一環(huán)境交互步數(shù)的前提下，啟發(fā)式學(xué)習(xí)HL的整體中位表現(xiàn)，已經(jīng)和PPO等主流深度強(qiáng)化學(xué)習(xí)算法持平。

在Breakout、Asterix、Jamesbond等多款經(jīng)典游戲中，成績甚至超越人類玩家基準(zhǔn)水平。

相比游戲離散決策，MuJoCo機(jī)器人連續(xù)控制任務(wù)難度更高。

以四足機(jī)器人Ant為例，需要協(xié)同調(diào)控8個關(guān)節(jié)，在高維連續(xù)動作空間中維持動態(tài)平衡。

啟發(fā)式學(xué)習(xí)HL從基礎(chǔ)節(jié)律步態(tài)規(guī)則起步，逐步迭代加入姿態(tài)反饋、觸地信號感知、短程模型預(yù)測等邏輯，最終綜合評分突破6000 分，性能完全對標(biāo)專業(yè)深度強(qiáng)化學(xué)習(xí)模型。

在HalfCheetah獵豹仿真任務(wù)中，HL更是跑出了11836的平均高分，展現(xiàn)出在復(fù)雜連續(xù)控制場景的極強(qiáng)適配能力。

不過翁家翌也沒有回避HL的邊界。

他直言：

在我目前認(rèn)知范圍內(nèi)，我想不出有個agent能搓出一個純Python code、不用神經(jīng)網(wǎng)絡(luò)去解決 ImageNet。

從原始像素中完成目標(biāo)識別、特征抽象，依舊是深度神經(jīng)網(wǎng)絡(luò)不可替代的強(qiáng)項。

而啟發(fā)式學(xué)習(xí)HL的核心價值，集中體現(xiàn)在策略持續(xù)迭代層面，當(dāng)環(huán)境動態(tài)變化、需要長期自適應(yīng)調(diào)整行為邏輯時，顯性化的代碼規(guī)則系統(tǒng)更適配持續(xù)學(xué)習(xí)需求。

所以，當(dāng)下關(guān)鍵的命題在于如何把神經(jīng)網(wǎng)絡(luò)與HL有機(jī)融合，一并攻克在線學(xué)習(xí)與持續(xù)學(xué)習(xí)兩大難題。

翁家翌指出最具落地前景的思路是，依托HL實時處理在線環(huán)境數(shù)據(jù)流，快速沉淀可復(fù)用的在線行為經(jīng)驗；

再將這些顯性經(jīng)驗整理、內(nèi)化，轉(zhuǎn)化為可訓(xùn)練、可回歸、可篩選的高質(zhì)量數(shù)據(jù)集，反過來對神經(jīng)網(wǎng)絡(luò)做周期性迭代更新。

[1]https://x.com/Trinkle23897/status/2052596837547495549
[2]https://trinkle23897.github.io/learning-beyond-gradients

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.