<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      GLM-5技術(shù)報(bào)告精讀:多步任務(wù)強(qiáng)化學(xué)習(xí),如何訓(xùn)出最好的開(kāi)源編程Agent

      0
      分享至

      智譜最近站在了風(fēng)口浪尖上。

      1月8日港股上市,45天市值漲了超500%,一度突破3200億港元。


      資本市場(chǎng)的熱度還沒(méi)消化完,技術(shù)社區(qū)又炸了——智譜GLM-5技術(shù)報(bào)告公開(kāi),40頁(yè),把這款模型如何從「AI輔助寫代碼」進(jìn)化到「自主完成工程任務(wù)」的底層路徑,完整交出來(lái)了。

      a16z最近發(fā)了一張圖,表示開(kāi)源模型和閉源模型的差距正在快速縮小,GLM-5作為現(xiàn)階段最好的開(kāi)源模型,已經(jīng)極大拉小了和Claude Opus 4.6的距離。


      說(shuō)起來(lái),過(guò)去兩個(gè)月我寫了四篇論文解讀——全是DeepSeek的。R1從22頁(yè)擴(kuò)到86頁(yè)那篇、mHC殘差連接那篇、Engram記憶論文那篇、OCR 2視覺(jué)因果流那篇。寫到后來(lái)我自己都在想,是不是要改名叫「DeepSeek論文博主」了。

      所以這次換一家。2月17日,智譜發(fā)了GLM-5的技術(shù)報(bào)告,40頁(yè),標(biāo)題挺有意思:「GLM-5: from Vibe Coding to Agentic Engineering」——從氛圍編程到智能體工程。


      之前我寫過(guò)一篇GLM-5的體驗(yàn)文章(從GLM-4.5到GLM-5,我見(jiàn)證了一個(gè)模型從碼農(nóng)晉升為架構(gòu)師),聊的是使用感受。這次不一樣,我想認(rèn)認(rèn)真真地把這40頁(yè)論文拆開(kāi),看看里面到底寫了什么。

      先看成績(jī)單

      GLM-5的規(guī)格:744B總參數(shù),MoE架構(gòu),256個(gè)專家每次激活8個(gè),實(shí)際推理時(shí)活躍參數(shù)約40B。預(yù)訓(xùn)練數(shù)據(jù)28.5T tokens,成績(jī)確實(shí)猛。

      Artificial Analysis的Intelligence Index拿了50分,開(kāi)源模型首次達(dá)到這個(gè)水平。


      SWE-bench Verified 77.8%,開(kāi)源最高。BrowseComp(聯(lián)網(wǎng)檢索,配合上下文管理)75.9%和MCP-Atlas(工具調(diào)用)67.8%,論文稱是全模型最高——不是開(kāi)源最高,是包括Opus、GPT、Gemini在內(nèi)所有模型里的最高。


      論文里還有一個(gè)自研的CC-Bench-V2評(píng)測(cè),包含前端開(kāi)發(fā)、后端開(kāi)發(fā)和長(zhǎng)周期Agent三類任務(wù)。在這個(gè)基準(zhǔn)上,GLM-5整體和Claude Opus 4.5接近。論文很坦誠(chéng)地承認(rèn)了一些不如Opus的地方——比如需要極強(qiáng)審美判斷的前端任務(wù)。這種坦誠(chéng)在技術(shù)報(bào)告里不多見(jiàn),至少說(shuō)明數(shù)據(jù)可信度比較高。

      成績(jī)單到這里,一個(gè)問(wèn)題自然冒出來(lái):資本市場(chǎng)和技術(shù)社區(qū)為什么同時(shí)這么看好GLM-5?

      我覺(jué)得有兩個(gè)層面。

      第一個(gè)是定位。論文標(biāo)題說(shuō)得很直白:from Vibe Coding to Agentic Engineering。翻譯過(guò)來(lái)就是,從「程序員用AI輔助寫代碼」變成「Agent 7×24小時(shí)自主完成工程任務(wù)」。之前的AI編程是人在循環(huán)里——人提需求、AI寫代碼、人檢查、人修改。Agentic Engineering是把人從循環(huán)里拿出來(lái),Agent自己規(guī)劃、自己寫、自己測(cè)、自己改bug。

      這個(gè)轉(zhuǎn)變意味著什么?意味著AI消耗token的方式從「一次性對(duì)話」變成了「持續(xù)運(yùn)轉(zhuǎn)」。一個(gè)Coding Agent跑一個(gè)SWE-bench任務(wù)可能要消耗幾萬(wàn)甚至幾十萬(wàn)token。當(dāng)Agent成為主要的token消費(fèi)者,誰(shuí)的模型最適合做Agent,誰(shuí)就占據(jù)了最大的商業(yè)想象力。GLM-5就是沖著這個(gè)定位去的。

      第二個(gè)是技術(shù)。讀完40頁(yè)論文,我發(fā)現(xiàn)GLM-5的創(chuàng)新主要集中在兩個(gè)階段:預(yù)訓(xùn)練階段有兩個(gè)巧妙的工程改進(jìn),后訓(xùn)練階段有一套完整的Agent RL訓(xùn)練體系。后者是重頭戲,但前者也值得先說(shuō)。


      預(yù)訓(xùn)練:兩個(gè)巧妙的工程改進(jìn)

      第一個(gè):讓兩個(gè)好工具一起工作。

      GLM-5同時(shí)用了兩項(xiàng)技術(shù):MLA(一種壓縮記憶的方法,省顯存)和Muon(一種更快的訓(xùn)練優(yōu)化器)。各自都是好東西,但放在一起會(huì)打架。

      打個(gè)比方:MLA的工作方式是把所有信息打包成一個(gè)壓縮包,整體處理。Muon的工作方式是把信息拆開(kāi),一份一份獨(dú)立優(yōu)化。一個(gè)要打包,一個(gè)要拆包,硬放一起訓(xùn)練效果就變差。

      智譜的解法很樸素——在中間加一步:先把壓縮包拆開(kāi)讓Muon逐份優(yōu)化,優(yōu)化完再打包回去給MLA用。論文里管這個(gè)叫Muon Split。實(shí)驗(yàn)數(shù)據(jù)顯示,這一拆一合確實(shí)改善了訓(xùn)練效果。


      第二個(gè):共享參數(shù)的多步預(yù)測(cè)。

      MTP是一種加速推理的技術(shù)——讓模型一次預(yù)測(cè)接下來(lái)的多個(gè)詞,而不是一個(gè)一個(gè)蹦。DeepSeek用1個(gè)預(yù)測(cè)層來(lái)做這件事。GLM-5更大膽:用3個(gè)預(yù)測(cè)層,但讓這3層共享同一套參數(shù)。

      直覺(jué)上,3個(gè)獨(dú)立的預(yù)測(cè)層應(yīng)該更強(qiáng)——各自專精嘛。但共享參數(shù)的方案逼著模型學(xué)會(huì)一種更通用的「多步預(yù)測(cè)能力」。就像下棋,一個(gè)人用同一套棋理連想三步,比三個(gè)人各想一步更連貫。

      測(cè)試數(shù)據(jù)也證實(shí)了這一點(diǎn):同樣的推理步數(shù)下,GLM-5每次預(yù)測(cè)被接受的詞數(shù)比DeepSeek多約8%,推理更快。

      這兩個(gè)改進(jìn)都不是會(huì)上頭條的大突破。但做法本身說(shuō)明一件事:光用好技術(shù)不夠,還得讓這些技術(shù)在一起配合得好。

      后訓(xùn)練的重頭戲:Slime異步Agent RL

      預(yù)訓(xùn)練的改進(jìn)偏「小而美」。后訓(xùn)練階段才是GLM-5真正的主戰(zhàn)場(chǎng),其中最核心的創(chuàng)新是異步Agent RL框架,智譜內(nèi)部叫「Slime」。


      如果說(shuō)DeepSeek的GRPO讓整個(gè)行業(yè)記住了一種新的強(qiáng)化學(xué)習(xí)優(yōu)化方式,那Slime要解決的問(wèn)題更往前一步——不是「怎么優(yōu)化RL」,而是「怎么讓Agent RL大規(guī)模跑得起來(lái)」。這可能是整篇論文里信息密度最高、也最有行業(yè)價(jià)值的部分。

      先解釋為什么Agent RL特別難。

      傳統(tǒng)的RL訓(xùn)練是這樣的:模型生成一段文本(比如做一道數(shù)學(xué)題),環(huán)境給個(gè)分?jǐn)?shù),模型根據(jù)分?jǐn)?shù)調(diào)整參數(shù)。整個(gè)過(guò)程很快,因?yàn)椤干纱鸢浮购汀复蚍帧苟伎梢栽贕PU集群內(nèi)部完成。

      但Agent RL不一樣。模型不是在做一道題,而是在執(zhí)行一個(gè)完整的任務(wù)——比如修復(fù)GitHub上的一個(gè)bug。這意味著模型需要讀代碼、寫代碼、運(yùn)行測(cè)試、看報(bào)錯(cuò)信息、再修改。這個(gè)過(guò)程可能需要幾十輪對(duì)話,每輪都要調(diào)用外部工具(代碼編輯器、終端、瀏覽器)。

      一個(gè)SWE-bench任務(wù)的rollout(從頭到尾跑完一個(gè)任務(wù))可能要花幾分鐘甚至幾十分鐘。而傳統(tǒng)的數(shù)學(xué)推理RL,一次rollout只要幾秒。

      這就造成了一個(gè)嚴(yán)重的效率問(wèn)題。在Agent RL場(chǎng)景下,絕大部分訓(xùn)練時(shí)間都花在了rollout generation上。GPU集群的大部分時(shí)間都在等——等外部工具返回結(jié)果。

      傳統(tǒng)的同步RL框架(比如OpenRLHF、verl)解決不了這個(gè)問(wèn)題,因?yàn)樗鼈兗僭O(shè)生成和訓(xùn)練是緊耦合的:生成一批、訓(xùn)練一批、再生成一批。當(dāng)生成要等幾十分鐘時(shí),整個(gè)訓(xùn)練流水線就卡住了。

      智譜的解法是完全解耦生成和訓(xùn)練。

      Slime框架的架構(gòu)是這樣的:

      Rollout服務(wù)器集群:一堆獨(dú)立的服務(wù)器,每臺(tái)負(fù)責(zé)執(zhí)行一個(gè)Agent任務(wù)(讀代碼、調(diào)終端、跑測(cè)試)。它們有自己獨(dú)立的GPU做推理,任務(wù)跑完就把trajectory(完整的執(zhí)行軌跡)發(fā)回來(lái)。

      訓(xùn)練集群:另一堆GPU,只負(fù)責(zé)根據(jù)收到的trajectory做參數(shù)更新。不等,有數(shù)據(jù)就訓(xùn)練。

      TITO網(wǎng)關(guān)(Token-In-Token-Out):這是一個(gè)很巧妙的中間層。它接收外部服務(wù)器發(fā)來(lái)的文本,用當(dāng)前版本的分詞器轉(zhuǎn)成token,再發(fā)給模型。模型返回的token也由它轉(zhuǎn)回文字。

      TITO為什么重要?因?yàn)樵诋惒絉L里,rollout服務(wù)器上跑的模型版本可能和訓(xùn)練集群上的不一樣——你生成的時(shí)候是v1.3,等你的數(shù)據(jù)到了訓(xùn)練集群,模型可能已經(jīng)更新到v1.5了。如果直接拿v1.3的token去給v1.5的模型訓(xùn)練,分詞器都可能對(duì)不上(比如v1.5新加了特殊token),就會(huì)出錯(cuò)。

      TITO網(wǎng)關(guān)通過(guò)統(tǒng)一的文本中間層解決了這個(gè)問(wèn)題:不管你哪個(gè)版本生成的,我都先轉(zhuǎn)成文本,再用當(dāng)前訓(xùn)練版本的分詞器重新編碼。保證token永遠(yuǎn)和模型版本匹配。

      另一個(gè)問(wèn)題是off-policy數(shù)據(jù)的穩(wěn)定性。因?yàn)樯珊陀?xùn)練不同步,訓(xùn)練集群收到的數(shù)據(jù)可能來(lái)自好幾個(gè)歷史版本的模型。用歷史版本的數(shù)據(jù)訓(xùn)練當(dāng)前版本的模型,如果不加處理,訓(xùn)練會(huì)不穩(wěn)定甚至崩潰。

      智譜用了一個(gè)叫「雙側(cè)重要性采樣」的方法來(lái)處理。傳統(tǒng)重要性采樣只用一個(gè)比率(舊策略vs新策略的概率比),Slime用兩個(gè):一個(gè)控制token級(jí)別的重要性權(quán)重,一個(gè)控制整個(gè)樣本級(jí)別的。兩個(gè)一起用,既保證了數(shù)據(jù)利用效率,又不會(huì)因?yàn)槟硞€(gè)極端樣本把訓(xùn)練帶跑偏。

      這整套系統(tǒng)不是論文里隨便寫寫的。智譜已經(jīng)把Slime框架開(kāi)源了(github.com/THUDM/slime) ,任何團(tuán)隊(duì)都可以直接用。

      拆開(kāi)來(lái)看,Slime的貢獻(xiàn)其實(shí)是兩層的:底層是異步RL基礎(chǔ)設(shè)施——把生成和訓(xùn)練徹底解耦,讓GPU不再干等;上層是異步Agent RL算法——TITO網(wǎng)關(guān)和雙側(cè)重要性采樣,讓異步訓(xùn)練在數(shù)學(xué)上也站得住腳。基礎(chǔ)設(shè)施解決「跑得起來(lái)」,算法解決「跑得穩(wěn)當(dāng)」。

      我覺(jué)得這是GLM-5論文里最值得關(guān)注的創(chuàng)新。所有想做Agent的團(tuán)隊(duì)都知道Agent RL效果好,但傳統(tǒng)同步框架讓訓(xùn)練效率低到不可接受。Slime給出了第一個(gè)系統(tǒng)級(jí)的解法。這件事的意義,可能要等更多團(tuán)隊(duì)用上這個(gè)框架之后才能完全顯現(xiàn)。

      三階段RL:順序決定命運(yùn)

      異步RL解決了效率問(wèn)題。但還有一個(gè)更根本的問(wèn)題:你要讓模型學(xué)什么?

      GLM-5的RL訓(xùn)練分三個(gè)階段,順序很講究:

      第一階段:Reasoning RL——教模型「想」。用MATH、AIME、代碼競(jìng)賽這些有明確對(duì)錯(cuò)的任務(wù)來(lái)訓(xùn)練。這個(gè)階段的目標(biāo)是建立基礎(chǔ)推理能力。

      第二階段:Agentic RL——教模型「做」。用SWE任務(wù)(修復(fù)真實(shí)GitHub bug)、終端任務(wù)、多跳搜索任務(wù)這些長(zhǎng)周期Agent任務(wù)來(lái)訓(xùn)練。這個(gè)階段用的就是前面說(shuō)的Slime框架。

      第三階段:General RL——教模型「當(dāng)人」。用開(kāi)放對(duì)話、創(chuàng)意寫作、角色扮演這些任務(wù)來(lái)訓(xùn)練。這個(gè)階段讓模型不只是一臺(tái)推理機(jī)器,還是一個(gè)有品味、有性格的對(duì)話伙伴。


      為什么順序重要?

      因?yàn)楹竺娴碾A段會(huì)讓模型忘掉前面學(xué)到的東西。這個(gè)問(wèn)題在機(jī)器學(xué)習(xí)里叫「災(zāi)難性遺忘」。你訓(xùn)練模型學(xué)會(huì)了修bug,再訓(xùn)練它聊天寫作,它修bug的能力就可能退化。

      就像一個(gè)人去學(xué)了烹飪,不代表他會(huì)忘記開(kāi)車。但對(duì)于神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),這種遺忘是真實(shí)存在的。

      GLM-5的解法叫「On-Policy Cross-Stage Distillation」(在線跨階段蒸餾)。做法是:在第二階段訓(xùn)練時(shí),同時(shí)用第一階段的最佳模型作為「老師」,讓學(xué)生模型在學(xué)新技能的同時(shí)保持舊技能。第三階段同理。

      論文里給了具體數(shù)據(jù):沒(méi)有蒸餾時(shí),從Agentic RL進(jìn)入General RL階段后,SWE-bench得分從77.8%掉到73.2%。用了跨階段蒸餾后,基本不掉分。

      這個(gè)技巧挺實(shí)用的。我之前寫DeepSeek R1論文解讀時(shí)提到過(guò),R1團(tuán)隊(duì)也遇到了RL訓(xùn)練導(dǎo)致能力退化的問(wèn)題,他們的做法是在訓(xùn)練數(shù)據(jù)里混入歷史數(shù)據(jù)。GLM-5的蒸餾方案更系統(tǒng)——不只是混數(shù)據(jù),而是讓當(dāng)前模型持續(xù)向歷史最佳版本學(xué)習(xí)。

      Agent場(chǎng)景下的三種思考模式

      RL訓(xùn)練之外,GLM-5在推理策略上也有自己的設(shè)計(jì)。

      傳統(tǒng)的「思考型模型」(比如DeepSeek R1、o1)在回答之前會(huì)先做一段長(zhǎng)長(zhǎng)的內(nèi)部推理,放在 標(biāo)簽里。這種模式對(duì)數(shù)學(xué)題和編程題很有效。

      但Agent任務(wù)不一樣。Agent需要執(zhí)行很多輪對(duì)話——讀文件、改代碼、跑測(cè)試、看結(jié)果、再改。如果每一輪都做一大段思考,上下文窗口很快就被撐爆了。

      GLM-5設(shè)計(jì)了三種思考模式來(lái)應(yīng)對(duì)不同場(chǎng)景:

      Interleaved Thinking(交錯(cuò)思考):每輪對(duì)話都思考,但思考內(nèi)容比較短。適合需要持續(xù)推理的場(chǎng)景。

      Preserved Thinking(保留思考):只在第一輪做深度思考,后續(xù)輪次直接執(zhí)行。思考內(nèi)容會(huì)保留在上下文中供后續(xù)參考。適合任務(wù)明確、執(zhí)行步驟多的場(chǎng)景。

      Turn-level Thinking(輪次級(jí)思考):每輪獨(dú)立思考,但不保留歷史思考內(nèi)容——上一輪的 在下一輪會(huì)被清除。適合上下文緊張的長(zhǎng)任務(wù)。


      這三種模式的切換是通過(guò)系統(tǒng)提示詞來(lái)控制的。論文里給了一個(gè)有意思的實(shí)驗(yàn):在SWE-bench任務(wù)上,Turn-level Thinking的效果比Interleaved Thinking好約2個(gè)百分點(diǎn)。原因是SWE-bench需要很多輪交互,Interleaved模式的思考內(nèi)容太多會(huì)擠占真正有用的代碼和報(bào)錯(cuò)信息。

      這種設(shè)計(jì)挺實(shí)用的。核心不是「思考越多越好」,而是「什么時(shí)候該想、什么時(shí)候該干活,得分場(chǎng)景」。

      一個(gè)有意思的細(xì)節(jié)

      論文里還有一個(gè)有趣的案例值得單獨(dú)拎出來(lái)。

      幻燈片生成的多層獎(jiǎng)勵(lì)。GLM-5能生成PPT幻燈片(通過(guò)寫HTML/CSS再渲染)。訓(xùn)練這個(gè)能力時(shí),獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)分了三層:

      第一層是靜態(tài)檢查——HTML代碼有沒(méi)有語(yǔ)法錯(cuò)誤、CSS屬性用得對(duì)不對(duì)。

      第二層是渲染檢查——渲染出來(lái)的頁(yè)面字有沒(méi)有溢出、元素有沒(méi)有重疊。這需要用Playwright把HTML渲染成圖片再檢查。

      第三層是視覺(jué)感知——用另一個(gè)VLM(視覺(jué)語(yǔ)言模型)來(lái)評(píng)價(jià)渲染結(jié)果好不好看。

      但這里出了一個(gè)經(jīng)典的reward hacking問(wèn)題:模型學(xué)會(huì)了一種「作弊」方式來(lái)騙取高分——用純黑背景加白色文字。因?yàn)榧兒诒尘吧习鬃值膶?duì)比度最高,VLM評(píng)判時(shí)容易給高分。但生成出來(lái)的PPT全是黑底白字,完全沒(méi)有設(shè)計(jì)感。

      智譜的修復(fù)方案是在第三層獎(jiǎng)勵(lì)里引入?yún)⒖蓟脽羝瑢?duì)比——不只是問(wèn)「好不好看」,而是問(wèn)「跟優(yōu)秀案例比怎么樣」。

      這種reward hacking的故事在RL文獻(xiàn)里很常見(jiàn),但每次看到具體案例還是覺(jué)得有趣。它說(shuō)明了一件事:訓(xùn)練AI的難度不在于讓它「做到」,而在于讓它「做對(duì)」。

      國(guó)產(chǎn)芯片適配:不只是一句口號(hào)

      論文里有一章專門寫了國(guó)產(chǎn)芯片適配。GLM-5從發(fā)布之初就原生適配了國(guó)產(chǎn)GPU生態(tài),覆蓋7家主流芯片平臺(tái):華為昇騰、摩爾線程、海光、寒武紀(jì)、昆侖芯、沐曦、燧原。

      不少媒體在報(bào)道這件事時(shí)就寫了一句「全棧國(guó)產(chǎn)」然后帶過(guò)。但論文里的細(xì)節(jié)比這豐富得多。

      以華為昇騰Atlas系列為例,智譜做了從量化到推理引擎的全鏈路優(yōu)化——W4A8混合精度量化讓單臺(tái)服務(wù)器裝下750B參數(shù),定制融合算子解決稀疏注意力的計(jì)算瓶頸,深度適配vLLM-Ascend和SGLang兩大推理引擎。最終效果是:GLM-5在單臺(tái)國(guó)產(chǎn)算力節(jié)點(diǎn)上的推理性能,足以媲美兩臺(tái)國(guó)際主流GPU集群。

      7家芯片的架構(gòu)各不相同,指令集不同,編程模型不同。要在7個(gè)平臺(tái)上都能跑GLM-5,意味著很多底層算子得重寫7遍。這不是什么「突破性創(chuàng)新」,但它是實(shí)打?qū)嵉墓こ炭嗷睢?/p>

      我之前寫DeepSeek論文解讀時(shí)提過(guò)一個(gè)觀察:DeepSeek的很多技術(shù)突破其實(shí)是「工程驅(qū)動(dòng)」而非「理論驅(qū)動(dòng)」的——他們不是先想到一個(gè)新理論再去實(shí)驗(yàn),而是在工程實(shí)踐中遇到問(wèn)題、被迫想出解決方案。

      智譜在國(guó)產(chǎn)芯片上的適配也是同樣的邏輯。你也可以說(shuō)是「不得不用」,但這個(gè)約束倒逼出了一套跨芯片的工程能力,長(zhǎng)遠(yuǎn)來(lái)看反而是競(jìng)爭(zhēng)優(yōu)勢(shì)。

      回到開(kāi)頭的問(wèn)題:GLM-5到底做了什么創(chuàng)新?

      預(yù)訓(xùn)練階段,Muon Split讓MLA和Muon優(yōu)化器兼容工作,共享參數(shù)MTP把推理速度往上拉了一截。后訓(xùn)練階段是真正的重頭戲——Slime異步RL框架解決了Agent訓(xùn)練的效率瓶頸,三階段RL配合跨階段蒸餾防止能力遺忘,三種思考模式適配不同Agent場(chǎng)景。這些創(chuàng)新指向同一個(gè)方向:怎么把一個(gè)好底座訓(xùn)成一個(gè)好Agent。

      這恰好是2025-2026年整個(gè)行業(yè)的核心戰(zhàn)場(chǎng)。架構(gòu)層面趨同之后,真正拉開(kāi)差距的是Post-Training——怎么做RL、怎么訓(xùn)Agent、怎么防遺忘、怎么設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。GLM-5在這個(gè)戰(zhàn)場(chǎng)上拿出了自己的解法,而且把核心框架Slime開(kāi)源了出去,下一個(gè)團(tuán)隊(duì)可以直接站在這個(gè)起點(diǎn)出發(fā)。

      744B參數(shù),28.5T tokens訓(xùn)練,原生適配國(guó)產(chǎn)芯片生態(tài),核心創(chuàng)新開(kāi)源回饋社區(qū)。這篇40頁(yè)的技術(shù)報(bào)告,值得認(rèn)真讀。

      論文鏈接:https://arxiv.org/abs/2602.15763

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      張本智和腸子悔青!8-3領(lǐng)先叫暫停,反被梁靖崑連得8分打崩

      張本智和腸子悔青!8-3領(lǐng)先叫暫停,反被梁靖崑連得8分打崩

      觀星娛記
      2026-05-11 11:28:30
      “孕婦泰國(guó)墜崖案”當(dāng)事人王暖暖解約,她一個(gè)人總是很慘

      “孕婦泰國(guó)墜崖案”當(dāng)事人王暖暖解約,她一個(gè)人總是很慘

      九方魚(yú)論
      2026-05-11 12:47:23
      涉漢坦病毒郵輪乘客陸續(xù)疏散歸國(guó) 世衛(wèi)組織:全球傳播風(fēng)險(xiǎn)“低”

      涉漢坦病毒郵輪乘客陸續(xù)疏散歸國(guó) 世衛(wèi)組織:全球傳播風(fēng)險(xiǎn)“低”

      財(cái)聯(lián)社
      2026-05-11 11:32:14
      0-4恥辱出局!布倫森就是恩比德的嚴(yán)父,76人被罵都是群軟貨

      0-4恥辱出局!布倫森就是恩比德的嚴(yán)父,76人被罵都是群軟貨

      聽(tīng)我說(shuō)球
      2026-05-11 09:43:11
      失眠真兇竟是缺鎂!扔掉牛奶蜂蜜,吃這2物酣睡到天亮

      失眠真兇竟是缺鎂!扔掉牛奶蜂蜜,吃這2物酣睡到天亮

      今日養(yǎng)生之道
      2026-05-10 20:13:01
      抓了那么多貪官,錢呢?跟我們有關(guān)系嗎?

      抓了那么多貪官,錢呢?跟我們有關(guān)系嗎?

      細(xì)說(shuō)職場(chǎng)
      2026-05-08 22:15:45
      iPhone系統(tǒng)垃圾一鍵清理,26G變8G,告別卡頓超耐用

      iPhone系統(tǒng)垃圾一鍵清理,26G變8G,告別卡頓超耐用

      小柱解說(shuō)游戲
      2026-04-28 16:31:31
      比TNT廉價(jià),比石油致命:白糖憑什么成為人類文明最危險(xiǎn)戰(zhàn)略物資

      比TNT廉價(jià),比石油致命:白糖憑什么成為人類文明最危險(xiǎn)戰(zhàn)略物資

      丁丁鯉史紀(jì)
      2026-05-05 10:33:14
      臺(tái)灣省人均GDP四萬(wàn)美元,超過(guò)日韓,但為什么給人感覺(jué)比較落后

      臺(tái)灣省人均GDP四萬(wàn)美元,超過(guò)日韓,但為什么給人感覺(jué)比較落后

      狐貍先森講升學(xué)規(guī)劃
      2026-05-06 05:35:03
      熱搜上那個(gè)“白嫖榴蓮”事件,作惡者真實(shí)身份讓人驚訝……

      熱搜上那個(gè)“白嫖榴蓮”事件,作惡者真實(shí)身份讓人驚訝……

      桌子的生活觀
      2026-05-11 12:12:44
      研究表明:性生活次數(shù)不達(dá)標(biāo),不管男女容易早衰且癌癥風(fēng)險(xiǎn)增高!

      研究表明:性生活次數(shù)不達(dá)標(biāo),不管男女容易早衰且癌癥風(fēng)險(xiǎn)增高!

      番外行
      2026-05-11 08:49:20
      官宣!19歲全紅嬋全面退賽,背后緣由不簡(jiǎn)單,印證父親的擔(dān)憂

      官宣!19歲全紅嬋全面退賽,背后緣由不簡(jiǎn)單,印證父親的擔(dān)憂

      看盡落塵花q
      2026-05-09 14:29:21
      別罵巴爾韋德了!皇馬真正擺爛巨星曝光,他正親手毀掉傳奇

      別罵巴爾韋德了!皇馬真正擺爛巨星曝光,他正親手毀掉傳奇

      瀾歸序
      2026-05-11 00:51:39
      “這環(huán)境,咋敢生孩子?”女孩因充電器被碰掉絕食,窮人家的公主

      “這環(huán)境,咋敢生孩子?”女孩因充電器被碰掉絕食,窮人家的公主

      妍妍教育日記
      2026-05-09 13:31:49
      OPPO就母親節(jié)文案致歉后,段永平、武漢大學(xué)及廣告協(xié)會(huì)相繼發(fā)聲

      OPPO就母親節(jié)文案致歉后,段永平、武漢大學(xué)及廣告協(xié)會(huì)相繼發(fā)聲

      界面新聞
      2026-05-11 12:33:18
      當(dāng)年的嶺南首府,宋徽宗封地,如今卻成了珠三角最落寞的城市

      當(dāng)年的嶺南首府,宋徽宗封地,如今卻成了珠三角最落寞的城市

      抽象派大師
      2026-05-05 15:31:50
      毛主席遺體防腐每年耗費(fèi)巨資,永久保存水晶棺純度高達(dá)99.9999%

      毛主席遺體防腐每年耗費(fèi)巨資,永久保存水晶棺純度高達(dá)99.9999%

      時(shí)分秒說(shuō)
      2026-05-07 16:00:09
      7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

      7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

      拳擊時(shí)空
      2026-04-16 06:04:48
      演員拍這種全身濕透的吻戲,要是起反應(yīng)了,會(huì)不會(huì)很尷尬?

      演員拍這種全身濕透的吻戲,要是起反應(yīng)了,會(huì)不會(huì)很尷尬?

      老吳教育課堂
      2026-05-11 08:40:10
      3小時(shí)!40人!印度炸出一條震撼國(guó)際的暗訪猛料!

      3小時(shí)!40人!印度炸出一條震撼國(guó)際的暗訪猛料!

      安安說(shuō)
      2026-05-10 11:18:13
      2026-05-11 13:35:00
      AI進(jìn)化論花生 incentive-icons
      AI進(jìn)化論花生
      AI博主,AppStore付費(fèi)榜第一的小貓補(bǔ)光燈app開(kāi)發(fā)者
      200文章數(shù) 112關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機(jī)會(huì)

      頭條要聞

      姑娘海底撈吃完飯?jiān)舛嗝凶託?兩顆門牙被一拳打斷

      頭條要聞

      姑娘海底撈吃完飯?jiān)舛嗝凶託?兩顆門牙被一拳打斷

      體育要聞

      那個(gè)曾讓詹姆斯抱頭的兄弟,40歲從大學(xué)畢業(yè)了

      娛樂(lè)要聞

      謝霆鋒沒(méi)想到,王菲靠張藝謀重返巔峰

      財(cái)經(jīng)要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      全球化成國(guó)內(nèi)車企未來(lái)勝負(fù)手,誰(shuí)是出海最強(qiáng)"水手"?

      態(tài)度原創(chuàng)

      教育
      時(shí)尚
      健康
      家居
      軍事航空

      教育要聞

      奔赴一場(chǎng)英法教育之旅,遇見(jiàn)更好的未來(lái)

      輕松拿捏又甜又酷的造型,試試這些輕熟穿搭,溫柔有女人味兒

      干細(xì)胞能讓人“返老還童”嗎

      家居要聞

      多元生活 此處無(wú)聲

      軍事要聞

      伊朗革命衛(wèi)隊(duì)深夜警告

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 97超碰中文字幕久久精品| 麻豆蜜桃av蜜臀av色欲av| 婷婷五月色| 色偷偷女人的天堂亚洲网| 在线无码免费看黄网站| 99视频精品全部国产| 亚洲中文字幕一区二区| 日本中文字幕有码高清| 日韩精品极品视频在线观看蜜桃| 亚洲日韩av无码一区二区三区| 亚洲一区二区不卡av| 人妻精品动漫H无码中字| 最新中文字幕国产精品| 久久精品国产久精国产果冻传媒| 日韩在线免费观看毛片| 中文字幕日韩精品人妻| 在线 欧美 中文 亚洲 精品| 国产男女黄视频在线观看| 亚洲无码丝袜| 久久国产精品波多野结衣| 亚洲 欧美 日韩在线不卡| 永久免费无码AV在线网站| 一本大道中文字幕无码29 | 西和县| 92精品国产自产在线观看481页| 亚洲国产成人久久精品软件| 亚洲中又文字幕精品av| 无码精品人妻| 在线综合亚洲欧美网站| 亚洲日韩精品一区二区三区 | 无码一区二| 亚洲资源站| 精品国产免费人成在线观看| 2020国产欧洲精品网站| 天天爽日日澡AAAA片| 国产精品无码AV在线播放| 久久久精品熟妇丰满人妻99| 欧美色欧美亚洲高清在线观看| 九九热精品免费视频| 狠狠搞狠狠操| 一区二区三区啪偷拍|