<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      騰訊AI Lab絕唱:30B模型擊敗萬億旗艦,靠的是讓AI學會「預習」

      0
      分享至


      無需人工獎勵,AI自主探索即能進化——解開無獎勵原生自演進之謎。

      作者丨成仲軒

      編輯丨董子博

      從被動響應的“工具”到自主進化的“學徒”,AI Agent 每進化一個階段,都在擺脫一層對人類的依賴。

      如今,隨著 AI Agent 逐步邁入自主進化的全新階段,一場從“人優化 Agent”到“Agent 優化自己”的革命性突破正在發生。無論是大幅降低使用和維護成本,還是讓其能自主應對連設計者都無法提前預料的復雜情況,等等,一個突破了設計者預設的能力邊界的 Agent,究竟能成長到怎樣的地步?不免讓人心潮澎湃。

      尤其在當下 Agentic AI 和 OpenClaw 大行其道的范式里,AI Agent 執行一個單一任務已不再是簡單的單輪推理,而是要進行多輪推理和驗證,這就意味著其需要的 Token 消耗較之前有數倍甚至十倍的提升。

      如何借力自主進化,降低 Token 消耗,進而在競爭趨于白熱化的戰場上占據更多先機?顯然成為當下各大廠商的競爭焦點之一。

      不久前,騰訊混元團隊與香港科技大學(廣州)聯合發表論文《Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration》,就為上述問題提供了一種前沿的解決思路。

      先來看它的亮眼結果。

      在網頁 Agent 任務上,參數量僅 14B 的 Qwen3-14B(33.1),直接擊敗了 Gemini-2.5-Flash(28.5)和 Kimi-K2-Turbo(28.6)。Qwen3-30B(42.5)更是超越了萬億參數量旗艦模型 Gemini-2.5-Pro(36.1)和 Kimi K2.5(36.2)。

      輕量級模型能擊敗萬億級巨無霸,靠的不是新架構或秘密配方,而是一種被稱為“原生自演進”的能力。不同于過去被動等待指令的“提線木偶”,“原生自演進”為模型賦予了自我驅動的“生命力”,不需要人類給它指令或獎勵就能夠實現自我進化。而一個更加“聰明”的模型,無疑能減少反復拉扯過程中的“溝通成本”,做到事半功倍,進而有效降低 Token 的消耗。

      除了能力的“特殊”,詳細論述了這項能力的論文也有一個特殊身份——騰訊 AI Lab 在 NLP 方向的最后一篇論文。而九年前,即 AI Lab 成立后的第二年,其在 NLP 方向的第一篇論文進入公眾視野,同樣引發行業思考。

      世間之事,有時就是這么奇妙。

      (關于騰訊的 AI Lab 往事,雷峰網仍在持續跟進中,并將在不久后為大家帶來新的隱秘往事,歡迎添加作者微信:GO-GO-ZEPPELI,交流爆料。)

      01


      “不靠獎勵”是怎么做到的

      ——原生自演進的技術路徑

      要理解這項工作的價值,先看它解決什么問題。

      過去幾年,“Agent 自我進化”無疑是一大研究熱點,但翻閱市面上的各方討論,我們發現論文的通訊作者王琰在社交媒體上指出了一個扎心的事實:大多數所謂的“進化”,本質上還是被人牽著走的——依賴人類設計的獎勵函數、流程規則、任務目標——外部監督一撤,成長就停止了。

      就連作者本人也曾在工作中遇到類似的問題。比如團隊做的冥想盆范式和 StateLM,哪怕 StateLM 能夠及時將存儲在“冥想盆”中的信息去粗取精,以免上下文窗口被越堆越多的信息撐爆,但二者實現的還是 task-dependent記憶——一種相對死板的記憶方式。只要用戶任務稍有變化,模型就得從零開始探索,無法復用之前的記憶緩存。


      那么,真正的自演進應該長什么樣?

      王琰在社媒上為大家舉了個形象的案例,假設我們給 Agent 下了條指令:“過幾天用戶們就會問很多關于哈利波特的問題了,我給你買好了七本哈利波特,你準備一下。”然后 Agent 開始夜以繼日地學習,等真有用戶來提問時能做到對答如流,這才是真正的自演進,即在在沒有下游任務的情況下能夠自適應地熟悉環境。

      帶著這個目標,團隊提出了名為“原生自演進”的技術方案。整個方案分兩個階段:

      第一,探索階段。Agent 獲得新環境的自由訪問權限,以及寫入和修改文件的權限。它的任務是把環境中真正重要的信息提取出來,記錄到一個world_knowledge.md文件里。這份文件,就是該環境的世界知識。

      第二,執行階段。當下游任務開始時,Agent 不需要再從零開始探索,而是直接把預先生成的世界知識加載到 prompt 中,然后開工。整個推理過程沒有任何人工獎勵、預設流程或任務提示,完全自主地用它自己積累的知識做事。


      思路雖然清晰,但落地并不容易。

      核心難題在于:沒有 ground-truth。此外,同樣是因為沒有訓練 signal,團隊也無法直接判斷生成的世界知識是好還是壞。

      用下游任務的準確率來反推世界知識的質量,是團隊給出的解法。簡單來說,就是準備一批訓練環境,每個環境包含 10 到 30 個下游任務。對于同一個環境,生成多份不同的世界知識,然后分別拿去跑下游任務,誰的準確率提升最大,誰就是更好的世界知識。

      至于期間涉及到的 reward,僅僅用于訓練,推理時完全不使用。因為在真實場景中,你永遠不可能提前知道用戶會問什么,這也正是“無獎勵”這個詞的含義所在——不是不用獎勵來訓練,而是在推理、部署階段不需要任何獎勵信號。

      具體到訓練,分兩步走:

      第一步,Warm Up 階段,這一步的目標是讓模型先學會什么是好的世界知識。為此團隊設計了復雜的prompt,用 Gemini-2.5-Pro 為每個環境生成 8 份不同的世界知識,并從中挑出 reward 最大且為正的結果,將其完整的生成軌跡作為 expert trajectories,用來對基模進行 SFT。

      第二步,On-Policy Training 階段,這一步是為了讓模型的探索和信息壓縮能力變得更強。為此團隊讓 SFT 后的模型自己去生成世界知識,再同樣篩選選優,迭代兩個循環。過程中 prompt 也從最初幾萬 token 的長模板逐漸縮短至不到一千 token 的 instruction——模型確實內化了這種能力,不再依賴冗長的提示就能自主完成高質量的探索和信息壓縮。

      02


      14B贏Flash、30B超萬億旗艦:

      實驗數據說明了什么?

      團隊的成果,最終反映在開篇的論文與亮眼的對比實驗結果中。而這場實驗基于 Qwen3-30B-A3B 和 Seed-OSS-36B 兩個中等尺寸基模,在 WebWalker 和 WebVoyager 兩個網頁 agent task 上進行,有如下幾個發現值得關注:


      第一,世界知識帶來的增益是實打實的。在有世界知識加持的情況下,模型平均準確率從 30% 躍升至 49%,提升了將近 20 個百分點。這其實也意味著:擁有世界知識的智能體能直接定位到關鍵信息節點,避免了從零開始盲目探索時的反復跳轉和信息遺漏。

      第二,訓練不可或缺,且迭代真的有效。僅做了 SFT 的模型就已經跟教師模型 Gemini-2.5-Pro 打成平手,在經過 on-policy training 后更是反超了 5%。雖然 knowledge 坍塌的現象也很常見,且給未訓練的基模配上同樣的 prompt ,讓它直接去生成世界知識,效果不升反降,但這共同證明了一點:原生自演進是一種需要通過訓練習得的能力,沒法靠寫更長的 prompt 來解決。

      第三,也是最引人注目的——世界知識可以跨模型遷移。

      團隊為此做了一個有意思的實驗,將訓練好的模型生成的世界知識,直接喂給四個從未參與訓練的模型,結果全部出現了顯著提升:Qwen3-14B 達到 33.1、OpenAI-OSS-120B 達到 38.7、Gemini-2.5-Flash 達到 41.0、Kimi-K2-Turbo 達到 47.3——全部超越了各自領域的大哥級產品,就連訓練基模本身 Qwen3-30B(42.5)和 Seed-OSS-36B(39.5),也超過了 Gemini-2.5-Pro(36.1)和 Kimi K2.5(36.2)這兩款萬億參數量旗艦模型。


      這意味著,世界知識是一種可以被不同模型共享并取得收益的“經驗資產”。進一步說,規模固然重要,但高質量的知識組織同樣能帶來巨大增益——在某些場景下甚至足以彌補數量級的參數差距。

      第四,效率沒有因此變差,反而更好了。事實上,世界知識帶來的額外開銷確實存在,但可控。這一部分來自探索階段,大約幾百個 steps,但這只需要一個環境做一次,如果下游任務在該環境執行過上百萬次,均攤后的成本無限趨近于零;另一部分則來自線上持續加載世界知識的開銷,但這部分可以命中緩存,實際開銷約為重算的十分之一,為下游任務帶來的額外 cost 也不到 5%。

      此外,在世界知識的加持下,Agent 執行任務時需要的步數減少了 17%。又因為 decoding 的計算開銷遠大于 prefilling,Agent 在用戶的實際體驗中不僅做到了更聰明,而且更快了。外界擔憂的“token 爆炸”也沒有出現,反而降低了 token 的消耗。

      03


      結語

      2026 年 3 月 20 日,騰訊內部通知撤銷成立近十年的 AI Lab,原團隊整體并入混元大模型體系,由首席科學家姚順雨統一領導。

      AI Lab 的時代由此畫上句號。

      有意思的是,AI Lab 的最后一篇論文,指向了騰訊內部的“最高優先級項目”。

      眼下,眾多線索都將該項目指向微信 Agent。

      (雷峰網目前正在關注微信 Agent 的相關信息,歡迎添加作者微信:GO-GO-ZEPPELI,交流爆料。)

      如何幫助用戶操縱數百萬個小程序?無疑是擺在微信 Agent 面前的一大難題。

      如果按當前主流范式推演,通過人工標注專家數據軌跡的方式,大約可以覆蓋 20 個頭部小程序;次頭部約 500 個小程序,則可以通過標注大量任務及答案進行 RLVR;剩下的的海量長尾小程序,每次就只能從頭探索,組織成本和擴展瓶頸都很明顯。


      好在原生自演進的到來提供了新的可能性,王琰也在社媒上興奮地向大家描述著自己與團隊的愿景:“在每個小程序上線之時,就可以通知微信 Agent 過來探索一番并生成小程序對應的世界知識。在后面的任務中,只要 Agent 打開了這個小程序,對應的世界知識文件就會加載到 Agent 的 context 中,無需重新探索,多用戶直接復用世界知識的 KV Cache。”

      從論文到落地,這中間當然還有很多問題要解決。但這篇騰訊 AI Lab 的最后之作至少證明了一件事:當AI學會了“預習”——在沒有任務指引的情況下主動熟悉環境、沉淀知識——它離像人一樣自主適應復雜環境,又近了一步。

      (關于騰訊 AI 的系列文章仍在持續推出中,下一篇講述騰訊 AI Lab 往事的文章即將與大家見面,歡迎添加作者微信:GO-GO-ZEPPELI,交流認知,分享八卦。)

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      曹操撩寡婦時說的金句,如今成了約會開場白,男人經常掛在嘴邊

      曹操撩寡婦時說的金句,如今成了約會開場白,男人經常掛在嘴邊

      掠影后有感
      2026-05-11 11:31:38
      溫莎血脈基因優良!哈里夫婦帶一雙兒女出游,阿奇兄妹給梅根爭光

      溫莎血脈基因優良!哈里夫婦帶一雙兒女出游,阿奇兄妹給梅根爭光

      楓塵余往逝
      2026-05-13 14:45:33
      突發!南京又一機構跑路!

      突發!南京又一機構跑路!

      南京擇校
      2026-05-14 20:12:40
      合川呆呆再登熱搜!母親節殺雞宴翻車,網友:套路都被玩爛了

      合川呆呆再登熱搜!母親節殺雞宴翻車,網友:套路都被玩爛了

      童叔不飆車
      2026-05-14 14:29:11
      馬斯克:每年休息兩三天,試過睡不到6小時結果腦子很痛效率很低

      馬斯克:每年休息兩三天,試過睡不到6小時結果腦子很痛效率很低

      頂級大佬思維
      2026-05-09 14:23:20
      我國都有哪些常見毒蛇?哪種蛇最毒?盤點我國十大毒蛇,第一名致死率超65%

      我國都有哪些常見毒蛇?哪種蛇最毒?盤點我國十大毒蛇,第一名致死率超65%

      農夫也瘋狂
      2026-05-13 11:40:43
      千萬網紅董赤赤賬號僅剩9000元,欠54萬!更背后誰拿走了網紅的錢

      千萬網紅董赤赤賬號僅剩9000元,欠54萬!更背后誰拿走了網紅的錢

      眼界縱橫
      2026-05-14 14:50:49
      張柏芝現身 4S 店,為剛考取駕照的大兒子 Lucas 提國產新車

      張柏芝現身 4S 店,為剛考取駕照的大兒子 Lucas 提國產新車

      老吳教育課堂
      2026-05-14 17:43:56
      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      知法而形
      2026-05-14 20:05:30
      女足亞洲杯太殘酷了:隨著中國女足2-4,4大勁旅已無緣爭冠

      女足亞洲杯太殘酷了:隨著中國女足2-4,4大勁旅已無緣爭冠

      俯身沖頂
      2026-05-14 21:23:59
      廣廈半決賽主場vs深圳票價:最低100元,最高1500元

      廣廈半決賽主場vs深圳票價:最低100元,最高1500元

      懂球帝
      2026-05-14 15:16:18
      正式棄用!斷崖式下滑!頂薪合同正式泡湯

      正式棄用!斷崖式下滑!頂薪合同正式泡湯

      籃球教學論壇
      2026-05-14 19:27:46
      廣東松源一在建橋梁因暴雨垮塌?當地:無人員傷亡,水流沖擊所致,只是一個架子

      廣東松源一在建橋梁因暴雨垮塌?當地:無人員傷亡,水流沖擊所致,只是一個架子

      瀟湘晨報
      2026-05-14 17:12:18
      “給兒子吃得大腦缺氧了!”一頓全碳水早餐,暴露了寶媽的低認知

      “給兒子吃得大腦缺氧了!”一頓全碳水早餐,暴露了寶媽的低認知

      妍妍教育日記
      2026-05-14 13:30:26
      買車半年維修9次!蔚來車主:不敢開了,要求退車

      買車半年維修9次!蔚來車主:不敢開了,要求退車

      深圳晚報
      2026-05-14 08:45:16
      杜鋒下課?廣東男籃做法有深意,遠超外界猜測,徐杰或成交易籌碼

      杜鋒下課?廣東男籃做法有深意,遠超外界猜測,徐杰或成交易籌碼

      萌蘭聊個球
      2026-05-13 16:32:05
      很多男人已經養不起家了,無數普通頂梁柱被壓垮!

      很多男人已經養不起家了,無數普通頂梁柱被壓垮!

      黯泉
      2026-05-14 10:57:59
      爽快!中美會晤提出的第一個要求,中方開場白定調,太高明了

      爽快!中美會晤提出的第一個要求,中方開場白定調,太高明了

      愛看劇的阿峰
      2026-05-14 18:59:00
      隨著騎士3-2領先活塞,馬刺3-2森林狼,NBA季后賽最終4強基本出爐

      隨著騎士3-2領先活塞,馬刺3-2森林狼,NBA季后賽最終4強基本出爐

      球場沒跑道
      2026-05-14 11:16:03
      美國眾議院議員強行將援助烏克蘭的法案賦予投票

      美國眾議院議員強行將援助烏克蘭的法案賦予投票

      山河路口
      2026-05-14 12:33:23
      2026-05-14 22:03:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7274文章數 20751關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      數碼
      本地
      旅游
      藝術
      公開課

      數碼要聞

      小米耳夾式耳機官宣,17Max樣張公布

      本地新聞

      用蘇繡的方式,打開江西婺源

      旅游要聞

      長江三峽翠屏林立 呈現碧水青山詩意畫卷

      藝術要聞

      美國務卿魯比奧點贊中式美學,實景令人驚嘆!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 南溪县| 99国产午夜福利在线观看| 中国偷拍老肥熟露脸视频| 亚州精品一二区| 久久亚洲欧美国产精品| 亚洲欧洲另类| 宝贝腿开大点我添添公口述视频 | 日本www在线视频| 中文字幕人成无码免费视频| 无码内射中文字幕岛国片| 日本一卡2卡3卡四卡精品网站| 永久免费看mv亚洲| 狠狠色丁香婷婷综合尤物| 免费看国产成年无码av| 久久久噜噜噜久久久| 在线欧美中文字幕农村电影| 猫咪AV成人永久网站在线观看| 911国产精品| 天美传媒一区二区| 九色综合伊人久久富二代| 久久精品无码午夜福利理论片| 不卡的无码AV| 人妻一区二区三区三区| 国产mv在线天堂mv免费观看| av无码天一区二区一三区| 亚洲天堂区| 国产精品国产三级国产普通| 91操操操| 99久久国产综合精品成人影院| 久久国产自偷自偷免费一区| 免费Av网站| 玩弄放荡人妻少妇系列| 久久棈精品久久久久久噜噜| 日本中文字幕有码在线视频| 国产精品免费无遮挡无码永久视频 | 成品女人网站在线观看| 国产成人A在线观看视频免费| 宅男666在线永久免费观看| 欧美视频专区一二在线观看| 一级女性全黄久久生活片| 人人干人人爽|