<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      林俊旸離職后首度發聲

      0
      分享至

      3月26日晚間,前千問技術負責人林俊旸在x上發布長文詳談自己對大模型發展路線的理解及對AI下一階段的預判,這也是林俊旸自阿里離職后,首度發聲。



      原文:Junyang Lin (@JustinLin610)

      翻譯:文心一言(注:有錯誤的希望大家指正)

      文本正文

      過去兩年重塑了我們評估模型的方式和對模型的期望。OpenAI 的 o1 證明了「思考」可以成為一種核心能力——一種你專門訓練并向用戶開放的能力。DeepSeek-R1 證明了推理風格的后訓練可以在原始實驗室之外被復現和規模化。OpenAI 將 o1 描述為一個通過強化學習訓練的模型,讓它「在回答之前先思考」。DeepSeek 則將 R1 定位為一個與 o1 競爭的開源推理模型。

      那個階段很重要。但 2025 年上半年主要是關于推理思考(reasoning thinking):如何讓模型在推理時投入更多計算,如何用更強的獎勵信號來訓練它們,如何展示或調控額外的推理投入。

      現在的問題是:下一步是什么?我認為答案是智能體思考(agentic thinking):為了行動而思考,同時與環境交互,并根據來自真實世界的反饋持續更新計劃。

      1. o1 和 R1 的崛起真正教會了我們什么

      第一波推理模型教會了我們:如果想在語言模型中擴展強化學習,我們需要確定性的、穩定的、可擴展的反饋信號。數學、代碼、邏輯和其他可驗證領域成為核心,因為這些場景中的獎勵信號比通用的偏好監督強得多。它們讓 RL 能針對「正確性」而非「看起來合理」來優化。基礎設施變得至關重要。

      一旦模型被訓練為通過更長的軌跡進行推理,RL 就不再是監督微調的輕量級附加組件,而變成了一個系統工程問題。你需要大規模的 rollout、高吞吐量的驗證、穩定的策略更新、高效的采樣。推理模型的出現既是一個基礎設施故事,也是一個建模故事。

      第一個重大轉變:從擴展預訓練到擴展推理后訓練。

      2. 真正的問題從來不只是「合并思考和指令模式」

      2025 年初,Qwen 團隊中的很多人有一個宏大的愿景:理想的系統應該統一思考模式和指令模式。它應該支持可調節的推理力度,類似于低/中/高的推理設置。更好的是,它應該能從提示和上下文中自動推斷合適的推理量,讓模型自己決定何時立即回答、何時多想一會兒、何時為真正困難的問題投入大量計算。

      概念上,這是正確的方向。Qwen3 是最清晰的公開嘗試之一。它引入了「混合思考模式」,在一個模型家族中同時支持思考和非思考行為,強調可控的思考預算,并描述了一個四階段后訓練流程,明確包含了在長 CoT 冷啟動和推理 RL 之后的「思考模式融合」。

      但合并說起來容易,做好很難。難點在于數據。當人們談論合并思考和指令時,往往首先想到模型端的兼容性:一個檢查點能否支持兩種模式,一個聊天模板能否在兩者之間切換,一個服務棧能否提供合適的控制開關。更深層的問題是,兩種模式的數據分布和行為目標有本質差異。

      我們在試圖平衡模型合并與提高后訓練數據質量和多樣性時,并沒有完全做對:

      • 一個好的指令模型通常因直接、簡潔、格式合規、低延遲而獲得獎勵——服務于重寫、標注、模板化客服、結構化提取和運營 QA 等重復性高吞吐企業任務。
      • 一個好的思考模型則因在困難問題上花更多 token、保持連貫的中間結構、探索替代路徑、保留足夠的內部計算來切實提高最終答案的正確性。

      這兩種行為配置是相互拉扯的。如果合并數據沒有精心策劃,結果通常是兩邊都平庸:「思考」行為變得噪聲大、臃腫或不夠果斷,而「指令」行為變得不夠干脆、不夠可靠,且比商業用戶實際需要的更昂貴。

      實踐中,分離仍然有吸引力。2025 年晚些時候,Qwen3 的 2507 系列發布了獨立的 Instruct 和 Thinking 更新,包括獨立的 30B 和 235B 變體。在商業部署中,大量客戶仍然需要高吞吐、低成本、高度可控的指令行為來進行批量操作。對于這些場景,合并并不是明顯的好處。

      其他實驗室選擇了相反的路線。Anthropic 公開倡導集成模型哲學:Claude 3.7 Sonnet 作為混合推理模型推出,用戶可以選擇普通回復或擴展思考,API 用戶可以設置思考預算。Anthropic 明確表示,他們相信推理應該是一種集成能力,而不是一個單獨的模型。

      關鍵問題是合并是否有機。如果思考和指令只是被共同放置在一個檢查點內,但仍然表現得像兩個尷尬縫合的人格,產品體驗就仍然不自然。真正成功的合并需要平滑的推理力度光譜。模型應該能表達多個層次的努力,并理想地在它們之間自適應選擇。GPT 風格的 effort control 指向了這一點:一種關于計算的策略,而非一個二元開關。

      3. 為什么 Anthropic 的方向是有益的矯正

      產生更長的推理軌跡并不會自動讓模型更智能。在很多情況下,過多的可見推理痕跡反而暴露了糟糕的計算分配。如果模型對什么問題都用同樣冗長的方式推理一遍,說明它無法有效排序優先級、無法精簡壓縮、也無法果斷行動。Anthropic 的路線暗示了一種更克制的理念:思考應該圍繞具體的任務目標來組織。

      這種對目標效用的強調指向更大的東西:我們正在從訓練模型的時代走向訓練 Agent 的時代。Agent 是一個能制定計劃、決定何時行動、使用工具、感知環境反饋、修訂策略、并在長時間范圍內持續運行的系統。它由與世界的閉環交互來定義。

      4. 「智能體思考」到底意味著什么

      智能體思考是一個不同的優化目標。

      • 推理思考
      • 通常以最終答案前的內部推導質量來衡量:模型能否解出定理、寫出證明、產生正確的代碼、或通過基準測試。
      • 智能體思考
      • 關注的是模型能否在與環境交互的同時持續取得進展。

      核心問題從「模型能否思考足夠長?」轉變為「模型能否以一種維持有效行動的方式來思考?

      智能體思考必須處理純推理模型大多可以避免的幾件事:

      • 決定何時停止思考并采取行動;
      • 選擇調用哪個工具,以什么順序;
      • 整合來自環境的嘈雜或不完整的觀察;
      • 在失敗后修訂計劃;
      • 在多輪和多次工具調用中保持連貫性。

      智能體思考,就是讓模型通過行動來推理。

      5. 為什么智能體 RL 基礎設施更難

      一旦目標從解決基準測試問題轉向解決交互式任務,RL 技術棧就變了。用于經典推理 RL 的基礎設施不夠用了。在智能體 RL 中,模型的策略被嵌入到一個更龐大的外圍系統中:工具服務器、瀏覽器、終端、搜索引擎、模擬器、執行沙箱、API 層、記憶系統和編排框架。環境不再是靜態的驗證器,它本身就是訓練系統的一部分。

      這創造了新的系統需求:訓練和推理必須更干凈地解耦。沒有這種解耦,rollout 吞吐量就會崩潰。想象一個編碼 Agent,需要在實時測試環境中運行它生成的代碼:推理端卡在那里等執行反饋,訓練端因為拿不到足夠的完整軌跡而空轉,整個管道運行遠低于預期的 GPU 利用率。

      環境本身也成為一級研究產物。在 SFT 時代,我們癡迷于數據多樣性。在 Agent 時代,我們應該癡迷于環境質量:穩定性、現實性、覆蓋范圍、難度、狀態多樣性、反饋豐富度、防利用性和 rollout 生成的可擴展性。環境構建已經開始從邊緣項目變成一個真正的創業品類。

      6. 下一個前沿是更有用的思考

      我的預期是智能體思考將成為主導的思考形式。它最終可能會取代大部分舊的靜態獨白式推理思考:那種過于冗長、孤立的內部軌跡,試圖通過輸出越來越多的文本來彌補缺乏交互的不足。即使在非常困難的數學或編碼任務上,一個真正先進的系統也應該有權搜索、模擬、執行、檢查、驗證和修訂。目標是穩健而高效地解決問題。

      訓練這類系統最難的挑戰是獎勵作弊(reward hacking)。一旦模型獲得有意義的工具訪問,獎勵作弊就變得危險得多。有搜索能力的模型可能在 RL 期間學會直接搜索答案。編碼 Agent 可能會利用代碼倉庫中的未來信息走捷徑。存在隱性信息泄漏的訓練環境,可以讓模型表現看起來超越人類,但實際上只是在訓練它作弊。

      智能體思考也意味著工具架工程(harness engineering)。核心智能將越來越多地來自多個 Agent 如何被組織:一個規劃和路由工作的編排者,充當領域專家的專業 Agent,以及執行更窄任務的子 Agent。未來是從訓練模型到訓練 Agent,從訓練 Agent 到訓練系統的轉變。

      結論

      更深層的轉變是從推理思考到智能體思考:從更長的思考到為了行動而思考。訓練的核心對象已經改變了。它不再是單獨的模型,而是模型加環境的系統。這改變了「好的思考」意味著什么:在真實世界約束下維持行動的最有用的軌跡,而不是最長或最可見的那個。

      在推理時代,優勢來自更好的 RL 算法、更強的反饋信號和更可擴展的訓練管道。在 Agent 時代,優勢將來自更好的環境、更緊密的訓練-服務集成、更強的工具架工程,以及讓模型的決策和決策帶來的后果形成閉環的能力。

      聲明:個人原創,僅供參考

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      1961年,侯波調離中南海,臨走前毛主席囑咐:以后你要常來看我

      1961年,侯波調離中南海,臨走前毛主席囑咐:以后你要常來看我

      大運河時空
      2026-05-07 17:55:03
      浙江省紀委省監委:丁忠平,主動投案

      浙江省紀委省監委:丁忠平,主動投案

      都市快報橙柿互動
      2026-05-08 19:25:28
      張凌赫曬出烤肉照片,橫店一烤肉店爆火,老板直言十分感謝張凌赫

      張凌赫曬出烤肉照片,橫店一烤肉店爆火,老板直言十分感謝張凌赫

      可愛的巴比龍
      2026-05-08 14:22:54
      寧藝卓觀看脫衣秀風波升級!內場照片曝光不堪入目,Lisa負責主持

      寧藝卓觀看脫衣秀風波升級!內場照片曝光不堪入目,Lisa負責主持

      萌神木木
      2026-05-07 16:48:19
      河南酒神醉狼離世,年僅46歲,每天三四瓶,家貧如洗留下兩個女兒

      河南酒神醉狼離世,年僅46歲,每天三四瓶,家貧如洗留下兩個女兒

      黑哥講現代史
      2026-05-08 14:08:40
      交火數小時,美伊披露戰果

      交火數小時,美伊披露戰果

      魯中晨報
      2026-05-08 09:58:03
      軍購案三讀通過!今天生日的傅崐萁,才是真正的最大贏家

      軍購案三讀通過!今天生日的傅崐萁,才是真正的最大贏家

      蘭妮搞笑分享
      2026-05-08 15:10:15
      5月20官宣三婚!頭發都白了,何潔現狀惹人心疼

      5月20官宣三婚!頭發都白了,何潔現狀惹人心疼

      陳意小可愛
      2026-05-07 16:55:39
      釣友在成都一河道發現大量注射器,街道辦:系用于控糖減重的注射器,已打撈,水質檢測無異常

      釣友在成都一河道發現大量注射器,街道辦:系用于控糖減重的注射器,已打撈,水質檢測無異常

      極目新聞
      2026-05-08 15:36:19
      74萬一刀兩斷!何冰嬌的羽球人生就此定格 出國打球或是她的選項

      74萬一刀兩斷!何冰嬌的羽球人生就此定格 出國打球或是她的選項

      勁爆體壇
      2026-05-08 08:02:13
      申裕斌出局滿臉沮喪!孫穎莎安慰她超暖心 韓媒:難越乒壇高墻

      申裕斌出局滿臉沮喪!孫穎莎安慰她超暖心 韓媒:難越乒壇高墻

      顏小白的籃球夢
      2026-05-08 07:51:33
      看完心酸!網貸逾期人數持續暴漲,男人欠債和女人欠債根本不一樣

      看完心酸!網貸逾期人數持續暴漲,男人欠債和女人欠債根本不一樣

      記錄生活日常阿蜴
      2026-05-08 14:06:50
      5.1新規第一槍:藥企代表醫院被抓,同事“處方沒開完就跑”

      5.1新規第一槍:藥企代表醫院被抓,同事“處方沒開完就跑”

      李博世財經
      2026-05-08 14:09:45
      女兒吐槽50歲媽媽緊身褲太辣,網友看完卻一邊倒支持媽媽

      女兒吐槽50歲媽媽緊身褲太辣,網友看完卻一邊倒支持媽媽

      芭比衣櫥
      2026-05-08 18:44:02
      司法部:“掃碼入企”全面推行!無“執法碼”不得檢查

      司法部:“掃碼入企”全面推行!無“執法碼”不得檢查

      每日經濟新聞
      2026-05-08 12:01:51
      戰術大師墨菲因何世錦賽輸吳宜澤?因為他決勝局犯了一個戰術錯誤

      戰術大師墨菲因何世錦賽輸吳宜澤?因為他決勝局犯了一個戰術錯誤

      老高說體育
      2026-05-08 11:14:15
      再見,鞋王!41歲PJ·塔克宣布退役?。?!

      再見,鞋王!41歲PJ·塔克宣布退役?。?!

      柚子說球
      2026-05-08 10:30:36
      搞垮中國交通的罪魁禍首,并非是車太多?這幾座山不移除就白搭了

      搞垮中國交通的罪魁禍首,并非是車太多?這幾座山不移除就白搭了

      原來仙女不講理
      2026-05-07 23:09:21
      6月1日正式施行!全國工地用工新規,明確60歲以上農民上崗標準

      6月1日正式施行!全國工地用工新規,明確60歲以上農民上崗標準

      丁丁鯉史紀
      2026-05-08 14:50:31
      葉珂終于攤牌!生女兩年無名分,分手真相扯出黃曉明私生活

      葉珂終于攤牌!生女兩年無名分,分手真相扯出黃曉明私生活

      橙星文娛
      2026-05-08 09:06:29
      2026-05-08 19:55:01
      互聯網坊間八卦 incentive-icons
      互聯網坊間八卦
      多平臺入駐
      5950文章數 6900關注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      頭條要聞

      媒體:"4只皮皮蝦1035元"店主去世僅43歲 觸發人們反思

      頭條要聞

      媒體:"4只皮皮蝦1035元"店主去世僅43歲 觸發人們反思

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      輪到豆包收割了?

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態度原創

      藝術
      游戲
      本地
      公開課
      軍事航空

      藝術要聞

      探索施密德的油畫,感受無法抵擋的藝術魅力!

      索尼PS要打造最佳游戲平臺!獨占新作用AI 玩家別慌

      本地新聞

      用蘇繡的方式,打開江西婺源

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗:最高領袖穆杰塔巴全面掌控局勢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 免费视频一区二区三区亚洲激情| 日本精品欧美一区二区三区| 亚欧成人无码AV在线播放| 91产精品无码无套在线| 亚洲人成亚洲人成在线观看| wwww黄色| 安远县| 四虎国产精品永久在线网址| 亚洲色欲av| 亚洲av永久无码精品漫画| 亚洲欧美综合精品成| 在线观看网址你懂的| 亚洲无码综合网| 熟女丝袜美腿亚洲一区二区三区| 午夜免费啪视频在线观看| 久久99精品国产99久久6尤物| 亚洲av片在线免费观看| 亚洲熟女网| 一本色道久久综合无码人妻 | 国内揄拍国内精品少妇| 久久国产自偷自免费一区| 亚洲AV成人片不卡无码| 97在线视频人妻无码| 富阳市| 九九久久99综合一区二区| 亚洲国产AV一区二区三区四区| 人妻丝袜无码专区视频网站| 99精品视频在线观看免费蜜桃| 色午夜| 人妻少妇av中文字幕乱码| 在线观看亚洲你懂得| 色色色综合| 秋霞91大神| 少妇人妻偷人精品系列| 国产一区二区三区黄色片| 色一情一乱一伦小说| 精品久久人人妻人人做精品| 亚洲色婷婷久久精品av蜜桃| 日韩欧美高清| 老熟妇仑乱一区二区视頻| 亚洲中文字幕一二区日韩|