![]()
「Hy3 preview是混元大模型重建的第一步。」
作者|連冉
編輯|靖宇
姚順雨交出了加入騰訊后的第一份模型答卷。
4 月 23 日,騰訊混元 Hy3 preview 語言模型發(fā)布并開源。這是一款主打快慢思考融合的 MoE 語言模型,總參數(shù) 295B,激活參數(shù) 21B,最大支持 256K 上下文長度,官方稱其整體性能達到同尺寸模型最佳水平。
從研發(fā)節(jié)奏來看,Hy3 preview 于 2026 年 1 月底正式啟動訓(xùn)練,從訓(xùn)練到上線用了不到三個月,被騰訊內(nèi)部定義為混元大模型從「讀萬卷書」走向「行萬里路」、嘗試解決真實世界復(fù)雜問題的開端。
而這款模型最受行業(yè)關(guān)注的核心標簽,是它作為備受矚目的「天才少年」姚順雨,在 2025 年底加盟騰訊后,全程主導(dǎo)推出的第一代大模型。
作為騰訊重金邀請的首席 AI 科學(xué)家,Hy3 preview 既是他對重構(gòu)后的混元研發(fā)體系的首次完整實踐,也承載著騰訊補齊 AI 短板、在大模型下半場實現(xiàn)追趕的核心期待。
姚順雨表示,「Hy3 preview 是混元大模型重建的第一步。我們希望通過這次開源和發(fā)布,獲得來自開源社區(qū)和用戶的真實反饋,幫助我們提升 Hy3 正式版的實用性。與此同時,我們也在繼續(xù)擴大預(yù)訓(xùn)練和強化學(xué)習(xí)的規(guī)模,提升模型的智能上限,并通過與騰訊眾多產(chǎn)品的深度 Co-Design,持續(xù)提升模型在真實場景中的綜合表現(xiàn),并開始探索特色模型能力。」
01
一手實測 Hy3 preview
從官方披露的核心信息來看,Hy3 preview 從研發(fā)之初就圍繞智能體(Agent)場景做了針對性設(shè)計,這也是它與此前混元系列模型最核心的差異。
在啟動模型訓(xùn)練前,姚順雨主導(dǎo)完成了混元預(yù)訓(xùn)練和強化學(xué)習(xí)基礎(chǔ)設(shè)施的全面重建,同時定下了模型追求實用性的三大核心原則,構(gòu)成了 Hy3 preview 的研發(fā)底層邏輯:
能力體系化:不推崇「偏科」,因為即便是代碼智能體的單一應(yīng)用,也涉及推理、長文、指令、對話、代碼、工具等多種能力的深度協(xié)同; 評測真實性:主動跳出易被「刷榜」的公開榜單,通過自建題目、最新考試、人工評測、產(chǎn)品眾測等多種方式評估和改進模型的「真實戰(zhàn)斗力」; 性價比追求:實用性離不開商業(yè)合理性,深度協(xié)同模型架構(gòu)和推理框架的設(shè)計,大幅降低任務(wù)成本,讓智能用得起、用得好。
官方資料顯示,Hy3 preview 采用了總參數(shù)量 295B、激活參數(shù)僅 21B 的 MoE 架構(gòu),同時融合了「快慢思考」機制。
21B 的激活參數(shù),為模型高頻次、長鏈路的 Agent 調(diào)用提供了低成本的運行底座;而「快慢思考」的融合設(shè)計,天然適配復(fù)雜邏輯推理與多步工具調(diào)用場景,也就是姚順雨提出的 ReAct(推理 - 行動)循環(huán)。
極客公園第一時間實測了 Hy3 preview,先以一個覆蓋數(shù)據(jù)抓取、數(shù)值計算、可視化生成、文本分析全鏈路的綜合任務(wù)來試水,「使用 Python 抓取過去 90 天納斯達克 100、倫敦金與滬深 300 的日線收盤數(shù)據(jù)。計算它們之間的皮爾遜相關(guān)系數(shù),并用 D3.js 或 ECharts 生成一個單文件 HTML 動態(tài)熱力圖。最后,基于數(shù)據(jù)結(jié)果輸出一段 500 字的跨市場資產(chǎn)配置 Memo。」
視頻來源:極客公園
可以看到,Hy3 preview 在數(shù)據(jù)獲取階段反復(fù)受阻,接口認證失敗后接連切換 akshare、yfinance 等多個數(shù)據(jù)源,納斯達克 100 數(shù)據(jù)因速率限制缺失而被迫用模擬數(shù)據(jù)替代,修錯重試的循環(huán)消耗了大量時間。
可視化交付上,Hy3 preview 最終生成了三資產(chǎn)相關(guān)性熱力圖,但由于部分數(shù)據(jù)并非真實采樣,熱力圖的準確性與可信度打了折扣。
最核心的文本交付物缺失明顯——提示詞明確要求輸出 500 字跨市場資產(chǎn)配置 Memo,Hy3 preview 卻只給出了幾行 Bullet point 式的簡略配置比例,沒有成文的分析段落,任務(wù)交付在關(guān)鍵環(huán)節(jié)出現(xiàn)了缺位。
我又嘗試了另一個長鏈路 Agent 測試——啟用瀏覽器模式,在 SkillHub 平臺進行全鏈路深度抓取,完整理清騰訊文檔 Skill 的 Auth 認證全流程與數(shù)據(jù)同步底層機制,最終輸出一份標準化的技術(shù)原理分析文檔。
視頻來源:極客公園
在這次測試中,Hy3 preview 展現(xiàn)了清晰的 Agent 自治與多步推理(ReAct)過程:先搜索 SkillHub 整體介紹;發(fā)現(xiàn)需要深入,又去精準抓取了 Auth 認證的開發(fā)者文檔;接著去查了 MCP Server 的底層原理;最后才開始動筆寫文檔,這證明了 Hy3 preview 作為 Agent 的路由調(diào)度中心,其長鏈路規(guī)劃和工具調(diào)用很穩(wěn)定,沒有在中途崩潰或陷入死循環(huán),完整走完了「推理 - 行動 - 驗證 - 輸出」的閉環(huán)。
這一表現(xiàn)也與官方披露的產(chǎn)品落地數(shù)據(jù)形成了呼應(yīng):在 CodeBuddy、WorkBuddy 產(chǎn)品上,Hy3 preview 首 token 延遲降低 54%、端到端時長降低 47%、任務(wù)成功率提升至 99.99%+,在實際用戶環(huán)境中,已穩(wěn)定驅(qū)動最長 495 步的復(fù)雜 Agent 工作流,覆蓋文檔處理、數(shù)據(jù)分析、知識檢索、工具鏈編排等多樣化辦公場景。
從這兩組實測可以看出,Hy3 preview 呈現(xiàn)出一種典型的「過渡態(tài)特征」。
一方面,在復(fù)雜任務(wù)中,它已經(jīng)具備了較為清晰的 Agent 執(zhí)行路徑:能夠自主拆解問題、規(guī)劃步驟,并在不同工具之間進行切換,整體鏈路沒有明顯中斷。這種「從問題到流程」的能力,確實在向真實工作流靠近。
但另一方面,真正決定可用性的「最后一公里」仍然不夠穩(wěn)定——數(shù)據(jù)獲取階段的反復(fù)試錯、關(guān)鍵結(jié)果的缺失、以及最終交付物的不完整,都說明模型在長鏈路執(zhí)行中,仍然存在「做了一半」的問題。
目前,Hy3 preview 已在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、騰訊文檔等產(chǎn)品首發(fā)上線,同時支持接入 OpenClaw、OpenCode 等主流開源智能體產(chǎn)品,并已上架騰訊云大模型服務(wù)平臺 TokenHub。價格方面,Hy3 preview 輸入價格最低 1.2 元/百萬 tokens,輸入命中緩存價格 0.4 元/百萬 tokens,輸出價格最低 4 元/百萬 tokens。
02
天才少年,和動起來的騰訊
這是備受關(guān)注的「天才少年」姚順雨入職騰訊后主導(dǎo)的第一代大模型。
作為 2025 年底騰訊重磅挖來的首席 AI 科學(xué)家,Hy3 preview 是他入職后交出的第一份核心模型答卷,也承載著騰訊補齊 AI 短板、發(fā)力大模型基礎(chǔ)研究的期待。
去年 9-12 月,姚順雨入職騰訊,出任"CEO/總裁辦公室"首席 AI 科學(xué)家,兼任 AI Infra 部與大語言模型部負責(zé)人,直接向總裁劉熾平匯報,全面統(tǒng)籌混元大模型研發(fā)工作。
12 月,騰訊完成組織架構(gòu)重構(gòu),新設(shè) AI Infra 部、AI Data 部、數(shù)據(jù)計算平臺部,姚順雨全面掌控混元研發(fā)體系,上任后立即重構(gòu)了 AI Infra 團隊,搭建起預(yù)訓(xùn)練、精調(diào)、后訓(xùn)練、推理等完整研發(fā)鏈條,為后續(xù)模型研發(fā)奠定基礎(chǔ)。
今年 1 月底,馬化騰在年會上承認騰訊 AI「動作慢了」,劉熾平同步披露混元 3.0 正在內(nèi)部測試,計劃 4 月對外推出,也是在 1 月底,Hy3 preview 正式啟動訓(xùn)練,從訓(xùn)練到上線用了不到三個月。
姚順雨(1998 年生)的履歷自帶「天才少年」標簽,但客觀來看,他的技術(shù)背景與騰訊當時的 AI 需求高度契合,這也是騰訊重金挖角的核心原因——騰訊此前混元負責(zé)人張正友(深耕計算機視覺領(lǐng)域)、蔣杰(側(cè)重大數(shù)據(jù)方向)均非 NLP/LLM 原生背景,而姚順雨是騰訊首位真正意義上的 LLM 原生技術(shù)領(lǐng)導(dǎo)者,其核心履歷與研究方向,恰好匹配騰訊混元突破的核心需求。
在學(xué)術(shù)界,姚順雨是頂級的語言智能體(Language Agents)研究者,著名的 ReAct(推理-行動框架)和 Tree of Thoughts(思維樹)均出自其手,;在 OpenAI 短暫的一年多里,他也深度參與了 Operator、Deep Research 等智能體產(chǎn)品研發(fā),深入接觸模型預(yù)訓(xùn)練與后訓(xùn)練環(huán)節(jié),積累了一線工程化經(jīng)驗。
2025 年 4 月,他曾發(fā)表文章《The Second Half》,明確提出,AI 的競爭正在從「訓(xùn)練更強的模型」轉(zhuǎn)向「定義并評估真實世界任務(wù)」,強調(diào)評估體系重構(gòu),反對盲目堆料模型規(guī)模。
這一理念也貫穿了 Hy3 preview 的研發(fā),Hy3 preview 定位為一個總參數(shù)量 295B、激活參數(shù)僅 21B 的 MoE 模型。21B 的激活參數(shù)意味著模型具備了高頻次、長鏈路 Agent 調(diào)用的低成本底座,同時其內(nèi)部融合的「快慢思考」機制,天然適合處理復(fù)雜的邏輯推理與工具調(diào)用(如 ReAct 循環(huán))。
從前面的實測來看,Hy3 preview 更像是一款驗證技術(shù)方向的原型模型。把視角拉回騰訊自身,這種「未完全成熟」的狀態(tài),可能也有其內(nèi)在合理性。一方面,Hy3 preview 從訓(xùn)練到上線不到三個月,本身就是一次快速迭代的技術(shù)試水;另一方面,在經(jīng)歷了 AI 組織架構(gòu)的全面重構(gòu)之后,騰訊也需要這樣一款模型,去驗證新的研發(fā)鏈條是否通順、錨定的 Agent 技術(shù)路線是否成立。
不過,在國內(nèi)大模型已經(jīng)進入貼身肉搏的當下,Hy3 preview 的到來,只是騰訊 AI 補位的開始。無論是 MoE 架構(gòu)的工程化優(yōu)化,還是 Agent 場景的產(chǎn)業(yè)落地深度,國內(nèi)頭部廠商已經(jīng)跑通了多輪迭代,騰訊想要追上甚至超車,僅憑一次模型更新遠遠不夠。
*頭圖來源:GPT 生成
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO
極客一問
你看好接下來的混元大模型嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.