網易首頁 > 網易號 > 正文申請入駐

姚順雨搶先DeepSeek V4交卷！混元Hy3 preview正式亮相

2026-04-24 13:33:15　來源: 魏家東

北京舉報

分享至

2026年4月23日，騰訊正式開源新一代大模型混元Hy3preview。這不是一次普通的版本迭代，而是27歲首席AI科學家姚順雨掌舵混元后，交出的首份“成績單”。入職騰訊不到半年、帶隊重構混元基礎設施僅3個月，Hy3preview的登場，不僅是騰訊在大模型賽道的重新發力，更折射出行業從“堆參數、刷榜單”到“重實用、降成本”的轉向。當下國內外大模型扎堆上新，從Anthropic的ClaudeOpus4.7到阿里Qwen3.6-Max-Preview，再到即將發布的DeepSeekV4，這場“神仙打架”中，Hy3preview不靠“千億參數”博眼球，而是以295B參數、主打“全面實用性”，試圖在能力與成本間找到最優解。它到底有幾分實力？又能否幫騰訊在激烈競爭中站穩腳跟？

一、天才掌舵：姚順雨與混元的“重建之路”

聊Hy3preview，繞不開背后的核心人物——姚順雨。這個1998年出生的年輕人，履歷堪稱“天才范本”：清華姚班本科、普林斯頓博士，師從GPT核心作者之一，是AI領域奠基性框架ReAct（推理-行動）和思維樹（TreeofThoughts）的提出者。2024年博士畢業后加入OpenAI，深度參與Operator、DeepResearch等核心智能體項目，一手扎根學術，一手深耕工程。

2025年底，姚順雨低調入職騰訊，出任首席AI科學家，同時執掌AIInfra部與大語言模型部，直接向騰訊核心高管匯報——這樣的權限，在騰訊歷史上都極為罕見。彼時的混元，雖已推出兩代模型，但在激烈競爭中聲量平平，核心短板在于智能體（Agent）能力弱、推理成本高、與真實業務結合不緊密。

姚順雨的到來，給混元帶來了“推倒重來”的變革。他入職后第一件事，就是拆解混元的技術架構，排查問題根源，常常和團隊討論到深夜。2026年2月，騰訊正式啟動混元基礎設施重建，徹底推翻舊架構，聚焦“實用性”重構研發邏輯——不盲目跟風堆參數，而是把資源砸在工程穩定性、推理效率和真實場景適配三大核心上。

這背后，是姚順雨一直堅持的“AI下半場”理念：AI的競爭早已不是“做題、刷榜”的上半場，而是轉向“解決真實世界問題”的下半場；模型的價值，從來不是榜單上的分數，而是能否在復雜場景中落地、幫用戶創造實際價值。Hy3preview，正是這一理念落地的首個成果，也是混元重建后邁出的關鍵一步。

二、硬實力拆解：295B參數，打出“全能表現”

作為混元迄今最智能的版本，Hy3preview沒有走“參數越大越強”的老路，而是采用快慢思考融合的混合專家（MoE）架構，總參數295B，實際激活參數僅21B，既保證能力，又控制成本，最長支持256K上下文，能輕松處理超長文檔、復雜任務鏈。從實測和榜單數據來看，它的“全能感”很突出，在推理、代碼、智能體三大核心能力上全面升級。

1.復雜推理：數學能力登頂國內，邏輯“不掉鏈”

推理能力是大模型的“基本功”，也是解決復雜問題的核心。Hy3preview在數學推理上表現亮眼：在FrontierScience-Olympiad（科學奧賽）拿下70.0分，IMOAnswerBench（國際奧數基準）達到84.3分，整體超過國內的GLM-5、Kimi-K2.5，接近國際頂級的Gemini3.1Pro與GPT-5.4。更值得一提的是，它在清華求真書院數學博士資格考試中拿到88.4分，創下國內模型最高紀錄，硬核數學實力拉滿。

日常邏輯題更是“小菜一碟”。面對“開車100米去洗車還是走著去”的陷阱題，它能精準判斷“走著去更劃算”，還幽默補充“特殊情況可代駕取車”；面對“父母能否結婚”的常識題，它能快速識別邏輯漏洞，給出正確答案，完全避開文字陷阱。這種“快慢思考”融合的機制，讓它處理簡單任務時反應迅速，遇到復雜問題時能沉下心深度推理，邏輯鏈條完整不中斷。

2.代碼能力：逼近第一梯隊，工程實用性拉滿

代碼能力是大模型落地生產力場景的關鍵，也是姚順雨在OpenAI深耕的領域。Hy3preview在代碼基準測試中表現亮眼：SWE-BenchVerified（真實代碼修復基準）達到74.4%，逼近國內頂尖的GLM-5與Kimi-K2.5；Terminal-Bench2.0（終端命令執行）得分54.4%，超過GLM-4.7等前輩模型，成功躋身第一梯隊。

實測中，我們用高難度任務“生成Xbox360控制器SVG代碼”考驗它——這款控制器有復雜的非對稱曲線、密集的搖桿和按鍵布局，非常考驗模型對二維坐標、圖層疊加和幾何計算的精準把控能力。雖然首次生成效果不夠完美，但二次生成后已能還原核心輪廓，細節雖不及國際頂級模型，但在國內模型中已屬上游水平。更重要的是，它在騰訊內部的CodeBuddy（代碼助手）中已穩定落地，首響應延遲降低54%，端到端任務時長縮短47%，任務成功率超99.99%，真正能用、好用。

3.智能體（Agent）：能力翻倍，長鏈路任務“不掉線”

智能體是大模型落地復雜場景的核心，也是Hy3preview的核心發力點。相比上一代Hy2，Hy3preview的Agent能力實現質的飛躍：在涵蓋16項基準的綜合評測中，平均得分從35分飆升至56分，直接甩開GLM-4.7、DeepSeek-V3.2，接近GLM-5與Kimi-K2.5的水平。

細分場景中，它的表現同樣能打：WildClawBench（純文本Agent）得分45.3，超過Kimi-K2.5；ClawEval（工具調用評測）達到55.0，超越Kimi-K2.5，逼近GLM-5。實測長鏈路任務時，它能自主完成“搜索-抓取-分析-輸出”全流程：比如核查“庫克加入小米汽車”的傳聞，它會自主規劃路徑，多輪調用工具查找中英文報道、官方聲明，不敷衍、不臆斷。在騰訊WorkBuddy（辦公智能體）中，它已能穩定驅動最長495步的復雜工作流，覆蓋文檔處理、數據分析、知識檢索等場景，真正像“打工人”一樣高效干活。

三、性價比之王：效率飆升，價格“打骨折”

如果說能力是Hy3preview的“硬底氣”，那效率和價格就是它的“殺手锏”。姚順雨團隊沒有盲目追求“極限能力”，而是深度打磨架構與推理框架，在“好用”的前提下，做到“便宜用、用得起”。

推理效率上，Hy3preview實現大幅突破：相比上一代，首token延遲降低54%，端到端時長下降47%，整體推理效率提升40%。這意味著用戶調用時響應更快、等待時間更短，復雜任務也能快速完成，體驗感大幅提升。

價格方面更是“誠意拉滿”，主打“高性價比”：0-16K上下文場景中，輸入價格最低1.2元/百萬tokens，命中緩存后僅需0.4元，輸出4元/百萬tokens；即便在最高256K長上下文場景，輸入也僅2元/百萬tokens，輸出8元/百萬tokens，遠低于國際閉源模型。

針對開發者和企業用戶，騰訊還推出梯度Token套餐：個人Lite套餐月費僅28元，含3500萬tokens，折合單價約0.8元/百萬tokens；Standard、Pro、Max套餐額度更高，單價最低降至0.72元/百萬tokens。這種定價策略，徹底打破“大模型貴得用不起”的痛點，尤其適合高頻調用、長鏈路Agent任務，讓中小開發者也能低成本用上頂級大模型。

四、落地與競爭：融入騰訊生態，迎戰“神仙打架”

Hy3preview不是“實驗室模型”，而是從誕生起就扎根騰訊生態、面向真實場景的“實用工具”。目前，它已率先接入騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ等多條核心產品線，覆蓋聊天、辦公、開發、社交等場景。同時，它還支持接入OpenClaw、OpenCode等主流開源智能體產品，已上架騰訊云TokenHub，方便開發者快速調用、二次開發。

放眼整個大模型賽道，當下堪稱“神仙打架”：4月18日，Anthropic發布ClaudeOpus4.7；4月20日，阿里推出Qwen3.6-Max-Preview；4月21日，Kimi開源K2.6；4月23日，小米一口氣官宣4款MiMo新模型；本周內，行業期待的“開源猛獸”DeepSeekV4也將發布。國內外頭部模型扎堆上新，意味著大模型格局即將迎來新一輪洗牌。

在這場激烈競爭中，Hy3preview的定位很清晰：不跟國際閉源模型拼“極限能力”，不跟國內同行拼“參數規模”，而是聚焦“全面實用性”，主打“能力夠用、價格便宜、落地順暢”。它的優勢在于深度融入騰訊生態，能借助微信、QQ、騰訊云等產品觸達海量用戶，快速迭代優化；同時，姚順雨團隊的Agent技術積累，也讓它在復雜智能體場景中具備差異化競爭力。

當然，Hy3preview也并非完美：在頂級推理、多模態細節處理上，與ClaudeOpus4.6、GPT-5.4等國際頂尖模型仍有差距；部分高難度代碼任務中，偶爾會出現細節錯誤。但這些短板，并不影響它成為“國內第一梯隊、高性價比首選”的大模型。

五、重建第一步，騰訊AI的“務實新起點”

Hy3preview的發布，對騰訊、對姚順雨、對整個大模型行業，都有著特殊意義。對騰訊而言，這是混元重建后的首個成果，標志著其在大模型賽道徹底告別“摸索期”，找到了“重實用、降成本、深落地”的清晰方向；對姚順雨而言，這是他歸國后交出的首份答卷，證明了他的技術理念不僅先進，更能落地，能幫騰訊補齊AI短板；對行業而言，Hy3preview的成功，印證了“AI下半場”的趨勢：盲目堆參數、刷榜單的時代已經過去，能解決真實問題、具備商業可行性的模型，才是最終的贏家。

Hy3preview不是終點，而是騰訊AI務實發展的新起點。按照姚順雨的規劃，未來團隊會繼續擴大預訓練和強化學習規模，提升模型智能上限；同時深化與騰訊產品的協同設計，讓模型在真實場景中持續迭代，不斷補齊短板、強化優勢。

在這場沒有硝煙的AI競爭中，騰訊不再是“追趕者”，而是憑借Hy3preview，成為“實用派”的代表。未來，隨著技術持續迭代、生態不斷完善，Hy3preview能否帶領騰訊在大模型賽道實現彎道超車？又能否憑借“實用性”定義行業新標桿？時間會給出答案。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.