![]()
2026年4月23日,騰訊正式開源新一代大模型混元Hy3preview。這不是一次普通的版本迭代,而是27歲首席AI科學家姚順雨掌舵混元后,交出的首份“成績單”。入職騰訊不到半年、帶隊重構混元基礎設施僅3個月,Hy3preview的登場,不僅是騰訊在大模型賽道的重新發力,更折射出行業從“堆參數、刷榜單”到“重實用、降成本”的轉向。當下國內外大模型扎堆上新,從Anthropic的ClaudeOpus4.7到阿里Qwen3.6-Max-Preview,再到即將發布的DeepSeekV4,這場“神仙打架”中,Hy3preview不靠“千億參數”博眼球,而是以295B參數、主打“全面實用性”,試圖在能力與成本間找到最優解。它到底有幾分實力?又能否幫騰訊在激烈競爭中站穩腳跟?
![]()
一、天才掌舵:姚順雨與混元的“重建之路”
聊Hy3preview,繞不開背后的核心人物——姚順雨。這個1998年出生的年輕人,履歷堪稱“天才范本”:清華姚班本科、普林斯頓博士,師從GPT核心作者之一,是AI領域奠基性框架ReAct(推理-行動)和思維樹(TreeofThoughts)的提出者。2024年博士畢業后加入OpenAI,深度參與Operator、DeepResearch等核心智能體項目,一手扎根學術,一手深耕工程。
2025年底,姚順雨低調入職騰訊,出任首席AI科學家,同時執掌AIInfra部與大語言模型部,直接向騰訊核心高管匯報——這樣的權限,在騰訊歷史上都極為罕見。彼時的混元,雖已推出兩代模型,但在激烈競爭中聲量平平,核心短板在于智能體(Agent)能力弱、推理成本高、與真實業務結合不緊密。
姚順雨的到來,給混元帶來了“推倒重來”的變革。他入職后第一件事,就是拆解混元的技術架構,排查問題根源,常常和團隊討論到深夜。2026年2月,騰訊正式啟動混元基礎設施重建,徹底推翻舊架構,聚焦“實用性”重構研發邏輯——不盲目跟風堆參數,而是把資源砸在工程穩定性、推理效率和真實場景適配三大核心上。
這背后,是姚順雨一直堅持的“AI下半場”理念:AI的競爭早已不是“做題、刷榜”的上半場,而是轉向“解決真實世界問題”的下半場;模型的價值,從來不是榜單上的分數,而是能否在復雜場景中落地、幫用戶創造實際價值。Hy3preview,正是這一理念落地的首個成果,也是混元重建后邁出的關鍵一步。
![]()
二、硬實力拆解:295B參數,打出“全能表現”
作為混元迄今最智能的版本,Hy3preview沒有走“參數越大越強”的老路,而是采用快慢思考融合的混合專家(MoE)架構,總參數295B,實際激活參數僅21B,既保證能力,又控制成本,最長支持256K上下文,能輕松處理超長文檔、復雜任務鏈。從實測和榜單數據來看,它的“全能感”很突出,在推理、代碼、智能體三大核心能力上全面升級。
1.復雜推理:數學能力登頂國內,邏輯“不掉鏈”
推理能力是大模型的“基本功”,也是解決復雜問題的核心。Hy3preview在數學推理上表現亮眼:在FrontierScience-Olympiad(科學奧賽)拿下70.0分,IMOAnswerBench(國際奧數基準)達到84.3分,整體超過國內的GLM-5、Kimi-K2.5,接近國際頂級的Gemini3.1Pro與GPT-5.4。更值得一提的是,它在清華求真書院數學博士資格考試中拿到88.4分,創下國內模型最高紀錄,硬核數學實力拉滿。
日常邏輯題更是“小菜一碟”。面對“開車100米去洗車還是走著去”的陷阱題,它能精準判斷“走著去更劃算”,還幽默補充“特殊情況可代駕取車”;面對“父母能否結婚”的常識題,它能快速識別邏輯漏洞,給出正確答案,完全避開文字陷阱。這種“快慢思考”融合的機制,讓它處理簡單任務時反應迅速,遇到復雜問題時能沉下心深度推理,邏輯鏈條完整不中斷。
![]()
![]()
2.代碼能力:逼近第一梯隊,工程實用性拉滿
代碼能力是大模型落地生產力場景的關鍵,也是姚順雨在OpenAI深耕的領域。Hy3preview在代碼基準測試中表現亮眼:SWE-BenchVerified(真實代碼修復基準)達到74.4%,逼近國內頂尖的GLM-5與Kimi-K2.5;Terminal-Bench2.0(終端命令執行)得分54.4%,超過GLM-4.7等前輩模型,成功躋身第一梯隊。
實測中,我們用高難度任務“生成Xbox360控制器SVG代碼”考驗它——這款控制器有復雜的非對稱曲線、密集的搖桿和按鍵布局,非常考驗模型對二維坐標、圖層疊加和幾何計算的精準把控能力。雖然首次生成效果不夠完美,但二次生成后已能還原核心輪廓,細節雖不及國際頂級模型,但在國內模型中已屬上游水平。更重要的是,它在騰訊內部的CodeBuddy(代碼助手)中已穩定落地,首響應延遲降低54%,端到端任務時長縮短47%,任務成功率超99.99%,真正能用、好用。
![]()
3.智能體(Agent):能力翻倍,長鏈路任務“不掉線”
智能體是大模型落地復雜場景的核心,也是Hy3preview的核心發力點。相比上一代Hy2,Hy3preview的Agent能力實現質的飛躍:在涵蓋16項基準的綜合評測中,平均得分從35分飆升至56分,直接甩開GLM-4.7、DeepSeek-V3.2,接近GLM-5與Kimi-K2.5的水平。
細分場景中,它的表現同樣能打:WildClawBench(純文本Agent)得分45.3,超過Kimi-K2.5;ClawEval(工具調用評測)達到55.0,超越Kimi-K2.5,逼近GLM-5。實測長鏈路任務時,它能自主完成“搜索-抓取-分析-輸出”全流程:比如核查“庫克加入小米汽車”的傳聞,它會自主規劃路徑,多輪調用工具查找中英文報道、官方聲明,不敷衍、不臆斷。在騰訊WorkBuddy(辦公智能體)中,它已能穩定驅動最長495步的復雜工作流,覆蓋文檔處理、數據分析、知識檢索等場景,真正像“打工人”一樣高效干活。
![]()
三、性價比之王:效率飆升,價格“打骨折”
如果說能力是Hy3preview的“硬底氣”,那效率和價格就是它的“殺手锏”。姚順雨團隊沒有盲目追求“極限能力”,而是深度打磨架構與推理框架,在“好用”的前提下,做到“便宜用、用得起”。
推理效率上,Hy3preview實現大幅突破:相比上一代,首token延遲降低54%,端到端時長下降47%,整體推理效率提升40%。這意味著用戶調用時響應更快、等待時間更短,復雜任務也能快速完成,體驗感大幅提升。
價格方面更是“誠意拉滿”,主打“高性價比”:0-16K上下文場景中,輸入價格最低1.2元/百萬tokens,命中緩存后僅需0.4元,輸出4元/百萬tokens;即便在最高256K長上下文場景,輸入也僅2元/百萬tokens,輸出8元/百萬tokens,遠低于國際閉源模型。
![]()
針對開發者和企業用戶,騰訊還推出梯度Token套餐:個人Lite套餐月費僅28元,含3500萬tokens,折合單價約0.8元/百萬tokens;Standard、Pro、Max套餐額度更高,單價最低降至0.72元/百萬tokens。這種定價策略,徹底打破“大模型貴得用不起”的痛點,尤其適合高頻調用、長鏈路Agent任務,讓中小開發者也能低成本用上頂級大模型。
![]()
四、落地與競爭:融入騰訊生態,迎戰“神仙打架”
Hy3preview不是“實驗室模型”,而是從誕生起就扎根騰訊生態、面向真實場景的“實用工具”。目前,它已率先接入騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ等多條核心產品線,覆蓋聊天、辦公、開發、社交等場景。同時,它還支持接入OpenClaw、OpenCode等主流開源智能體產品,已上架騰訊云TokenHub,方便開發者快速調用、二次開發。
放眼整個大模型賽道,當下堪稱“神仙打架”:4月18日,Anthropic發布ClaudeOpus4.7;4月20日,阿里推出Qwen3.6-Max-Preview;4月21日,Kimi開源K2.6;4月23日,小米一口氣官宣4款MiMo新模型;本周內,行業期待的“開源猛獸”DeepSeekV4也將發布。國內外頭部模型扎堆上新,意味著大模型格局即將迎來新一輪洗牌。
在這場激烈競爭中,Hy3preview的定位很清晰:不跟國際閉源模型拼“極限能力”,不跟國內同行拼“參數規模”,而是聚焦“全面實用性”,主打“能力夠用、價格便宜、落地順暢”。它的優勢在于深度融入騰訊生態,能借助微信、QQ、騰訊云等產品觸達海量用戶,快速迭代優化;同時,姚順雨團隊的Agent技術積累,也讓它在復雜智能體場景中具備差異化競爭力。
當然,Hy3preview也并非完美:在頂級推理、多模態細節處理上,與ClaudeOpus4.6、GPT-5.4等國際頂尖模型仍有差距;部分高難度代碼任務中,偶爾會出現細節錯誤。但這些短板,并不影響它成為“國內第一梯隊、高性價比首選”的大模型。
五、重建第一步,騰訊AI的“務實新起點”
Hy3preview的發布,對騰訊、對姚順雨、對整個大模型行業,都有著特殊意義。對騰訊而言,這是混元重建后的首個成果,標志著其在大模型賽道徹底告別“摸索期”,找到了“重實用、降成本、深落地”的清晰方向;對姚順雨而言,這是他歸國后交出的首份答卷,證明了他的技術理念不僅先進,更能落地,能幫騰訊補齊AI短板;對行業而言,Hy3preview的成功,印證了“AI下半場”的趨勢:盲目堆參數、刷榜單的時代已經過去,能解決真實問題、具備商業可行性的模型,才是最終的贏家。
Hy3preview不是終點,而是騰訊AI務實發展的新起點。按照姚順雨的規劃,未來團隊會繼續擴大預訓練和強化學習規模,提升模型智能上限;同時深化與騰訊產品的協同設計,讓模型在真實場景中持續迭代,不斷補齊短板、強化優勢。
在這場沒有硝煙的AI競爭中,騰訊不再是“追趕者”,而是憑借Hy3preview,成為“實用派”的代表。未來,隨著技術持續迭代、生態不斷完善,Hy3preview能否帶領騰訊在大模型賽道實現彎道超車?又能否憑借“實用性”定義行業新標桿?時間會給出答案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.