網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

獨(dú)家｜梁文鋒將攜DeepSeek V4撞上姚順雨

2026-03-12 17:17:28　來源: 白鯨實(shí)驗(yàn)室one

北京舉報(bào)

分享至

我們獨(dú)家獲悉，外界千呼萬喚的DeepSeek-V4將于4月正式上線。作為梁文鋒打磨已久的多模態(tài)大模型，DeepSeek-V4除了在Coding能力上躍升之外，還將在LTM（long term memory長(zhǎng)期記憶）上取得突破。

一位接近DeepSeek的人士告訴我們，梁文鋒近半年的主要工作是補(bǔ)齊DeepSeek此前在視覺內(nèi)容處理，以及AI搜索等方面的短板。為了強(qiáng)化DeepSeek的AI搜索能力，DeepSeek早在去年就與百度合作。

自去年1月，DeepSeek發(fā)布風(fēng)靡全球的推理模型DeepSeek-R1以來，一直未有大版本的模型迭代。市場(chǎng)上有關(guān)DeepSeek大迭代版本模型即將到來的消息，每隔一段時(shí)間總會(huì)掀起一陣"It's coming"的討論。

人們?cè)谌W(wǎng)專業(yè)平臺(tái)上試圖捕捉DeepSeek新版本的跡象。

3月11日，全球最大的AI模型API聚合平臺(tái)OpenRouter上線兩個(gè)隱身模型，分別是Healer Alpha和Hunter Alpha。Healer Alpha是一款前沿的全模態(tài)模型，能夠原生感知視覺和聽覺輸入，進(jìn)行跨模態(tài)推理，并精確可靠地執(zhí)行復(fù)雜的多步驟任務(wù)，但上下文只有26萬。

Hunter Alpha專為智能體應(yīng)用構(gòu)建，是一個(gè)擁有上萬億參數(shù)和100萬token上下文的智能模型。該模型介紹里還顯示，它擅長(zhǎng)長(zhǎng)期規(guī)劃、復(fù)雜推理和持續(xù)的多步驟任務(wù)執(zhí)行，并具備OpenClaw等框架所需的可靠性和指令執(zhí)行精度。

針對(duì)這兩個(gè)模型，X上又出現(xiàn)一波DeepSeek-V4要來了的聲音。不過從此前公開報(bào)道的DeepSeek-V4來看，DeepSeek-V4具有萬億參數(shù)，100萬長(zhǎng)上下文，同時(shí)具備原生多模態(tài)能力，支持文本、圖像、視頻的聯(lián)合理解與生成。

OpenRouter上的這兩個(gè)隱身模型的特征與之并不完全吻合。

根據(jù)我們的獨(dú)家信源，梁文鋒待推出的DeepSeek-V4迭代的方向，正是大模型領(lǐng)域今年“皇冠上的明珠”—LTM。

最近半年（2025年9月11日-2026年3月11日），梁文鋒署名的論文主要有三篇。其中《DeepSeek-R1 推理模型研究》發(fā)表于國際頂級(jí)期刊《Nature》，另有兩篇為預(yù)印本論文《mHC（流形約束超連接）框架》，《條件記憶：大語言模型稀疏性的新維度》。

梁文鋒及其團(tuán)隊(duì)在近半年的研究成果，也呈現(xiàn)出清晰的技術(shù)演進(jìn)路線。

通過DeepSeek-R1確立了推理能力的強(qiáng)化學(xué)習(xí)范式后，DeepSeek正進(jìn)一步探索底層架構(gòu)創(chuàng)新。特別是通過“條件記憶”（Engram）等新模塊，試圖在提升模型性能的同時(shí)，解決傳統(tǒng)Transformer架構(gòu)在記憶和算力方面的瓶頸，也是為DeepSeek-V4做技術(shù)儲(chǔ)備。

同時(shí)，V4還將深度適配國產(chǎn)芯片，有望成為第一個(gè)完全跑在“國產(chǎn)算力生態(tài)”上的大模型。

4月，中國大模型競(jìng)技場(chǎng)上依然會(huì)很熱鬧。除了備受矚目的DeepSeek，我們從騰訊內(nèi)部了解到，作為騰訊首席AI科學(xué)家姚順雨也將發(fā)布混元新模型（30B參數(shù)級(jí)別）。

姚順雨在去年12月官宣正式加入騰訊后，一直忙于模型和產(chǎn)品的開發(fā)。據(jù)悉，早在去年年初姚順雨就接受邀請(qǐng)回國，不同于外界所傳姚順雨僅有半年的時(shí)間推出新模型，實(shí)際上，姚順雨對(duì)新模型的準(zhǔn)備早已開始。

而姚順雨的30B參數(shù)模型，在動(dòng)輒千億、萬億參數(shù)的今天，顯得有些“小巧”。不過，這恰恰符合姚順雨的理念——方法的復(fù)雜程度，應(yīng)該和任務(wù)本身的難度相匹配，真正的突破來自于用最優(yōu)雅的方法解決最復(fù)雜的問題。

在騰訊內(nèi)部，姚順雨也要求團(tuán)隊(duì)成員不要以打榜為導(dǎo)向。

梁文鋒和姚順雨，一位是“全村人都在等著上桌吃飯”的明星創(chuàng)業(yè)者，一位是“從硅谷空降回來改造大廠”的95后明星科學(xué)家。他們作為備受矚目的國產(chǎn)大模型核心人物，會(huì)怎么影響模型格局，目前尚未可知。

不過，從外部看，兩人面臨的壓力大不相同。

對(duì)梁文鋒而言，DeepSeek APP的MAU已經(jīng)超過1億，但在R1火爆全球之后，大家的期待也被抬到了前所未有的高度。V4的壓力正是來源于必須再次成為全世界最出色的開源大模型。

更何況春節(jié)前后，豆包、千問、智譜、MiniMax等競(jìng)爭(zhēng)對(duì)手陸續(xù)發(fā)布新版本，這被視為對(duì)DeepSeek的“預(yù)防性競(jìng)爭(zhēng)行為”。從春節(jié)一直遲到至今的V4，讓市場(chǎng)的焦躁與日俱增。

而對(duì)姚順雨而言，壓力則來自于騰訊大模型需要證明自己。

過去兩年，騰訊在大模型上的節(jié)奏相對(duì)謹(jǐn)慎，混元大模型在元寶APP和微信內(nèi)，長(zhǎng)期被作為DeepSeek之外的第二選項(xiàng)存在。姚順雨也被寄予厚望，他需要幫騰訊AI大模型找到長(zhǎng)期表現(xiàn)欠佳的病根，并用實(shí)際的產(chǎn)品證明，騰訊擁有后發(fā)制人的能力。

壓力的另一面也是動(dòng)力，我們不妨期待4月，國產(chǎn)模型真的能把全球大模型進(jìn)展再推上一個(gè)臺(tái)階。

撰寫｜馬舒葉

編輯｜劉培

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.