![]()
我們獨(dú)家獲悉,外界千呼萬喚的DeepSeek-V4將于4月正式上線。作為梁文鋒打磨已久的多模態(tài)大模型,DeepSeek-V4除了在Coding能力上躍升之外,還將在LTM(long term memory長(zhǎng)期記憶)上取得突破。
一位接近DeepSeek的人士告訴我們,梁文鋒近半年的主要工作是補(bǔ)齊DeepSeek此前在視覺內(nèi)容處理,以及AI搜索等方面的短板。為了強(qiáng)化DeepSeek的AI搜索能力,DeepSeek早在去年就與百度合作。
自去年1月,DeepSeek發(fā)布風(fēng)靡全球的推理模型DeepSeek-R1以來,一直未有大版本的模型迭代。市場(chǎng)上有關(guān)DeepSeek大迭代版本模型即將到來的消息,每隔一段時(shí)間總會(huì)掀起一陣"It's coming"的討論。
人們?cè)谌W(wǎng)專業(yè)平臺(tái)上試圖捕捉DeepSeek新版本的跡象。
3月11日,全球最大的AI模型API聚合平臺(tái)OpenRouter上線兩個(gè)隱身模型,分別是Healer Alpha和Hunter Alpha。Healer Alpha是一款前沿的全模態(tài)模型,能夠原生感知視覺和聽覺輸入,進(jìn)行跨模態(tài)推理,并精確可靠地執(zhí)行復(fù)雜的多步驟任務(wù),但上下文只有26萬。
Hunter Alpha專為智能體應(yīng)用構(gòu)建,是一個(gè)擁有上萬億參數(shù)和100萬token上下文的智能模型。該模型介紹里還顯示,它擅長(zhǎng)長(zhǎng)期規(guī)劃、復(fù)雜推理和持續(xù)的多步驟任務(wù)執(zhí)行,并具備OpenClaw等框架所需的可靠性和指令執(zhí)行精度。
針對(duì)這兩個(gè)模型,X上又出現(xiàn)一波DeepSeek-V4要來了的聲音。不過從此前公開報(bào)道的DeepSeek-V4來看,DeepSeek-V4具有萬億參數(shù),100萬長(zhǎng)上下文,同時(shí)具備原生多模態(tài)能力,支持文本、圖像、視頻的聯(lián)合理解與生成。
OpenRouter上的這兩個(gè)隱身模型的特征與之并不完全吻合。
根據(jù)我們的獨(dú)家信源,梁文鋒待推出的DeepSeek-V4迭代的方向,正是大模型領(lǐng)域今年“皇冠上的明珠”—LTM。
最近半年(2025年9月11日-2026年3月11日),梁文鋒署名的論文主要有三篇。其中《DeepSeek-R1 推理模型研究》發(fā)表于國際頂級(jí)期刊《Nature》,另有兩篇為預(yù)印本論文《mHC(流形約束超連接)框架》,《條件記憶:大語言模型稀疏性的新維度》。
梁文鋒及其團(tuán)隊(duì)在近半年的研究成果,也呈現(xiàn)出清晰的技術(shù)演進(jìn)路線。
通過DeepSeek-R1確立了推理能力的強(qiáng)化學(xué)習(xí)范式后,DeepSeek正進(jìn)一步探索底層架構(gòu)創(chuàng)新。特別是通過“條件記憶”(Engram)等新模塊,試圖在提升模型性能的同時(shí),解決傳統(tǒng)Transformer架構(gòu)在記憶和算力方面的瓶頸,也是為DeepSeek-V4做技術(shù)儲(chǔ)備。
同時(shí),V4還將深度適配國產(chǎn)芯片,有望成為第一個(gè)完全跑在“國產(chǎn)算力生態(tài)”上的大模型。
4月,中國大模型競(jìng)技場(chǎng)上依然會(huì)很熱鬧。除了備受矚目的DeepSeek,我們從騰訊內(nèi)部了解到,作為騰訊首席AI科學(xué)家姚順雨也將發(fā)布混元新模型(30B參數(shù)級(jí)別)。
姚順雨在去年12月官宣正式加入騰訊后,一直忙于模型和產(chǎn)品的開發(fā)。據(jù)悉,早在去年年初姚順雨就接受邀請(qǐng)回國,不同于外界所傳姚順雨僅有半年的時(shí)間推出新模型,實(shí)際上,姚順雨對(duì)新模型的準(zhǔn)備早已開始。
而姚順雨的30B參數(shù)模型,在動(dòng)輒千億、萬億參數(shù)的今天,顯得有些“小巧”。不過,這恰恰符合姚順雨的理念——方法的復(fù)雜程度,應(yīng)該和任務(wù)本身的難度相匹配,真正的突破來自于用最優(yōu)雅的方法解決最復(fù)雜的問題。
在騰訊內(nèi)部,姚順雨也要求團(tuán)隊(duì)成員不要以打榜為導(dǎo)向。
梁文鋒和姚順雨,一位是“全村人都在等著上桌吃飯”的明星創(chuàng)業(yè)者,一位是“從硅谷空降回來改造大廠”的95后明星科學(xué)家。他們作為備受矚目的國產(chǎn)大模型核心人物,會(huì)怎么影響模型格局,目前尚未可知。
不過,從外部看,兩人面臨的壓力大不相同。
對(duì)梁文鋒而言,DeepSeek APP的MAU已經(jīng)超過1億,但在R1火爆全球之后,大家的期待也被抬到了前所未有的高度。V4的壓力正是來源于必須再次成為全世界最出色的開源大模型。
更何況春節(jié)前后,豆包、千問、智譜、MiniMax等競(jìng)爭(zhēng)對(duì)手陸續(xù)發(fā)布新版本,這被視為對(duì)DeepSeek的“預(yù)防性競(jìng)爭(zhēng)行為”。從春節(jié)一直遲到至今的V4,讓市場(chǎng)的焦躁與日俱增。
而對(duì)姚順雨而言,壓力則來自于騰訊大模型需要證明自己。
過去兩年,騰訊在大模型上的節(jié)奏相對(duì)謹(jǐn)慎,混元大模型在元寶APP和微信內(nèi),長(zhǎng)期被作為DeepSeek之外的第二選項(xiàng)存在。姚順雨也被寄予厚望,他需要幫騰訊AI大模型找到長(zhǎng)期表現(xiàn)欠佳的病根,并用實(shí)際的產(chǎn)品證明,騰訊擁有后發(fā)制人的能力。
壓力的另一面也是動(dòng)力,我們不妨期待4月,國產(chǎn)模型真的能把全球大模型進(jìn)展再推上一個(gè)臺(tái)階。
撰寫|馬舒葉
編輯|劉培
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.