網易首頁 > 網易號 > 正文申請入駐

DeepSeek告別“孤膽英雄”時代

2026-04-24 14:17:09　來源: 吳懟懟

上海舉報

分享至

DeepSeek V4發布是確定的，而融資仍屬于媒體報道和交易傳聞階段。

DeepSeek官網已經顯示“DeepSeek-V4 Preview”上線，并稱其具備更強Agent能力和頂級推理能力，已可在網頁、App和API使用。

DeepSeek在4月24日開始預覽V4，包含Pro和Flash兩個版本，將接替2024年12月發布的V3。

融資這邊，截至目前公開口徑仍是“洽談中”。騰訊、阿里正在洽談投資DeepSeek，估值超過200億美元；并強調DeepSeek、騰訊、阿里均未立即回應。

《財經》進一步報道稱，DeepSeek正在洽談融資，投資方為騰訊和阿里，兩家預計合計投資18億美元，估值約200億美元，但交易方案尚未完全敲定。

V4發布意味著什么？

DeepSeek上一次真正改寫行業敘事，是V3到R1那一輪。那時它同時打穿了幾件事：低成本、高性能、開源權重、推理模型。

R1之后，DeepSeek面對的真正考驗，是能不能繼續交出下一代東西。

很多技術公司的高光時刻只有一次。一次爆款模型、一次輿論破圈、一次資本市場震動，都可能把一家公司推到聚光燈下。但真正難的，是聚光燈退去以后，還能不能繼續迭代。

V4至少說明，DeepSeek沒有停在R1時刻。它靠低成本奇襲打出過聲量，也還在繼續迭代旗艦模型。

而且這次V4的重點，已經從“便宜”繼續往前走了一步。

根據DeepSeek官方Hugging Face頁面，V4系列包括兩個MoE模型：V4-Pro為1.6T總參數、49B激活參數；V4-Flash為284B總參數、13B激活參數；二者都支持100萬token上下文。

這說明DeepSeek正在把競爭重點，從單純的性價比，推向更復雜的任務場景。

這些能力都指向同一個方向：更復雜的任務執行。長上下文讓模型能處理更長資料和連續任務，Thinking Mode對應復雜推理，Tool Calls和JSON輸出則更適合接入外部系統、被應用層穩定調用。這也是為什么V4會被放進Agent語境里討論。

更進一步看，V4真正重要的地方，還在于DeepSeek仍然圍繞“效率”做文章。DeepSeek既想讓模型讀得更長，也想讓模型更便宜地讀得更長。

大模型下一階段的競爭，不會只發生在排行榜上。排行榜回答的是“誰更強”，但真實商業世界還要繼續追問：誰能把這種能力穩定、低成本、大規模地交付出去？

一個模型能讀100萬token是一回事，大量用戶、開發者、企業客戶能不能以可承受的價格調用，又是另一回事。

如果長上下文只停留在演示階段，它更像技術秀肌肉；如果長上下文可以被壓低成本，進入API、企業應用、Agent工作流，它才會變成基礎設施能力。

所以V4延續了DeepSeek最核心的路線：不單純堆參數，繼續壓榨系統效率。

V4-Pro更像能力上限版本，用來承擔復雜推理、長上下文和更高難度任務；V4-Flash則更像規模化調用版本，用來覆蓋速度、成本和高頻場景。

這說明DeepSeek已經考慮不同用戶、不同場景、不同成本結構下的服務形態。

Web、App、API同時推進；Pro和Flash同時出現；長上下文、推理、工具調用一起被強調。DeepSeek準備走向一個需要承接真實應用、真實調用和真實商業化壓力的玩家。

為什么DeepSeek要融資？

更準確地說，是舊的資金結構已經不適配新的競爭階段。

過去DeepSeek的特殊性在于，它背后有幻方量化/High-Flyer的資金、算力和工程積累，所以它可以長時間保持一種“非VC敘事”：不急著融資，不急著商業化，不急著講增長故事。

有說法稱，DeepSeek過去曾拒絕過中國頂級VC和科技巨頭的多次融資提議。

但到了V4階段，情況變了。

訓練和推理成本都在上升。

V3時代，DeepSeek最震撼市場的是用極低訓練成本做出強模型。V3技術報告稱，DeepSeek-V3是671B總參數、37B激活參數的MoE模型，預訓練數據為14.8T tokens，完整訓練只用了2.788M H800 GPU hours。

但V4已經變成1.6T總參數、32T以上預訓練tokens、百萬上下文、Agent能力。

這個量級繼續往前走，哪怕DeepSeek再擅長工程優化，也不可能完全擺脫資本開支。推理側更是長期成本黑洞：用戶越多，調用越多，API越便宜，虧損壓力越明顯。

還有一個不能忽略的變量，是國產算力適配。

V4發布前后，圍繞DeepSeek與華為昇騰的消息明顯增多。基于Ascend 950 AI芯片的昇騰Supernode將全面支持DeepSeek V4。

更深一層看，它關系到中國大模型下一階段的安全墊：模型公司要繼續迭代，就必須考慮國產算力、云服務和軟件棧的適配問題。

另外，人才競爭變成硬成本。

《財經》報道里提到，DeepSeek開放融資的原因之一是防止人才流失。2025年之后，中國AI人才市場已經進入“核心研究員天價爭奪”階段。DeepSeek此前最強的是“小團隊、高密度、研究導向”，但一旦行業巨頭開始用現金、期權、算力、數據、產品落地機會來搶人，很難長期防守。

DeepSeek要保住模型迭代速度，就必須把人才激勵從“項目榮譽+研究自由”升級到“長期利益綁定”。

DeepSeek也需要生態入口，而不只是模型能力。

R1讓DeepSeek出圈，但真正的問題是：出圈之后，流量、算力、API、開發者、企業客戶、Agent應用、辦公場景、云市場入口，誰來承接？

OpenAI背后有幾乎所有大廠參與其中。Anthropic背后有亞馬遜、谷歌。Gemini自身就是上市大廠谷歌旗下。xAI有馬斯克系流量和資本。

國內大廠有自己的云、有App、有辦公軟件、有搜索、有支付、有內容生態、有企業客戶。DeepSeek如果繼續完全獨立，它可以是最強開源模型之一，但很難獨自完成從模型到產業基礎設施的最后一公里。

DeepSeek需要把“模型優勢”換成“生態優勢”。

為什么是騰訊和阿里？

我在2025年2月分析過：如果DeepSeek必須拿大廠的錢，騰訊和阿里確實是最合理的兩家。現在看，這個邏輯更強了。

騰訊最適合做“低干預、高分發、高場景”的戰略股東。

騰訊對DeepSeek的價值，在于三件事：入口、場景、組織耐心。

騰訊有微信、QQ、騰訊會議、企業微信、騰訊文檔、騰訊云、游戲、內容和小程序生態。DeepSeek如果要做Agent，最難的不是模型本身，而是Agent能不能進入真實用戶工作流。騰訊的場景是天然的Agent試驗田。

更重要的是，騰訊投資的歷史口碑確實相對特殊。它不是沒有戰略訴求，但相比很多大廠，騰訊更習慣做“生態型投資”而不是“吞并型投資”。美團、京東、拼多多這些案例都說明，騰訊過去能接受被投企業保持相當獨立性。

對DeepSeek這種極度重視研究文化和控制權的公司來說，這一點非常重要。

DeepSeek不需要和騰訊成為競爭對手。騰訊自己當然也做混元，但騰訊真正的強項是把最好的模型能力接入自己的應用和云生態。

如果DeepSeek拿騰訊的錢，是給自己找一個超級分發股東。

阿里最適合做“云+開源+開發者生態”的戰略股東。

阿里對DeepSeek的價值則更偏基礎設施。

阿里云是中國最重要的云計算平臺之一，通義千問/Qwen又是國內開源模型生態最強的玩家之一。阿里此前在AI賽道是“買賽道”式布局：月之暗面、MiniMax、智譜、百川、零一萬物等都曾進入阿里的投資版圖。

對阿里來說，DeepSeek如果持續強大，會帶來幾個價值：

增強阿里云在模型市場的吸引力；

補足阿里在最頂級推理模型上的外部生態；

和Qwen形成“自研+外部最強開源系”的雙支點；

避免DeepSeek完全倒向騰訊或其他大廠。

DeepSeek R1發布時有一系列distill模型使用了Qwen和Llama作為底座，例如DeepSeek-R1-Distill-Qwen系列；這說明Qwen在國內開源生態里已經是重要基座。

DeepSeek的蒸餾模型體系曾使用Qwen作為重要底座之一，這讓阿里與DeepSeek之間天然存在開源生態交集。

為什么不是字節？

字節當然也有錢、有流量、有模型、有產品。但正因為它都有，反而不一定是DeepSeek最舒服的股東。

字節已經重注豆包，且豆包是非常強的C端AI產品。如果字節投DeepSeek，戰略協同很強，但競爭張力也更強。DeepSeek要保持獨立研究路線，未必愿意進入一個已有強自研模型和強C端產品的大體系里。

騰訊和阿里相比之下更像“互補型股東”：騰訊給入口和場景，阿里給云和開發者生態。字節則更像“強競爭型股東”：它能給很多，但也可能讓DeepSeek的戰略獨立性變得更敏感。

這輪融資真正說明了什么？

過去DeepSeek像一個反常識樣本：不融資、不營銷、不卷商業化，靠一群年輕研究員和極致工程效率，突然打穿全球AI敘事。

但V4之后，它面對的是另一套規則：

V4之后，DeepSeek面對的是另一套規則：開源模型需要持續投入，低價API需要長期算力支撐，Agent能力需要場景閉環，百萬上下文需要推理基礎設施，頂級人才也需要資本化激勵。更不用說，中國AI公司還要在芯片、云、監管和國際環境之間找平衡。

所以這輪融資如果落地，說明DeepSeek開始接受一個現實：模型能力可以靠天才團隊突破一次，但基礎設施戰爭不能只靠天才團隊長期單挑。

DeepSeek要融資，也是在給自己補一套更穩的產業底座。模型越往后走，競爭就越不是單純的算法競賽，而是模型、芯片、云、框架和應用場景之間的系統協同。

騰訊和阿里能提供入口與云生態，華為昇騰則代表另一條國產算力路線。DeepSeek要成為基礎設施級玩家，就不可能繞開這張產業網。

05
DeepSeek是怎么走到今天的？

DeepSeek的底色來自幻方量化。幻方長期把機器學習用于量化交易，這讓梁文鋒團隊在DeepSeek成立之前，就已經習慣了一個高度依賴算法、算力和工程效率的環境。

所以DeepSeek一出來，氣質就和很多AI創業公司不同。它不像典型VC驅動的模型公司，更像是從量化系統里長出來的AI研究組織。

這種出身很重要。因為量化交易本身就是一個極度講究效率的行業：同樣的數據，誰處理得更快；同樣的算力，誰壓榨得更狠；同樣的模型，誰能用更低成本跑出更好結果。這些東西，后來幾乎都變成了DeepSeek做大模型時的核心方法論。

所以DeepSeek后來反復強調的“低成本”“高效率”“MoE架構”“更低推理成本”，并不是突然想出來的營銷標簽，而是它從幻方時代就繼承下來的工程基因。

2023年DeepSeek正式成立之后，沒有先做一個封閉的超級App，也沒有先去鋪天蓋地做市場投放，而是選擇了一個當時看起來沒那么性感、但后來被證明很關鍵的方向：開源模型。

DeepSeek LLM、DeepSeek Coder這些早期模型，真正的意義是DeepSeek開始在開發者社區里建立一種標簽：這個團隊不是只會寫論文，也不是只會講中國版OpenAI故事，它是真的愿意把模型拿出來，讓開發者用，讓市場測，讓同行比較。

代碼模型尤其關鍵。代碼能力好不好，開發者很快能試出來。DeepSeek早期通過Coder系列進入開發者視野，也為后來的R1爆發積累了第一批技術口碑。

真正讓行業開始警覺的，是2024年的DeepSeek-V2。

V2不是一個大眾爆款，但它在行業內部影響很大。因為它把DeepSeek的效率路線第一次打得非常清楚：MoE架構、低訓練成本、低推理成本、高吞吐，最后直接引發國內大模型價格戰。

這對行業的沖擊很大。因為在此之前，大模型競爭基本默認是巨頭游戲：誰有更多錢、更多卡、更多數據中心，誰就更接近終局。但DeepSeek-V2證明，工程效率本身也可以是一種戰略武器。

到了2024年底，DeepSeek-V3發布，事情開始變得不一樣。

V3把DeepSeek從國內技術圈推向全球模型競爭的核心位置。它用相對有限的訓練資源，做出了一個足以和全球一線模型放在同一張表里比較的模型。

這就觸碰到了全球AI行業最敏感的一根神經：如果一個中國團隊可以用更低成本做出接近頂級閉源模型的開源模型，那么過去那套“只有極少數美國巨頭才能玩得起大模型”的敘事，就會被動搖。

所以V3是DeepSeek的第一個全球信號。

真正讓DeepSeek成為全球事件的，是2025年1月的R1。它讓市場意識到，推理模型也可能被開源路線沖擊。R1之后，DeepSeek不再只是開發者社區里的技術黑馬，而變成了全球AI產業鏈都會關注的變量。

但爆火之后，DeepSeek遇到的反而是更難的問題。

一個研究型團隊最擅長的是突破。可是當它變成全球關注的基礎模型公司之后，要面對的就不只是模型能力了。用戶會涌進來，API調用會增加，企業客戶會提出穩定性要求，開發者會期待生態支持，同行會快速追趕，巨頭會加碼，人才會被爭搶，監管和國際環境也會變得更復雜。

于是，DeepSeek原來那種“低調、獨立、研究導向”的模式，開始遇到新的壓力。

2025年2月之后，DeepSeek繼續強化開源姿態，甚至釋放更多代碼庫，試圖鞏固自己的技術社區。但從產業角度看，開源越成功，成本壓力反而越大。因為開源可以帶來聲望、開發者、生態和擴散速度，卻不能自動解決算力賬單、推理成本、人才激勵和商業閉環。

這就解釋了為什么到了2026年4月，V4發布和融資傳聞幾乎同時出現。

V4說明DeepSeek還在往前沖，而且沖向的是更重的方向：百萬token上下文、Agent能力、更強推理、更復雜的模型結構。這些能力都不是輕資產游戲。它們需要更大的訓練投入、更強的推理基礎設施，也需要更穩定的云資源和分發場景。

融資傳聞的出現，恰恰說明DeepSeek正在從一個“能打仗的研究團隊”，進入一個“要長期守城的基礎設施公司”。

過去DeepSeek可以靠效率奇襲。

但到了V4階段，它要面對的是持久戰。

持久戰不能只靠天才團隊，也不能只靠幻方過去積累的資源。它需要資本，需要云，需要入口，需要開發者生態，也需要和中國最重要的科技平臺建立某種戰略連接。

所以，如果說V2證明了DeepSeek的效率，V3證明了DeepSeek的全球競爭力，R1證明了DeepSeek的破圈能力，那么V4和融資傳聞共同說明的是：

DeepSeek正在告別“孤膽英雄”階段。

它正在變成一個必須處理商業化、生態化、資本化和平臺關系的玩家。

這也是DeepSeek故事最有意思的地方。

它一開始像是大模型時代的反叛者：不靠巨頭，不靠VC，不靠鋪天蓋地的營銷，而是靠模型本身把牌桌掀了一下。

但現在，它也不得不承認，AI戰爭越往后，越不是單點突破，而是系統競爭。

DeepSeek V4的發布，說明它仍然有單點突破的能力。

而騰訊、阿里的融資傳聞，則說明它開始補上系統競爭的另一半。

所以DeepSeek的發展歷程，一邊是模型迭代線：LLM、Coder、V2、V3、R1、V4。

另一邊是身份變化線：

從幻方量化的AI副線→獨立的開源模型團隊→

中國大模型價格戰的發動機→到全球AI敘事的攪局者→

再到今天可能被華為、騰訊和阿里共同押注的基礎設施級公司。

這是DeepSeek走到今天的兩條路。

/ /

@吳懟懟

左手AI互聯網、右手文創與消費

鈦媒體2021影響力創作者，領英2020年度行家

人人都是產品經理2017年度作者，新榜2018年度商業觀察者

騰訊全媒派榮譽導師，虎嗅、36氪、鈦媒體、數英等專欄作者

轉載、商務、以及加讀者群，請聯系個人微信「wuduidui728」

備注個人信息，公司—職務—姓名

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

吳懟懟

左手AI互聯網，右手文娛與消費

1277文章數 1556關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

時尚

數碼

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

DeepSeek告別“孤膽英雄”時代

漲的是車價，要的是老命

"特朗普移動"手機開始發貨 59萬人交了5900萬美元定金

"特朗普移動"手機開始發貨 59萬人交了5900萬美元定金

馬刺2號，少年老成，這集看過？

謝霆鋒北京街頭騎行被偶遇，側顏帥炸

造詞狂魔賈躍亭

高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

態度原創

東北電力大學電氣就業怎么樣？

女人不管年紀多大，都可以備好一件經典條紋T恤，減齡又舒適

華為Mate XT、Mate X6官方翻新版上架：售15299元、11099元起

聯合國安理會審議敘利亞局勢