![]()
![]()
外界傳聞很難站住腳跟,與此相反,它正在成為一個核心穩定、持續擴張、長期協作的中國本土前沿AI研究團隊
文|《財經》研究員 吳俊宇
編輯 | 謝麗容
DeepSeek的融資消息再度傳出(報道詳見)。
5月7日有消息稱,“國家隊”背景相關基金將領投它的首輪融資,DeepSeek投后估值或將達到450億美元。不過,這一消息目前尚未證實,DeepSeek也沒有進行公開回應。
由于尚未大規模商業化,DeepSeek目前很難用營收、利潤進行估值。它現階段真正價值在于高人才密度團隊,以及這個團隊持續迭代全球領先模型的能力。
過去一年,市場上流傳著大量關于DeepSeek人才流失的傳言——被高薪挖角,核心研究員陸續離開。這支團隊的真實情況是影響它估值的核心前提之一。
DeepSeek幾乎是中國最特殊的基礎模型公司。它的研究員幾乎從不公開露面。DeepSeek創始人梁文鋒2024年7月接受36氪暗涌Waves采訪后,近兩年沒再公開發聲。
但與此同時,DeepSeek持續以穩定的頻率發布基礎模型和技術論文(報道詳見)。
2024年1月25日至2026年4月26日的27個月,DeepSeek至少公開發布了27篇技術論文,迭代出DeepSeek LLM、DeepSeek-V2、DeepSeek-V3、DeepSeek-R1、DeepSeek-V3.2、DeepSeek-V4等6款具備里程碑意義的基礎模型。
過去一年,圍繞DeepSeek的討論很多。這包括但不限于:團隊規模究竟有多大?研究能力是否可持續?是否被大廠高薪持續挖角?核心人才是否流失?
這些問題,DeepSeek幾乎從未正面回應。DeepSeek僅在DeepSeek-V4發布時,在官方推文中用“不誘于譽,不恐于誹,率道而行,端然正己”這段文字側面回應了外界疑問。
《財經》試圖從另一條路徑觀察這家沉默的公司——梳理DeepSeek 2024年1月25日至2026年4月26日公開發布的27篇論文(AI開源社區Hugging Face上公布的26篇論文,以及近期發布的DeepSeek-V4論文)的作者/貢獻者名單,對其研究團隊規模、核心成員穩定性與人才流動情況進行交叉統計與分析。
《財經》基于27篇論文作者/貢獻者以及用“*”標注的離職信息,并借助Codex(OpenAI旗下的AI代碼工具)進行數據統計、交叉去重和反復校驗(僅嚴格保留DeepSeek內部作者/貢獻者的名單,剔除論文中外部高校/機構作者,剔除致謝名單的作者)發現:
其一,DeepSeek研究團隊這兩年多在持續擴張。2024年1月DeepSeek LLM發布時至少有86人,2025年1月DeepSeek-R1發布時至少有194人,2026年4月末DeepSeek-V4發布時至少有317人(含研究和工程、商業和合規團隊名單,剔除致謝名單)。
其二,DeepSeek的核心研究團隊保持著高穩定性。DeepSeek 27篇論文中出現頻率最高的15個人,僅有2人離職。DeepSeek LLM發布時的86人,仍有71位出現在DeepSeek-V4論文的名單中。DeepSeek-R1發布時的194人,仍有143位出現在DeepSeek-V4論文名單中。
其三,DeepSeek人才流失率并不高。27篇論文累計出現的391位作者,明確標注“*”的離職人數僅25人,占比6.4%。離職的代表性人物仍活躍在中國大模型一線。羅福莉是小米Mimo團隊負責人,郭達雅加入字節跳動Seed實驗室,阮翀成為元戎啟行首席科學家,王炳宣加入了騰訊混元團隊。
27個月,27篇論文,391位研究員,25人離職。這是DeepSeek留給外界最清晰的數字。
![]()
![]()
DeepSeek團隊仍在不斷擴張
在基礎模型領域,人才甚至是比算力、數據更稀缺的資源。真正決定模型能力上限的,往往不只是芯片數量或數據規模,更是一支能夠長期穩定協作的研究團隊。
包括字節跳動、阿里、騰訊等公司正在從OpenAI、Anthropic、谷歌Gemini等國際知名模型團隊高價挖人。在國際市場,Meta甚至開出4年2億-3億美元的天價合同包挖角其他公司的頂尖研究員,總包薪酬甚至高過全球身價最高的足球明星姆巴佩、亞馬爾。
因為,大模型研發并非是清晰的、按部就班的工程任務,更像是在無人區中探索。這高度依賴創造力。在這個過程中,組建高人才密度的團隊才是關鍵。
《財經》了解到,以中國市場為例,各公司大模型研發團隊通常由預訓練、后訓練、數據等團隊組成。其中最核心的預訓練、后訓練團隊規模通常僅為200人左右。模型訓練團隊甚至還會分成語言、代碼、視覺、視頻等不同研究方向,每個方向都有一個小團隊。
一位中國基礎模型明星創業公司人士對《財經》表示,大模型團隊常見的組織模式是,由一兩個頂尖AI科學家帶領二三十個有活力、有想法的年輕研究員探索一個技術方向。公司要為他們提供充足的算力、寬松的環境,讓他們驗證各種新想法。
一位算法工程師對《財經》表示,大模型領域的知識迭代以月甚至周為單位。年輕的研究員不會受到舊知識體系的束縛,他們的學習研究一開始就基于最新的范式。最年輕的頭腦往往最有創造力,這和足球運動員在20歲、30歲出頭時體能、爆發力達到巔峰類似。
DeepSeek的主要人才來自北京大學、清華大學、浙江大學等中國本土知名高校的計算機系。那么,它的團隊是如何逐漸擴張的?
![]()
《財經》選取了6款里程碑意義基礎模型的論文名單,觀察DeepSeek研究團隊的擴張節奏——DeepSeek在27個月內,從不到100人擴張到了300多人。
2024年1月25日DeepSeek-LLM發布時有86位作者,2024年5月7日DeepSeek-V2發布時有156位作者,2024年12月26日DeepSeek-V3發布時有197位作者,2025年1月22日DeepSeek-R1發布時有194位作者,2025年12月1日DeepSeek-V3.2發布時有262位作者。2026年4月26日DeepSeek-V4發布時一共有317位作者。
DeepSeek的團隊規模在國內甚至已經不算小了。DeepSeek 27篇論文的累計作者總數(跨論文去重且剔除外部機構)達到了391人。橫向對比字節跳動Seed、阿里Qwen、月之暗面在Hugging Face主頁上所有論文的累計作者總數會發現,字節跳動Seed是967人、阿里Qwen是352人、月之暗面是387人。
從論文累計作者人數可以側面看到,它雖然人數遠比字節跳動Seed團隊要少,但對比其他模型公司仍然略多。
![]()
一支模型研究團隊的價值,最終不僅體現為模型性能和論文數量,還體現在模型是否真正形成持續的開發者使用習慣與市場影響力。上述算法工程師對《財經》表示,論文數量、團隊人數也許可以反映研發投入強度,但卻不一定能完全代表研發水平。
DeepSeek的研究團隊在開發者群體中的影響力甚至不遜色于其他公司。Token調用規模可以側面反映這個問題。
和其他模型往往靠發布后一個月的熱度短期沖榜不同,DeepSeek形成了穩定的開發者使用習慣與真實推理需求。全球模型聚合平臺OpenRouter數據顯示,近一年(2025年5月4日-2026年5月4日)DeepSeek在只有四款旗艦模型(DeepSeek-V3、R1、V3.2、V4)的情況下,Token調用量占比一直在5%-20%之間,調用量排名長期位居全球前六。
過去一年,雖然阿里Qwen、騰訊混元、小米Mimo、月之暗面Kimi、智譜GLM、MiniMax等國內模型都曾在一段時間內進入OpenRouter調用量前列,但多數模型的調用占比往往會隨著市場熱點變化快速波動。相比之下,DeepSeek的模型更新雖然慢,但生命周期更長。
![]()
核心研究團隊仍然穩定
2026年,基礎模型的競爭變得比過去三年還要激烈。
據《財經》不完全統計,2025年12月1日-2026年4月24日,美國市場(OpenAI、Anthropic、谷歌Gemini)和中國(包括阿里千問、字節跳動豆包、騰訊混元、小米MiMo、DeepSeek、月之暗面、智譜、MiniMax)的11家主流模型公司,在144天內至少發布或迭代了53款模型,幾乎每2.7天就會有一款模型發布或迭代。
隨著市場競爭烈度上升,人才的流動速度也在變快,巨頭頻頻開出高薪挖角競爭對手的研究員。研究團隊能否長期穩定協作,已經成為影響模型研發的重要變量。
梁文鋒接受36氪暗涌Waves團隊采訪時提到過DeepSeek選人的標準——一直都是熱愛和好奇心,所以很多人會有一些奇特的經歷。很多人對做研究的渴望,遠超對錢的在意。
在面對巨頭高薪挖角的情況下,市場關心的一個問題是:DeepSeek這支研究團隊,是否真的像外界傳聞中那樣頻繁流失?答案是否定的。
《財經》采取了計算DeepSeek作者名單留存率的方式來進行觀察。結果是,DeepSeek-LLM到DeepSeek-V3.2,DeepSeek不同時期模型團隊的核心成員(剔除DeepSeek之外的其他高校或機構作者)作者名單留存率長期維持在70%-80%之間。
作者名單留存率的計算方式是,DeepSeek某一模型研發時期的論文作者中,后續仍持續出現在DeepSeek-V4作者名單且未被“*”標注為離職的人數占比。
需要強調的是,這種估算方式會低于真實在職率。因為,未被匹配到DeepSeek-V4作者的人,不一定已經離職,也可能轉到其他崗位不再參與論文署名。以下留存率數據,應理解為可觀測到的下限,而非精確在職率。
2024年1月25日DeepSeek-LLM的86位作者,71位出現DeepSeek V4的作者名單中且仍然在職。DeepSeek的初始團隊,作者留存率是82.6%。
2024年5月7日DeepSeek-V2的156位作者,有106位出現DeepSeek V4的作者名單中且仍然在職。DeepSeek-V2團隊,作者留存率是67.1%。
2024年12月26日DeepSeek-V3的197位作者,有148位出現DeepSeek V4的作者名單中且仍然在職。DeepSeek-V3團隊,作者留存率至少是75.1%。
2025年1月22日DeepSeek-R1的194位作者,有143位出現DeepSeek V4的作者名單中且仍然在職。DeepSeek-R1團隊,作者留存率至少是73.7%。
2025年12月1日DeepSeek-V3.2的262位作者,有212出現DeepSeek V4的作者名單中且仍然在職。DeepSeek-V3.2團隊,作者留存率至少是80.9%。
根據上述數據來看,DeepSeek-LLM時期的早期團隊作者留存率依舊很高,但在DeepSeek-V3和DeepSeek-R1之后的團隊,作者留存率的確有所下滑。
![]()
上述中國基礎模型明星創業公司人士對《財經》表示,DeepSeek的這一人才留存率數據在中國市場是較高水平。他所在的公司人才留存率略低于DeepSeek。
事實上,他所在的這家明星公司已經是一個理想主義氣質很強的模型公司。在他看來,在巨頭高薪挖角的環境下,現在愿意留在DeepSeek的研究員,往往是有追求的人。他所在的公司,也有被技術理想感召而去DeepSeek的研究員,但沒有一個從DeepSeek過來的人。
美國風險投資公司SignalFire在2025年5月根據全球職業社交平臺LinkedIn上的跳槽記錄統計了全球頂尖AI實驗室的員工2023年-2024年的兩年留存率。其中,Anthropic是80%,谷歌DeepMind是78%,OpenAI是67%,Cohere是64%。
如果側面參考SignalFire這一數據對比,DeepSeek的員工留存率和全球頂尖AI實驗室相比,也屬于正常甚至偏高的水平。
《財經》統計發現,DeepSeek的核心研究團隊不僅始終保持了較高穩定性,同一批核心研究員長期還交叉參與了DeepSeek多個關鍵模型與研究方向的研發。
DeepSeek 27篇論文中,出現頻率最高的15個人,有13人目前仍然在職。且這些核心成員參與了DeepSeek LLM、DeepSeek-V2、DeepSeek-V3、DeepSeek-R1、DeepSeek-V3.2、DeepSeek-V4等六款關鍵基礎模型的研發。
![]()
研究團隊穩定,這讓DeepSeek很多技術研究是有延續性的。每一代模型,都是站在前一代的工程和研究積累上出發進行創新。
比如,DeepSeek-V2中驗證的MLA(Multi-head Latent Attention,多頭潛在注意力)推理架構和MoE設計,被V3和R1直接沿用;DeepSeekMath中提出的GRPO(群體相對策略優化)強化學習算法,先被R1用于推理能力訓練,后又被V4的數學方向訓練直接采納。
除此之外,DeepSeek的核心研究團隊長期在不同模型與研究方向之間交叉協作。他們并不像很多大型科技公司那樣,將不同技術方向完全拆分為獨立的研發體系。
論文名單顯示,同時參與了Coder(代碼生成)、VL(視覺理解)、MoE(混合專家架構)、Math(數學計算)、OCR(光學字符識別)等至少三個不同技術方向的在職研究員至少有24人。這24個人全部都是DeepSeek-LLM階段就已經加入了DeepSeek。
一位基礎模型工程師曾對《財經》表示,基礎模型訓練過程中,很多真正關鍵的能力,并不會完全寫進論文。它們會逐漸沉淀為研究團隊內部的工程經驗、訓練直覺與跨方向協同能力。這些東西,往往需要一支長期穩定協作的研究團隊,才能慢慢形成。
這也是DeepSeek研究團隊和其他公司不同的地方。
![]()
DeepSeek離職的人去哪兒了
市場上長期關注的一個問題是,DeepSeek的離職員工到底去了哪兒?
DeepSeek論文中明確用“*”號標注離職的人有25人。他們出現在DeepSeek-V3、DeepSeek-R1、DeepSeek-V3.2、DeepSeek-V4這四篇論文中。
離開DeepSeek的研究員大部分并未離開基礎模型行業。他們中的不少人,已經加入字節跳動、小米、騰訊等公司的模型核心團隊,甚至開始獨立負責新的研究方向。DeepSeek甚至為中國的大模型研究培養了一批具備帶隊能力的人才。
![]()
《財經》通過他們的個人學術主頁、領英以及X(前Twitter)等公開渠道驗證了12個研究員的動向。其中至少有4位進入了字節跳動、騰訊、小米等公司擔任核心負責人。
Fuli Luo(羅福莉)2025年加入小米擔任小米Mimo實驗室負責人。她主導研究的MiMo-V2系列模型Token消耗量一度在OpenRouter平臺今年3月的周榜中位列第一。
Bingxuan Wang(王炳宣)2025年末加入騰訊混元團隊。
Daya Guo(郭達雅)2026年加入字節跳動Seed實驗室擔任Agent(智能體)負責人之一。
Chong Ruan(阮翀)2026年加入智能駕駛公司元戎啟行任首席科學家,主導基座模型開發。
其他離開DeepSeek的7位研究員仍然活躍在大模型研究的一線,他們正在就讀更高學位,同時還在其他大型科技公司繼續擔任學生研究員。目前主流的模型公司都會設置學生研究員崗位。
他們之中至少有3位目前或曾經在字節跳動Seed團隊擔任學生研究員,其中包括Haocheng Wang(王浩丞)、Huajian Xin (辛華劍)、Jiawei Wang(王家偉)。
Wanjia Zhao(趙萬佳)2024年離開DeepSeek后,先后進入微軟研究院雷德蒙德實驗室與谷歌DeepMind擔任學生研究員,目前仍在斯坦福大學攻讀計算機科學博士。
綜上來看,DeepSeek人才流失的說法至少目前不能成立,尚屬于正常流動范圍。
它仍然是一個核心團隊穩定、規模持續擴張、能夠穩定產出領先模型的中國本土研究團隊。它甚至還在不斷為其他中國模型公司輸送有帶隊能力的人才。
DeepSeek創造的研究環境是中國市場稀缺的,這是它具備競爭力的關鍵因素。DeepSeek真正特殊的地方,不只是訓練出了DeepSeek-R1、DeepSeek-V4這些模型。它還正在證明——中國本土AI研究團隊,可以通過團隊長期穩定協作的方式,持續參與全球前沿基礎模型競爭。
27個月,27篇論文,391位研究員,25人離職。這是DeepSeek留給外界最清晰的一份答卷。
![]()
責編 | 張生婷
題圖來源 | 由ChatGPT生成
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.