知春路最有AGI理想的兩個男人

2026-04-29 21:10:54　來源: 白鯨實驗室one

北京舉報

分享至

深度求索（北京子公司）和月之暗面都位于海淀區(qū)知春路一帶，相距僅1.4公里，步行只需十幾分鐘。站在其中一家公司的會議室里，能隔空望見另一家公司的辦公樓。或許在某些時刻，它們的研究員會隔著一片樓宇對望，腦海里浮現(xiàn)的盡是關于AGI藍圖的構想。

物理空間的接近，讓這兩家公司員工氣質(zhì)多有相像：低調(diào)，純粹，專注AGI。在社交媒體里，你能看到幾乎每位DeepSeek研究員的關注列表里都會有Kimi研究員，而Kimi研究員的關注列表里也躺著不少DeepSeek研究員。

過去一年，Kimi研究員對DeepSeek幾乎不吝贊美。我們?nèi)ツ?月和Kimi的人士有過短暫交流，當時他就直言“感謝DeepSeek”。本月初，《人物》雜志詳細報道了月之暗面這家公司，同樣指出“你能夠感受到公司中蔓延的對DeepSeek的尊重”。

正是DeepSeek R1的出現(xiàn)教育了市場，硬實力就是最好的推廣。去年Kimi也選擇了DeepSeek敲開的推理路線，并一路在agent能力上實現(xiàn)超越。

這種惺惺相惜，也體現(xiàn)在DeepSeek的研究員身上。一位DeepSeek研究員非常直白地告訴我們，他個人比較看好Kimi，這兩家公司有著相似的技術理想，也更純粹，但在管理上略有不同。DeepSeek做事慢一點，會做得更細致一點，“如果Kimi老板看對了方向，可能比DeepSeek更快接近AGI。”

相似的技術氣質(zhì)，讓這兩家公司更愿意押注那些成本高、周期長、不確定性強的方向，也因此更有機會觸發(fā)范式級的能力躍遷。

它們同樣是資本熱衷的對象。一位去年參與Anthropic融資的國內(nèi)一線投資機構人士告訴我們，國內(nèi)模型公司里，如果能閉著眼選兩家直接打錢，一個是DeepSeek，另一個就是Kimi。

從投資人、大模型科學家到行業(yè)內(nèi)部從業(yè)者，都在不約而同地將這兩家公司放在同一坐標系中審視。審視公司，也是審視兩位創(chuàng)始人梁文鋒和楊植麟。他們同樣信仰Scaling Law的底層力量，堅持“模型即產(chǎn)品”的極簡邏輯，在互聯(lián)網(wǎng)大廠的流量圍剿中守住了C端用戶基本盤，也同樣在海外市場撕開了中國大模型的品牌缺口。

海淀區(qū)知春路一向被認為是創(chuàng)業(yè)者的福地。張一鳴曾于2012年在知春路的一處民宅中創(chuàng)立今日頭條，開啟了他的創(chuàng)業(yè)歷程。當前AI時代，這兩個扎根知春路一帶的AI創(chuàng)業(yè)新星，在技術迭代、戰(zhàn)略選擇甚至一些心境上，都愈加同頻。

一種默契

4月的倒數(shù)第二周，Qwen、Kimi、DeepSeek、小米、騰訊的新模型扎堆發(fā)布。4月20號，Kimi發(fā)布了Kimi2.6并開源，該模型在多項編碼基準測試中超越GPT-5.4和Claude Opus 4.6等閉源模型，大幅增強了Agent自主化執(zhí)行能力，長程編碼能力也得到顯著提升。

僅僅4天后，DeepSeek V4也終于在外界的關注下姍姍來遲。DeepSeek官方同樣稱，相比前代模型，DeepSeek-V4-Pro的Agent能力顯著增強，在Agentic Coding評測中，V4-Pro已達到當前開源模型最佳水平，并在其他Agent相關評測中同樣表現(xiàn)優(yōu)異。

此時距離上一代V3發(fā)布已經(jīng)過去了484天，這期間DeepSeek從爆紅到幾乎隱身，用戶數(shù)也一度大幅下滑，甚至被指責只是曇花一現(xiàn)。梁文鋒團隊承受巨大壓力。在官方公眾號發(fā)布V4新模型的文章里，梁文鋒引用了荀子的名言：“不誘于譽，不恐于誹，率道而行，端然正己。”這是他的自勉，也是對過去一年最好的回應。

沒人比楊植麟更懂這種被全世界冷落的感受。去年年初DeepSeek爆紅時，作為創(chuàng)業(yè)明星的楊植麟默默承壓。外界紛紛詬病月之暗面陷入流量依賴的路徑陷阱，基座模型進展遲緩，在萬億參數(shù)競賽、推理能力突破、開源生態(tài)布局上，全面落后于橫空出世的DeepSeek。

楊植麟對此從未回應，只是帶領團隊埋頭研發(fā)新模型。直到2025年7月11日，Kimi K2發(fā)布，總參數(shù)達到萬億，并采用Muon二階優(yōu)化器訓練，也是國產(chǎn)大模型首次大規(guī)模用二階優(yōu)化。

一時間Kimi K2震動全球，《自然》雜志稱：“另一個DeepSeek時刻”。楊植麟用新模型回應過去的一切。

去年8月，楊植麟接受媒體人采訪時說：“這也是Kimi跟我講的——任何中間狀態(tài)都有可能成為被批評的對象。你總是會有這個時代的局限性。”這種豁達的價值觀，與梁文鋒引用荀子的名句所表達的價值觀幾乎一致。

梁文鋒與楊植麟的相似性，根植于對AGI的共同信仰。他們都堅信，大模型的能力上限由基礎架構與參數(shù)規(guī)模的持續(xù)突破定義，所有的產(chǎn)品體驗與商業(yè)價值，都要建立在基座模型能力領先之上。這種信仰，讓兩家公司在技術路線上走出了罕見的協(xié)同進化軌跡。

從去年至今，媒體關于DeepSeek與Kimi敘事都是“撞車”，包括發(fā)新論文和新模型的架構和參數(shù)量。例如DeepSeek V4采用MoE混合專家架構，總參數(shù)規(guī)模達到1.6萬億，激活參數(shù)約370億。而Kimi K2系列同樣采用萬億級MoE架構，總參數(shù)1萬億，激活參數(shù)320億。

類似的“撞車”太多。事實上它們遠不止“撞車”這么簡單，而是已經(jīng)形成了互相驗證乃至彼此復用的默契。

2025年年初，DeepSeek在V3模型中推出的MLA多頭潛在注意力機制，通過壓縮KV緩存大幅降低了大模型推理成本，成為萬億參數(shù)模型落地的核心架構創(chuàng)新。而Kimi在后續(xù)的K2系列模型中，直接沿用了這一架構，為其超長上下文與Agent能力的落地掃清了工程障礙。

到了2025年7月，Kimi在萬億參數(shù)MoE模型K2中，率先規(guī)模化驗證自研Muon二階優(yōu)化器，官方論文與技術報告確認，其token效率達AdamW的2倍，訓練成本降低50%以上，成為全球首個在萬億級別落地的二階優(yōu)化方案。

而這次DeepSeek V4的技術報告里顯示，也跟進采用了Muon，成為其1.6萬億參數(shù)模型訓練的核心底座。

兩家公司形成的默契，背后是兩個創(chuàng)始人的精神共振。梁文鋒從量化投資起家，帶著“用極致工程能力實現(xiàn)模型效率革命”的底色，DeepSeek從成立之初就堅持用自有資金支撐底層研發(fā)，只為不受短期商業(yè)目標干擾。

楊植麟出身清華與卡內(nèi)基梅隆大學，是NLP領域的頂尖學術人才。從創(chuàng)立月之暗面之初，他就定下了“用長上下文能力突破AGI邊界”的核心路線，即便在行業(yè)流量戰(zhàn)最激烈的階段，也堅持將核心資源投入基座模型研發(fā)。

這兩個在知春路一帶相距1.4公里的男人，忙得也許很少能見到面，但他們可能又是神交已久且最了解對方的那個人。

海外影響力

DeepSeek和Kimi另一個共同點，是在海外的口碑，這也是它們能夠吸引投資的重要原因之一。一家一線投資機構在Kimi估值60億美金的時候進入，后續(xù)兩輪都選擇了跟進。

“模型好，產(chǎn)品好，認知好，全球化做得好，團隊反應速度也快。”這家機構參與投資的人士舉例稱，全球化上最明顯的案例就是今年3月國外產(chǎn)品Cursor套殼Kimi。

3月20日，Cursor正式發(fā)布新編程模型Composer 2，官方博客全程強調(diào)，自研，持續(xù)預訓練+大規(guī)模強化學習，并宣稱超越Claude Opus 4.6，價格僅為其1/10。

幾個小時后，一位開發(fā)者調(diào)試Cursor API時，截獲內(nèi)部模型ID：kimi-k2p5-rl-0317-s515-fast。直譯為，Kimi K2.5 +強化學習（RL）+3.17版本+快速推理。馬斯克下場回復帖子下評論：“Yes, Kimi 2.5!”，全球輿論引爆。

“你就從Cursor訓了它的模型就能看出來，Kimi的全球的認知肯定是很好的。”上述投資人說。

自去年發(fā)布Kimi K2以來，Kimi幾乎每隔兩個月就有一次重大發(fā)布。同年11月，Kimi推出萬億參數(shù)的K2 Thinking大模型，在智能體工具調(diào)用能力測試中93%的得分位居全球第一，超過OpenAI、Anthropic 等海外閉源旗艦模型，成為當時 “最大最好的開源模型”。

今年1月推出的K2.5，在多模態(tài)、長記憶和智能體上全方位升級，隨后借助小龍蝦的火熱，在技術社區(qū)走紅。2月登頂海外模型聚合平臺OpenRouter，成為周榜調(diào)用量冠軍。

同樣在3月，Kimi發(fā)布重磅技術報告，被認為挑戰(zhàn)了Transformer沿用11年的殘差連接機制，前OpenAI研究副總裁Jerry Tworek也評價其為“深度學習2.0”的開端。馬斯克轉(zhuǎn)發(fā)評論：“Impressive work from Kimi”（Kimi 的工作令人印象深刻）。

DeepSeek的海外影響力自不必多說。去年年初DeepSeek R1就是率先在海外走紅的，在一些海外開發(fā)者和創(chuàng)業(yè)者心中，DeepSeek被奉為開源之神的存在。

本月DeepSeek V4發(fā)布后，再次在海外掀起巨量討論。憑借極致性價比，《彭博》把DeepSeek V4寫成對OpenAI和Anthropic的有力挑戰(zhàn)。盡管也有不少聲音認為，V4的聲量完全不如V3帶來的沖擊。

“對開發(fā)者而言，國產(chǎn)開源模型DeepSeek、Kimi和智譜雖然和海外閉源模型相比仍有幾個月的差距，但這些模型憑借性價比依然是最能打的。”上述投資人士稱。

資本市場對DeepSeek的興趣也已經(jīng)達到前所未有的程度。DeepSeek融資，相關報道滿天飛，官方一直未回應。

我們獨家獲悉，DeepSeek融前估值是3000億人民幣，約合440億美元。DeepSeek計劃增資500億，內(nèi)部增資200億，對外募資300億。這次投資非常隱秘，屬于定向邀約，要求也極高。一家一線投資機構因為募資的基金里有許多個人投資人未達標，也被拒之門外。

融資在某種程度上是為了留住人才。此前，DeepSeek多位核心技術人員被高薪挖走。上述DeepSeek人士表示，獲得融資對DeepSeek最大好處之一，或許就是人員被挖走的概率降低了。

Kimi同樣重視人才。去年12月楊植麟在內(nèi)部信里稱，Kimi賬上現(xiàn)金超過100億元人民幣，短期內(nèi)并不著急上市。他還說，融資是為了更加激進地擴充顯卡（GPU）儲備，加速下一代K3模型的訓練與研發(fā)，并將部分資金用于大幅提高員工激勵，以吸引和保留頂尖人才。

據(jù)今年4月初晚點報道，Kimi將推出一項新的頂尖人才校招計劃，擬授予尚未畢業(yè)的實習生公司期權，在實習生通過月之暗面為期3到6個月的考察后，計劃入選者將被直接授予期權股數(shù)，即使本人尚未正式畢業(yè)。

大模型的競賽，是一場資本、人才和算力的全方位比拼。DeepSeek從不融資到宣布融資，Kimi從宣布不著急上市，到賬面資金闊綽、到融資數(shù)十億人民幣，都反映資本市場已經(jīng)形成的共識——大模型底層能力躍遷帶來的生產(chǎn)力巨量提升，已經(jīng)非常明確。

大模型投資依舊熱

去年9月的外灘大會上，朱嘯虎公開演講稱：“大模型已經(jīng)變成水電煤，是基礎設施，沒有超額利潤，真正的機會在應用。”

目前來看，事情并沒有沿著那個方向發(fā)展。尤其當智譜和MiniMax上市后，模型熱一直持續(xù)，兩家公司市值一度達到三千多億和四千多億港元。

今年以來大模型投資的熱度繼續(xù)高漲，尤其從DeepSeek V4的融資門檻，以及Kimi連續(xù)融資并且估值翻了四倍來看。就連大模型存在感不強的階躍星辰，也在2026年1月26日宣布完成超50億元人民幣B+輪融資。

視頻大模型和世界模型同樣迎來投資熱潮。生數(shù)科技在4月完成近20億元B輪融資，估值120億元，阿里、中網(wǎng)投領投。極佳視界單月融資25億元，估值破100億元。

相比海外，國內(nèi)這些融資顯得小情小調(diào)的。OpenAI2026年3月完成高達1220億美元融資，投后估值8520億美元，亞馬遜、英偉達、軟銀入局。Anthropic2026年2月完成300億美元G輪融資，估值3800億美元，新加坡GIC、Coatue領投。

投資的熱潮背后更直觀的反應是，模型公司收入增速表現(xiàn)非常樂觀。截至4月7日，Anthropic對外披露的ARR是超過300億美元，較2025年底的收入增長了3倍有余。上述參投Anthropic的投資人告訴我們，“Anthropic的2026年ARR收入預計會突破1000億美元”。

“大模型作為底層設施，可能會吞噬所有行業(yè)的價值黑洞。”上述投資人稱，過去一年她頻繁的見許多全球最優(yōu)秀的一批研究員，他們無一例外都向她展示了模型涌現(xiàn)能力已經(jīng)出現(xiàn)。

看到模型收入增速以及智譜二級市場的暴漲反應，更多的投資人是一種FOMO心理。

據(jù)我們了解，最近幾個月，Kimi的股權一直很搶手，一家美元基金猶豫了幾天名額就滿了。

不過，錢對兩家公司來說從來都不是目的。梁文鋒唯一一次接受采訪是在2024年7月，當時他說過這句話：“我們的出發(fā)點，就不是趁機賺一筆，而是走到技術的前沿”。這與楊植麟所說的：“不急于短期變現(xiàn)，專注技術前沿與長期AGI目標。”不謀而合。

這份可貴的純粹，也正是他們持續(xù)吸引外界關注的原因。

知春路的風永不停歇，吹過一代代創(chuàng)業(yè)者。從PC互聯(lián)網(wǎng)到移動互聯(lián)網(wǎng)，中國的科技行業(yè)從來不乏流量明星與商業(yè)神話，但在AI這條關乎未來的賽道上，或許需要更多的時間來驗證新的范式。

撰寫｜吳尋

編輯｜劉培

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.