這兩天,全球頂級大模型接連更新,重磅消息一個(gè)接一個(gè)。
中國這邊也迎來熱鬧非凡的一周,從周一開始,Qwen、Kimi、小米、騰訊相繼發(fā)布最新模型。周五,千呼萬喚的 DeepSeek 終于發(fā)布 V4 雙版本,引發(fā)了國內(nèi) AI 圈的一波海嘯。
其中,中國邁入萬億參數(shù)俱樂部并已開源的模型有 DeepSeek 和 Kimi 兩家,小米也預(yù)告了將會(huì)開源最新的萬億模型。
翻完 DeepSeek V4 近 60 頁的技術(shù)報(bào)告,我們發(fā)現(xiàn)這兩個(gè)已開源萬億模型之間的默契,比任何單打獨(dú)斗都可怕。
多次偶遇背后的一場「合謀」
![]()
這兩家公司不是在互相廝殺,而是在用一種近乎「開源共享」的方式,一起進(jìn)步。
引用車圈的一句話說,「好的設(shè)計(jì)總是心有靈犀」。
從 Kimi K2 采用 DeepSeek V3 的 MLA 注意力機(jī)制,到 DeepSeek V4 引入了 Kimi 大規(guī)模驗(yàn)證的 Muon 優(yōu)化器,可以說,技術(shù)上的聯(lián)動(dòng),成為了行業(yè)的一個(gè)亮點(diǎn)。
MLA 注意力機(jī)制:DeepSeek 創(chuàng)新,Kimi 復(fù)用
![]()
二階優(yōu)化器:Kimi 大規(guī)模驗(yàn)證,DeepSeek 跟進(jìn)
如今,DeepSeek V4 也跟進(jìn)用 Muon 優(yōu)化器技術(shù),實(shí)現(xiàn)訓(xùn)練效率的穩(wěn)定性。兩家公司將底層的優(yōu)化技術(shù)相互吸納,打破了技術(shù)壁壘,展現(xiàn)出前所未有的深度合作。
![]()
殘差連接:兩種不同的解決方案
說到殘差連接,DeepSeek 和 Kimi 也各有突破。
DeepSeek 在 V4 中引入了 mHC 殘差連接,目標(biāo)也是提高信息傳遞的效率。通過改變多頭注意力的拼接方式,mHC 提高了梯度流動(dòng)的效率,實(shí)測訓(xùn)練效率提高了約 30%。
![]()
Kimi 提出的 Attention Residuals(注意力殘差)優(yōu)化了信息流的傳遞效率,提升了模型的表現(xiàn)。這一創(chuàng)新得到了廣泛的認(rèn)可,Andrej Karpathy 點(diǎn)評稱「我們對《Attention is All You Need》的理解還不夠」,OpenAI 推理之父 Jerry Tworek 點(diǎn)評稱「我們應(yīng)該重新思考一切,深度學(xué)習(xí)的2.0時(shí)代正在到來」,馬斯克也在社交媒體上為此點(diǎn)贊,稱是「令人印象深刻的研究」。
這兩種方案各有特色,展現(xiàn)了兩家公司在同一技術(shù)問題上不同的思路。
到了 2026 年,DeepSeek 和 Kimi 分別提出了兩種解決方案:
從「兩個(gè)公司」到「一套基礎(chǔ)設(shè)施」
DeepSeek 和 Kimi 的「偶遇」故事不只是技術(shù)圈的熱鬧,也是關(guān)乎中國 AI 產(chǎn)業(yè)格局的一件大事。
GPT-4 的參數(shù)量至今未正式公布(外界估計(jì)在 1.8T 左右),Claude 3.5 Opus 同樣閉源。而中國的這兩家創(chuàng)業(yè)公司,不僅做出了同等規(guī)模的模型,還選擇了全部開源。這意味著任何開發(fā)者、任何研究機(jī)構(gòu)、任何企業(yè),都可以免費(fèi)獲取這些模型進(jìn)行二次開發(fā)和部署。
直接的結(jié)果是:企業(yè)私有化部署的成本砍到了原來的1/10。中小企業(yè)終于能在自己的服務(wù)器上跑萬億參數(shù)級別的模型了,這事兒放在一年前,想都不敢想。
生態(tài)這塊也在悄悄成形,在 OpenRouter 平臺上,兩者的 API 調(diào)用量穩(wěn)居中國前兩名;在應(yīng)用層,Kimi 被海外爆款編程工具「套殼」接入,而 DeepSeek 則被日本樂天集團(tuán)直接包裝成了 Rakuten AI 3.0。
![]()
就連硅谷的巨頭們,也不得不正視這股來自東方的力量。
在 Meta 最新模型 Muse Spark 發(fā)布的官方技術(shù)博客中,Llama 4 被直接拿來與 DeepSeek-V3.1 以及 Kimi-K2 進(jìn)行性能對比:
![]()
而在黃仁勛的CES主題演講上,黃仁勛更是將 DeepSeek 和 Kimi K2-Thinking 模型赫然放上大屏幕,作為展示其下一代 Blackwell 與 Rubin 芯片強(qiáng)大性能的 Benchmark 標(biāo)桿:
![]()
兩家公司都在國產(chǎn)芯片適配上做出了實(shí)質(zhì)性投入。
DeepSeek V4 首次深度適配華為昇騰芯片,推理環(huán)節(jié)將運(yùn)行在國產(chǎn)硬件上;Kimi 的 Prefill-as-a-Service 方案則提出了跨數(shù)據(jù)中心異構(gòu)硬件推理框架,允許用不同類型的國產(chǎn)芯片分別承擔(dān) Prefill 和 Decode 階段,實(shí)測吞吐量提升 54%,首 token 延遲降低 64%。這為國產(chǎn)芯片進(jìn)入大模型推理鏈條打開了一個(gè)現(xiàn)實(shí)的切入口。
黃仁勛在播客節(jié)目中說了一句意味深長的話:「芯片又不是鈾濃縮,阻擋不了中國芯片的進(jìn)步,他們依舊可以通過國產(chǎn)芯片來開發(fā)模型。」
他可能沒想到,DeepSeek 和 Kimi 正在用實(shí)際行動(dòng)讓這一天來得這么早,這么快。
技術(shù)的高度,最終取決于人的格局。
在總理主持召開的經(jīng)濟(jì)形勢專家和企業(yè)家座談會(huì)上,兩人時(shí)隔一年分別建言獻(xiàn)策,成為了中國 AI 發(fā)展史上的一個(gè)有力注腳。他們都是技術(shù)范式的引領(lǐng)者:DeepSeek 向世界證明了「思維鏈」的威力,而 Kimi 則在國內(nèi)引領(lǐng)了「智能體」的落地狂潮。
在追逐 AGI 的這場馬拉松里,沒有哪一家公司可以閉門造車地跑完全程。DeepSeek 與 Kimi 之間,有競爭,也有共鳴——Muon 與 MLA 的技術(shù)互通,底層機(jī)制上惺惺相惜的探索,恰恰說明:中國 AI 真正的底氣,從來不是某一家公司的單打獨(dú)斗,而是這種在「偶遇」中碰撞出的技術(shù)火花,以及在開源生態(tài)里悄然生長的互利共生。
雙峰并峙,終將頂峰相見。屬于中國大模型的萬億級航海時(shí)代,才剛剛拉開序幕。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.