網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

中國AI雙雄開源共享，技術(shù)火花點(diǎn)燃萬億模型新紀(jì)元

2026-04-29 16:42:57　來源: 啟迪你思維

四川舉報(bào)

分享至

這兩天，全球頂級大模型接連更新，重磅消息一個(gè)接一個(gè)。

中國這邊也迎來熱鬧非凡的一周，從周一開始，Qwen、Kimi、小米、騰訊相繼發(fā)布最新模型。周五，千呼萬喚的 DeepSeek 終于發(fā)布 V4 雙版本，引發(fā)了國內(nèi) AI 圈的一波海嘯。

其中，中國邁入萬億參數(shù)俱樂部并已開源的模型有 DeepSeek 和 Kimi 兩家，小米也預(yù)告了將會(huì)開源最新的萬億模型。

翻完 DeepSeek V4 近 60 頁的技術(shù)報(bào)告，我們發(fā)現(xiàn)這兩個(gè)已開源萬億模型之間的默契，比任何單打獨(dú)斗都可怕。

多次偶遇背后的一場「合謀」

這兩家公司不是在互相廝殺，而是在用一種近乎「開源共享」的方式，一起進(jìn)步。

引用車圈的一句話說，「好的設(shè)計(jì)總是心有靈犀」。

從 Kimi K2 采用 DeepSeek V3 的 MLA 注意力機(jī)制，到 DeepSeek V4 引入了 Kimi 大規(guī)模驗(yàn)證的 Muon 優(yōu)化器，可以說，技術(shù)上的聯(lián)動(dòng)，成為了行業(yè)的一個(gè)亮點(diǎn)。

MLA 注意力機(jī)制：DeepSeek 創(chuàng)新，Kimi 復(fù)用

二階優(yōu)化器：Kimi 大規(guī)模驗(yàn)證，DeepSeek 跟進(jìn)

如今，DeepSeek V4 也跟進(jìn)用 Muon 優(yōu)化器技術(shù)，實(shí)現(xiàn)訓(xùn)練效率的穩(wěn)定性。兩家公司將底層的優(yōu)化技術(shù)相互吸納，打破了技術(shù)壁壘，展現(xiàn)出前所未有的深度合作。

殘差連接：兩種不同的解決方案

說到殘差連接，DeepSeek 和 Kimi 也各有突破。

DeepSeek 在 V4 中引入了 mHC 殘差連接，目標(biāo)也是提高信息傳遞的效率。通過改變多頭注意力的拼接方式，mHC 提高了梯度流動(dòng)的效率，實(shí)測訓(xùn)練效率提高了約 30%。

Kimi 提出的 Attention Residuals（注意力殘差）優(yōu)化了信息流的傳遞效率，提升了模型的表現(xiàn)。這一創(chuàng)新得到了廣泛的認(rèn)可，Andrej Karpathy 點(diǎn)評稱「我們對《Attention is All You Need》的理解還不夠」，OpenAI 推理之父 Jerry Tworek 點(diǎn)評稱「我們應(yīng)該重新思考一切，深度學(xué)習(xí)的2.0時(shí)代正在到來」，馬斯克也在社交媒體上為此點(diǎn)贊，稱是「令人印象深刻的研究」。

這兩種方案各有特色，展現(xiàn)了兩家公司在同一技術(shù)問題上不同的思路。

到了 2026 年，DeepSeek 和 Kimi 分別提出了兩種解決方案：

從「兩個(gè)公司」到「一套基礎(chǔ)設(shè)施」

DeepSeek 和 Kimi 的「偶遇」故事不只是技術(shù)圈的熱鬧，也是關(guān)乎中國 AI 產(chǎn)業(yè)格局的一件大事。

GPT-4 的參數(shù)量至今未正式公布（外界估計(jì)在 1.8T 左右），Claude 3.5 Opus 同樣閉源。而中國的這兩家創(chuàng)業(yè)公司，不僅做出了同等規(guī)模的模型，還選擇了全部開源。這意味著任何開發(fā)者、任何研究機(jī)構(gòu)、任何企業(yè)，都可以免費(fèi)獲取這些模型進(jìn)行二次開發(fā)和部署。

直接的結(jié)果是：企業(yè)私有化部署的成本砍到了原來的1/10。中小企業(yè)終于能在自己的服務(wù)器上跑萬億參數(shù)級別的模型了，這事兒放在一年前，想都不敢想。

生態(tài)這塊也在悄悄成形，在 OpenRouter 平臺上，兩者的 API 調(diào)用量穩(wěn)居中國前兩名；在應(yīng)用層，Kimi 被海外爆款編程工具「套殼」接入，而 DeepSeek 則被日本樂天集團(tuán)直接包裝成了 Rakuten AI 3.0。

就連硅谷的巨頭們，也不得不正視這股來自東方的力量。

在 Meta 最新模型 Muse Spark 發(fā)布的官方技術(shù)博客中，Llama 4 被直接拿來與 DeepSeek-V3.1 以及 Kimi-K2 進(jìn)行性能對比：

而在黃仁勛的CES主題演講上，黃仁勛更是將 DeepSeek 和 Kimi K2-Thinking 模型赫然放上大屏幕，作為展示其下一代 Blackwell 與 Rubin 芯片強(qiáng)大性能的 Benchmark 標(biāo)桿：

兩家公司都在國產(chǎn)芯片適配上做出了實(shí)質(zhì)性投入。

DeepSeek V4 首次深度適配華為昇騰芯片，推理環(huán)節(jié)將運(yùn)行在國產(chǎn)硬件上；Kimi 的 Prefill-as-a-Service 方案則提出了跨數(shù)據(jù)中心異構(gòu)硬件推理框架，允許用不同類型的國產(chǎn)芯片分別承擔(dān) Prefill 和 Decode 階段，實(shí)測吞吐量提升 54%，首 token 延遲降低 64%。這為國產(chǎn)芯片進(jìn)入大模型推理鏈條打開了一個(gè)現(xiàn)實(shí)的切入口。

黃仁勛在播客節(jié)目中說了一句意味深長的話：「芯片又不是鈾濃縮，阻擋不了中國芯片的進(jìn)步，他們依舊可以通過國產(chǎn)芯片來開發(fā)模型。」

他可能沒想到，DeepSeek 和 Kimi 正在用實(shí)際行動(dòng)讓這一天來得這么早，這么快。

技術(shù)的高度，最終取決于人的格局。

在總理主持召開的經(jīng)濟(jì)形勢專家和企業(yè)家座談會(huì)上，兩人時(shí)隔一年分別建言獻(xiàn)策，成為了中國 AI 發(fā)展史上的一個(gè)有力注腳。他們都是技術(shù)范式的引領(lǐng)者：DeepSeek 向世界證明了「思維鏈」的威力，而 Kimi 則在國內(nèi)引領(lǐng)了「智能體」的落地狂潮。

在追逐 AGI 的這場馬拉松里，沒有哪一家公司可以閉門造車地跑完全程。DeepSeek 與 Kimi 之間，有競爭，也有共鳴——Muon 與 MLA 的技術(shù)互通，底層機(jī)制上惺惺相惜的探索，恰恰說明：中國 AI 真正的底氣，從來不是某一家公司的單打獨(dú)斗，而是這種在「偶遇」中碰撞出的技術(shù)火花，以及在開源生態(tài)里悄然生長的互利共生。

雙峰并峙，終將頂峰相見。屬于中國大模型的萬億級航海時(shí)代，才剛剛拉開序幕。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.