網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

對(duì)話科學(xué)家馬驍騰：DeepSeek在一些技術(shù)上至少領(lǐng)先半年

2026-04-30 14:13:09　來(lái)源: 白鯨實(shí)驗(yàn)室one

北京舉報(bào)

分享至

當(dāng)外界帶著挑剔的目光投向DeepSeek V4，并和上次V3架構(gòu)帶來(lái)的全球轟動(dòng)對(duì)照時(shí)，一個(gè)極易忽略的細(xì)節(jié)是，華為昇騰芯片第一次支撐起了萬(wàn)億參數(shù)級(jí)前沿模型的訓(xùn)練。這可能改變國(guó)內(nèi)算力格局。

“國(guó)內(nèi)第一梯隊(duì)的模型廠商，預(yù)訓(xùn)練已經(jīng)部分可以用昇騰替換英偉達(dá)了，后訓(xùn)練還沒(méi)到那個(gè)程度。”馬驍騰告訴我們。

過(guò)去兩年，模型廠商的能力提升幾乎完全受限于團(tuán)隊(duì)能拿到多少?gòu)堄ミ_(dá)的A100或H800卡。沒(méi)有算力，再好的算法也是紙上談兵。

也正因此，Mind Lab首席科學(xué)家、清華大學(xué)自動(dòng)化系博士馬驍騰和他的團(tuán)隊(duì)一直在等待DeepSeek V4的發(fā)布。Mind Lab 是專注于后訓(xùn)練的Neo Lab，基于DeepSeek架構(gòu)模型和Qwen架構(gòu)模型做后訓(xùn)練。因?yàn)橐鸾饷恳豢钪髁餍履Ｐ停埠虳eepSeek、智譜、Kimi 等廠商的研發(fā)高層保持著密切的聯(lián)系。

DeepSeek V4發(fā)布的同一時(shí)段，Mind Lab也和國(guó)產(chǎn)芯片廠商展開(kāi)了合作。

不過(guò)，現(xiàn)在國(guó)產(chǎn)芯片在后訓(xùn)練階段暫時(shí)無(wú)法平替英偉達(dá)，后訓(xùn)練時(shí)，模型需要頻繁地在“訓(xùn)練”和“推理”之間高速切換，對(duì)芯片的訓(xùn)推一致性和極限響應(yīng)速度要求更高。馬驍騰指出，目前國(guó)產(chǎn)卡的生態(tài)和算子適配還不夠成熟。現(xiàn)階段可以先用國(guó)產(chǎn)的推理卡來(lái)承接后訓(xùn)練中的部分推理任務(wù)，訓(xùn)練環(huán)節(jié)暫時(shí)還在依賴英偉達(dá)。

盡管網(wǎng)上已有許多關(guān)于開(kāi)發(fā)人員、創(chuàng)業(yè)者對(duì)DeepSeek V4的解讀，但像馬驍騰這樣身處一線、又保持第三方視角的解讀并不多。

馬驍騰看完技術(shù)報(bào)告的一大感受是，DeepSeek的野心很大，這種野心體現(xiàn)在它沒(méi)有專注于榜單的追高，也沒(méi)有像其他模型廠商做局部、單點(diǎn)突破，DeepSeek一直想做架構(gòu)等全棧的原創(chuàng)突破。

DeepSeek V4發(fā)布后，編程能力略顯平庸，被認(rèn)為沒(méi)有甩開(kāi)智譜 GLM-5.1和Kimi-2.6，甚至在某些測(cè)試中只能勉強(qiáng)打平手。

馬驍騰解釋稱，如果DeepSeek真要死磕編程，完全可以把性能推到業(yè)界頂尖水準(zhǔn)，但代價(jià)必然是犧牲掉在通用任務(wù)上的泛化性。DeepSeek V4更強(qiáng)調(diào)對(duì)通用世界知識(shí)和日常寫作能力的提升——這類任務(wù)恰恰是最難啃的骨頭，因?yàn)樗鼈儾幌窠鈹?shù)學(xué)題、寫代碼那樣有明確的標(biāo)準(zhǔn)答案，無(wú)法通過(guò)強(qiáng)化學(xué)習(xí)直接優(yōu)化。

“這恰恰說(shuō)明DeepSeek野心很大，它不愿只做一個(gè)編程很強(qiáng)的專用工具”。馬驍騰說(shuō)，DeepSeek這次更新的核心就是長(zhǎng)文本能力，這對(duì)其他大廠可以說(shuō)是碾壓級(jí)的。

他還分享了V4跳票背后的一些技術(shù)真相，比如V4有一套極其獨(dú)創(chuàng)的容器技術(shù)DSec，速度極快，且具備快照功能。在訓(xùn)練時(shí)能隨時(shí)給整個(gè)系統(tǒng)狀態(tài)“拍一張照片”，一旦后續(xù)方向走偏，就能閃回重來(lái)。這種工程靈活度，他目前還沒(méi)在國(guó)內(nèi)第二家公司見(jiàn)過(guò)，“DeepSeek在技術(shù)上領(lǐng)先了至少半年”。

當(dāng) V4 正攪動(dòng)新一輪牌局之際，我們和馬驍騰聊了兩小時(shí)，以下是和他的對(duì)話：

DeepSeek的野心很大

白鯨實(shí)驗(yàn)室：你第一次聽(tīng)說(shuō)DeepSeek V4要發(fā)布是什么時(shí)候？

馬驍騰：大概是去年12月左右，DeepSeek V4 計(jì)劃在春節(jié)前后發(fā)，我們當(dāng)時(shí)做了充分的準(zhǔn)備，春節(jié)就沒(méi)放假，等著研究V4。后來(lái)確定發(fā)布計(jì)劃是大年三十，但還是撲了空。據(jù)我所知，臨到發(fā)布當(dāng)天，團(tuán)隊(duì)內(nèi)部對(duì)模型仍不滿意，就不發(fā)了。最后我們轉(zhuǎn)而研究智譜的GLM-5和 Kimi 2.5。

白鯨實(shí)驗(yàn)室：你對(duì) V4 拖到4月份發(fā)是有預(yù)期的嗎？還是覺(jué)得它應(yīng)該更早發(fā)出來(lái)？

馬驍騰：DeepSeek的節(jié)奏不好說(shuō)，大家都很期待這次V4的發(fā)布。畢竟上次V3.1和V3.2都是小版本更新，沒(méi)有像 R1 那樣帶來(lái)巨大突破。不過(guò)，這次看到V4，我個(gè)人感覺(jué)非常驚艷，由衷欽佩DeepSeek團(tuán)隊(duì)。

白鯨實(shí)驗(yàn)室：你最關(guān)注的是什么？

馬驍騰：其實(shí)有幾點(diǎn)。第一，1.6T 參數(shù)的開(kāi)源模型，是目前國(guó)內(nèi)最大的開(kāi)源模型。我們Mind Lab的研究定位就是用更大的模型、更少的算力，DeepSeek再次印證了往scaling走的趨勢(shì)。

第二，更長(zhǎng)的上下文窗口。他們這次更新的核心就是長(zhǎng)文本能力，這對(duì)其他大廠可以說(shuō)是碾壓級(jí)的。

第三，工程上做了很多水下功夫，非常瑣碎但很關(guān)鍵，外行可能感知不大。比如OPD* 的大規(guī)模應(yīng)用，雖然業(yè)界在合成數(shù)據(jù)時(shí)會(huì)用類似思路來(lái)整合不同專家模型的長(zhǎng)處，但DeepSeek是第一個(gè)在萬(wàn)億參數(shù)級(jí)別把它完整跑通的。這背后需要解決很多工程難題，包括對(duì)底層計(jì)算核心（Kernel）進(jìn)行極致的定制化改寫、on-disk KV cache*（磁盤KV緩存）等，單獨(dú)拆開(kāi)每一件都足夠一個(gè)團(tuán)隊(duì)攻堅(jiān)，而他們居然在同一個(gè)公司里全做到了。

*注：OPD ：On-Policy Distillation，是一種用于在大模型 agent 訓(xùn)練階段中高效融合專家網(wǎng)絡(luò)的訓(xùn)練方法，也是過(guò)去一年后訓(xùn)練的新范式。

*磁盤KV緩存，是把模型運(yùn)行時(shí)產(chǎn)生的KV緩存，從昂貴的顯存搬到了更廉價(jià)的硬盤上做持久化存儲(chǔ)，對(duì)于提升代碼倉(cāng)庫(kù)等長(zhǎng)文檔的閱讀能力來(lái)說(shuō)很重要。

白鯨實(shí)驗(yàn)室：你是說(shuō)相對(duì)于他們的團(tuán)隊(duì)人數(shù)來(lái)說(shuō)，這很難得？

馬驍騰：不。其實(shí)不少大模型公司在訓(xùn)練時(shí)更“按部就班”，他們可能選擇擁抱DeepSeek的架構(gòu)，但在架構(gòu)本身上花的原創(chuàng)心思不多，他們更傾向于在優(yōu)化器、Agent訓(xùn)練方面做單點(diǎn)突破。但DeepSeek V4做了全棧，把很多大家曾習(xí)以為常的默認(rèn)規(guī)則，全打碎了。現(xiàn)在應(yīng)該沒(méi)有人在看完他們的技術(shù)報(bào)告后不去研究的吧（笑）。

白鯨實(shí)驗(yàn)室：為什么騰訊、阿里都在推 30B 以下的“小”模型，而 V4 是巨大的1.6T？

馬驍騰：要想讓模型的表現(xiàn)達(dá)到最好，參數(shù)量就必須足夠大，模型才有足夠高的“智商”上限。但硬件的物理限制擺在那里，如果想把模型放在本地跑，參數(shù)量基本只能控制在 30B（約300億參數(shù)）以內(nèi)。這就形成了強(qiáng)力拉扯，追求智能就得往上堆參數(shù)，想要方便部署就得往下壓規(guī)模。

所以現(xiàn)在的模型很自然地分成了四個(gè)檔位：最小的那一檔，跑在最基礎(chǔ)的硬件上，能說(shuō)話就行；30B左右可以在個(gè)人設(shè)備上跑起來(lái)；100B到 200B，適合部署在服務(wù)器上，用來(lái)處理常規(guī)的Agent任務(wù)；600B到 1T（約1萬(wàn)億參數(shù)），用來(lái)解決真正最困難、最復(fù)雜的任務(wù)。卡在這幾檔中間的參數(shù)規(guī)模，定位很尷尬，意義不大。

至于這次V4的1.6T版本，它的意義在于追求極限，去探一探參數(shù)規(guī)模的天花板到底在哪里。但說(shuō)實(shí)話，目前對(duì)絕大多數(shù)人來(lái)說(shuō)，它確實(shí)很難在實(shí)際場(chǎng)景（本地部署）中用起來(lái)。反而是DeepSeek-V4-Flash（284B參數(shù)）最實(shí)用。它既劃算，又能在合理的資源下被訓(xùn)練得動(dòng)，還能真正部署到場(chǎng)景里去。對(duì)于任何一個(gè)創(chuàng)業(yè)者來(lái)說(shuō)，都不會(huì)拒絕在200B這個(gè)量級(jí)的模型上去開(kāi)展研究工作，它真的很“香”。

白鯨實(shí)驗(yàn)室：這次V4 發(fā)布，用戶端的感知沒(méi)有R1那么直接了，可以推薦幾個(gè)測(cè)試題，讓非技術(shù)人員也能體會(huì)它的進(jìn)步嗎？

馬驍騰：其實(shí)大家現(xiàn)在還在用傳統(tǒng)思維測(cè)模型，比如那些經(jīng)典的思維陷阱題。但那些題答得好壞，完全不影響代碼任務(wù)的表現(xiàn)。V4發(fā)布后真正有體感的，是把AI用在編程上的人。這次V4在編程上的表現(xiàn)，只能說(shuō)是跟Kimi 2.6、GLM 5.1打了個(gè)平手，這兩個(gè)模型也非常優(yōu)秀。最前沿的還是得看GPT 5.5和Claude 4.7。

白鯨實(shí)驗(yàn)室：DeepSeek R1是作為“價(jià)格屠夫”出圈的，現(xiàn)在的DeepSeek 相比OpenAI、谷歌，有沒(méi)有找到新的差異化優(yōu)勢(shì)？

馬驍騰：不能這么單一地看待DeepSeek。R1 本身顛覆性很強(qiáng)，它不僅是當(dāng)時(shí)最大的開(kāi)源模型，推理能力也足以和OpenAI的O1正面競(jìng)爭(zhēng)，但它更打動(dòng)人的是一種“泛化性”，仿佛無(wú)所不能。我記得當(dāng)時(shí)各行各業(yè)的反饋都是，你跟它聊什么，它都懂一點(diǎn)，還能說(shuō)到點(diǎn)子上。

這種“萬(wàn)金油”式的通用智能體驗(yàn)，在當(dāng)時(shí)的其他國(guó)產(chǎn)開(kāi)源模型上是相對(duì)缺失的。大家普遍更聚焦于如何在某個(gè)榜單上刷出更高的性能表現(xiàn)。

其實(shí)如果DeepSeek真要死磕編程這一個(gè)點(diǎn)，完全可以把性能推到業(yè)界頂尖水準(zhǔn)，但代價(jià)必然是犧牲掉在通用任務(wù)上的泛化性表現(xiàn)。但這次V4發(fā)布，DeepSeek特別強(qiáng)調(diào)了對(duì)通用世界知識(shí)和日常寫作能力的提升。

這類任務(wù)恰恰是最難啃的骨頭，因?yàn)樗鼈儾幌駨?qiáng)化學(xué)習(xí)（RL）那樣，可以通過(guò)解數(shù)學(xué)題、寫代碼這種有明確“標(biāo)準(zhǔn)答案”的目標(biāo)來(lái)直接優(yōu)化。這恰恰說(shuō)明DeepSeek野心很大，它不愿只做一個(gè)編程很強(qiáng)的專用工具。

白鯨實(shí)驗(yàn)室：所以，在某些編程場(chǎng)景，V4打不過(guò)Kimi 2.6，GLM 5.1，這是DeepSeek的選擇還是客觀差距？

馬驍騰：我覺(jué)得某種程度上，不追求SOTA榜單也是一種智慧。現(xiàn)在發(fā)模型很難，大家的要求都太高了，也都很卷。V4提到了大量對(duì)通用知識(shí)、更好寫作能力的增強(qiáng)，這些都不體現(xiàn)在我們最關(guān)注的那幾個(gè)榜單上。

我個(gè)人感覺(jué)，可能V4還是有意犧牲掉一部分的。這種對(duì)均衡性的追求，恰恰和谷歌、OpenAI這些頂級(jí)實(shí)驗(yàn)室的長(zhǎng)期戰(zhàn)略高度對(duì)齊。

“DeepSeek在技術(shù)上領(lǐng)先了至少半年”

白鯨實(shí)驗(yàn)室：在模型架構(gòu)和訓(xùn)練方法上，V4有哪些重大意義上的突破，值得創(chuàng)業(yè)者學(xué)習(xí)的？

馬驍騰：值得說(shuō)的點(diǎn)太多了。最顯而易見(jiàn)的就是長(zhǎng)上下文的訓(xùn)練方式。在V4開(kāi)源方案公開(kāi)之前，業(yè)內(nèi)絕大多數(shù)模型最多只能真實(shí)訓(xùn)練到25萬(wàn)token左右的上下文長(zhǎng)度。超過(guò)這個(gè)限度再想支持更長(zhǎng)的文本，全靠一種叫“外推”的技術(shù)勉強(qiáng)補(bǔ)位。

這就導(dǎo)致很多號(hào)稱支持超長(zhǎng)上下文的模型，一旦輸入的文本超過(guò)二十多萬(wàn)token，智商就斷崖式暴跌。原因就是，外推相當(dāng)于讓模型去猜它沒(méi)學(xué)過(guò)的東西，猜著猜著，之前記住的關(guān)鍵信息就丟了。

DeepSeek這次的做法是，干脆一個(gè)token都不丟，讓模型在訓(xùn)練時(shí)就主動(dòng)去容忍長(zhǎng)序列帶來(lái)的各種誤差，硬生生把上下文窗口撐開(kāi)。這背后牽扯到模型架構(gòu)的改動(dòng)，以及QAT技術(shù)，也就是量化感知訓(xùn)練。“量化”可以理解為把模型計(jì)算時(shí)的數(shù)字精度壓低，來(lái)?yè)Q取更快的運(yùn)行速度和更低的資源消耗，但這個(gè)壓縮過(guò)程必然帶來(lái)精度的損失。

常規(guī)做法是訓(xùn)練完之后再量化，通常會(huì)有性能折損。而QAT在訓(xùn)練階段就直接“預(yù)判”了推理時(shí)會(huì)產(chǎn)生的量化誤差，把這種誤差當(dāng)作訓(xùn)練的一部分，讓模型提前去學(xué)習(xí)和適應(yīng)這種“有損”的環(huán)境，抗干擾能力很強(qiáng)。這套設(shè)計(jì)非常關(guān)鍵。據(jù)我們觀察，在類似架構(gòu)上，如果不做QAT，訓(xùn)練出來(lái)的模型性能會(huì)下降得非常厲害。

白鯨實(shí)驗(yàn)室：最讓你驚喜的是什么？

馬驍騰：是注意力訓(xùn)練機(jī)制。從DeepSeek V3提出了MLA（多頭潛在注意力），同樣的信息用更少的KV緩存就能記下來(lái)。V3.2提出的DSA，是首次實(shí)現(xiàn)了可以“主動(dòng)遺忘”或舍棄一部分不再關(guān)鍵的KV緩存，這在以前是很難想象的。我們團(tuán)隊(duì)?wèi)?yīng)該是開(kāi)源社區(qū)里第一個(gè)能完整支持DSA訓(xùn)練的，上周才剛剛把這項(xiàng)技術(shù)的細(xì)節(jié)徹底消化，結(jié)果這周他們的新論文就又出來(lái)了。

這次V4引入的CSA/HCA（混合壓縮注意力機(jī)制）直接挑戰(zhàn)了注意力機(jī)制最底層的核心邏輯。過(guò)去的優(yōu)化大多圍繞著“如何更高效地管理緩存”做文章，而DeepSeek的新思路是，讓模型去“學(xué)習(xí)”緩存本身該是什么樣。這等于是給緩存層也裝上了可訓(xùn)練的參數(shù)，讓它能自己決定該記住什么、忘掉什么。這背后牽涉到的系統(tǒng)復(fù)雜度和工程實(shí)現(xiàn)難度是暴漲的。

另一個(gè)很復(fù)雜的工程是KV緩存*的分層管理。前面提到的CSA、HCA（動(dòng)態(tài)稀疏注意力）等新機(jī)制，雖然大幅壓縮了KV緩存本身的體積，但也帶來(lái)了一個(gè)問(wèn)題，就是緩存的結(jié)構(gòu)變了。過(guò)去一整塊可以統(tǒng)一調(diào)度的東西，裂變成了不同層級(jí)、不同屬性的緩存塊。為了讓它們協(xié)同工作，需要一套新的分層管理機(jī)制，極其復(fù)雜。

*注：KV緩存（Key Value），在Transformer 模型里，指模型把過(guò)往的詞打上標(biāo)簽，方便快速對(duì)應(yīng)標(biāo)簽底下儲(chǔ)存著的詳細(xì)信息，直接決定大模型能記住多長(zhǎng)的上文和推理速度。上下文越長(zhǎng)，存的東西越多，顯存就被撐得越滿。這也是為什么長(zhǎng)上下文模型那么難做的核心瓶頸之一。

白鯨實(shí)驗(yàn)室：最讓你意外的是什么？

馬驍騰：還有一個(gè)讓人印象深刻的細(xì)節(jié)。DeepSeek 內(nèi)部有一套極其獨(dú)創(chuàng)的容器技術(shù)DSec，速度極快，而且具備快照功能。就是在訓(xùn)練過(guò)程中隨時(shí)給整個(gè)系統(tǒng)狀態(tài)“拍一張照片”，一旦后續(xù)方向走偏，就能瞬間閃回到那個(gè)時(shí)間點(diǎn)接著重來(lái)。

這種工程靈活度，我目前還沒(méi)在第二家公司見(jiàn)過(guò)。

白鯨實(shí)驗(yàn)室：國(guó)外大廠也沒(méi)有嗎？

馬驍騰：我不清楚OpenAI怎么做的，但其他大廠，他們沒(méi)意識(shí)到這個(gè)容器技術(shù)對(duì)Agent訓(xùn)練的重要性，所以DeepSeek在技術(shù)上可以說(shuō)領(lǐng)先了至少半年。

白鯨實(shí)驗(yàn)室：V4把上下文一次性“吃”進(jìn)去，這和Mind Lab的Lora是兩條技術(shù)路線。你傾向于哪種？V4的方案會(huì)不會(huì)讓長(zhǎng)期記憶問(wèn)題變得不那么重要了？

馬驍騰：V4的方案確實(shí)緩解了記憶問(wèn)題，但不是唯一的解法。

目前業(yè)界跑通的技術(shù)路線，大致可以分成兩派。一派是DeepSeek的做法，不斷把注意力范圍撐大，讓模型能在一次處理中直接“吃”進(jìn)更長(zhǎng)的上下文。另一派是OpenAI的路子，他們拼命做壓縮——也就是把過(guò)往的對(duì)話歷史，實(shí)時(shí)提煉成一種高度濃縮的“摘要信息”。

你作為用戶，幾乎感覺(jué)不到它的記憶預(yù)算是有限的，聊起來(lái)好像它什么都能記住。但說(shuō)到底，這兩套方案主要解決的，其實(shí)都是工作記憶的問(wèn)題，也就是模型在當(dāng)前對(duì)話里處理信息的能力。

真正的問(wèn)題是，無(wú)論哪種方案，只要新開(kāi)一個(gè)會(huì)話，它就會(huì)從零開(kāi)始。Lora或者說(shuō)參數(shù)化記憶，永遠(yuǎn)是長(zhǎng)期記憶的終極方案。一個(gè)最直接的例子是，掌握一門新的編程語(yǔ)言，你無(wú)法把所有語(yǔ)法塞進(jìn)上下文就指望模型學(xué)會(huì)。

前段時(shí)間，某海外頭部芯片廠商的科學(xué)家找到我們，他們每代新硬件都要發(fā)明新的語(yǔ)言，這是基座模型不會(huì)的，所以要尋求一種通過(guò)Lora讓模型快速學(xué)習(xí)新知識(shí)的方式。而且，Lora今年已經(jīng)非常明顯地適用于當(dāng)前模型的整個(gè)后訓(xùn)練流程技術(shù)棧了。各大廠商的訓(xùn)練方式就是基座訓(xùn)練好后，分成各個(gè)分支分別去訓(xùn)練專用任務(wù)，最后合并，這其實(shí)就是非常適合Lora的模式。

白鯨實(shí)驗(yàn)室：下一個(gè)階段的競(jìng)爭(zhēng)核心是在哪？繼續(xù)在文本、Agent上卷，還是多模態(tài)？

馬驍騰：我覺(jué)得Agent還沒(méi)卷到頭。從技術(shù)上講，如果在文本能力上取得進(jìn)展，模型的可用范圍會(huì)明顯拓寬。相比之下，視覺(jué)能力沒(méi)有外界想象的那么神秘。它的實(shí)現(xiàn)路徑已經(jīng)相對(duì)成熟，就是給語(yǔ)言模型外掛一個(gè)“視覺(jué)編碼器”。

現(xiàn)在DeepSeek上線了識(shí)圖模式，也是一種印證。因?yàn)樗菆D像理解，而不是圖像生成。而且智譜和 Kimi 現(xiàn)在接入視覺(jué)功能也都很絲滑，但用戶并不會(huì)因此就覺(jué)得這個(gè)模型有多厲害，市場(chǎng)真正優(yōu)先看的，還是它在Agent上的表現(xiàn)。

白鯨實(shí)驗(yàn)室：什么情況下，能判斷Agent已經(jīng)卷到頭了？

馬驍騰：比如GPT 5.5相對(duì)于5.4，原來(lái)可能需要十句話講明白的需求，現(xiàn)在一句話就行。AI自己會(huì)考慮好如何正確完成，自己把從需求到結(jié)果的整個(gè)流程閉環(huán)，中間需要的人工干預(yù)的步驟越少，價(jià)值就越高。

現(xiàn)在Agent還有很多工作要做。模型在個(gè)性化任務(wù)上對(duì)人的需求和記憶的理解還是很差。這個(gè)不是圖像層面的問(wèn)題，是語(yǔ)言層面的。甚至隨著編程能力增強(qiáng)，模型對(duì)人的理解能力還下降了，說(shuō)話越來(lái)越有“AI味”，我們?cè)谘芯坷锇堰@叫做“人格漂移”。

模型廠商都開(kāi)始在預(yù)訓(xùn)練用昇騰卡了

白鯨實(shí)驗(yàn)室：這次V4在華為昇騰卡上做了訓(xùn)練適配，對(duì)你們有啟發(fā)嗎？

馬驍騰：目前國(guó)內(nèi)第一梯隊(duì)的模型廠商，現(xiàn)在已經(jīng)可以在預(yù)訓(xùn)練階段用華為昇騰卡來(lái)替代英偉達(dá)芯片了，但后訓(xùn)練階段還做不到完全平替。目前我們Mind Lab正在積極推動(dòng)和國(guó)產(chǎn)芯片的合作。

白鯨實(shí)驗(yàn)室：預(yù)訓(xùn)練和后訓(xùn)練適配國(guó)產(chǎn)卡，有哪些不同？為什么大家都卡在了后訓(xùn)練？

馬驍騰：預(yù)訓(xùn)練雖然整體耗時(shí)最長(zhǎng)，但任務(wù)本身非常“單純”，模型只盯著一個(gè)統(tǒng)一的目標(biāo)（優(yōu)化一個(gè)損失函數(shù)），過(guò)程穩(wěn)定且重復(fù)性高，目前國(guó)產(chǎn)芯片已經(jīng)可以勝任了。

后訓(xùn)練完全是另一回事。這個(gè)階段包含了指令微調(diào)、強(qiáng)化學(xué)習(xí)等復(fù)雜步驟，模型需要頻繁地在“訓(xùn)練”和“推理”兩種狀態(tài)之間高速切換，對(duì)芯片的訓(xùn)推一致性（即同一張卡在訓(xùn)練和推理時(shí)表現(xiàn)都要好，且能無(wú)縫銜接）以及極限響應(yīng)速度要求更高。目前國(guó)產(chǎn)卡的生態(tài)和算子適配還不夠成熟。所以現(xiàn)階段可以先用國(guó)產(chǎn)的推理卡，即專為推理優(yōu)化的芯片，比如昇騰的推理卡來(lái)承接后訓(xùn)練中的部分推理任務(wù)，訓(xùn)練環(huán)節(jié)暫時(shí)依賴英偉達(dá)。

白鯨實(shí)驗(yàn)室：類似DeepSeek和華為的深度合作有篩選門檻嗎？

馬驍騰：還是有的。畢竟現(xiàn)在能訓(xùn)起這么大模型的實(shí)驗(yàn)室團(tuán)隊(duì)，全國(guó)不超過(guò) 10 個(gè)。

白鯨實(shí)驗(yàn)室：我們能看到大模型后訓(xùn)練完全適配國(guó)產(chǎn)芯片的一天嗎？

馬驍騰：我們現(xiàn)在對(duì)國(guó)產(chǎn)卡應(yīng)該燃起充分的希望。國(guó)產(chǎn)芯片和英偉達(dá)的差距主要是生態(tài)，但是原來(lái)生態(tài)上的不足，現(xiàn)在已經(jīng)能用 AI 來(lái)彌補(bǔ)了。之前模型適配國(guó)產(chǎn)芯片，很多底層的基礎(chǔ)算子、適配代碼，都要靠經(jīng)驗(yàn)豐富的工程師一行一行寫，費(fèi)時(shí)也缺人。

但現(xiàn)在我不會(huì)寫國(guó)產(chǎn)生成卡的適配代碼，但AI會(huì)寫，而且寫得越來(lái)越好。這等于是給適配過(guò)程裝上了加速器，效率一下子就提上來(lái)了。

白鯨實(shí)驗(yàn)室：這種合作給你們帶來(lái)的最直觀好處是什么？成本的大幅下降？

馬驍騰：最直觀的還是緩解算力緊缺。國(guó)產(chǎn)卡的成本優(yōu)勢(shì)是很驚人的，現(xiàn)在買卡真的是又貴又難，能用到更多國(guó)產(chǎn)卡，對(duì)整體生態(tài)肯定是更好的。

V4炫技，閉源承壓

白鯨實(shí)驗(yàn)室：V4發(fā)布當(dāng)天，有AI概念股下跌6%以上。從二級(jí)市場(chǎng)到VC圈，有人調(diào)侃說(shuō)DeepSeek還是國(guó)產(chǎn)大模型最嚴(yán)厲的父親，你怎么看待這種現(xiàn)象？

馬驍騰：說(shuō)實(shí)話，我個(gè)人認(rèn)為這是短期現(xiàn)象，他們可能并沒(méi)真正研究過(guò) V4發(fā)生了什么。比如coding場(chǎng)景上，現(xiàn)在也不能說(shuō)DeepSeek就比 GLM 5.1 好。我理解的“嚴(yán)厲”，是DeepSeek做的很坦蕩，就是把模型性能做到這個(gè)高度，然后徹底開(kāi)源，任何人都能免費(fèi)用。

這等于給全行業(yè)劃下了一條非常高的及格線，你如果選擇閉源收費(fèi)，那你拿出來(lái)的東西就不能只比它好一點(diǎn)點(diǎn)，必須得有質(zhì)的飛躍，好到讓用戶覺(jué)得付費(fèi)是值得的。

白鯨實(shí)驗(yàn)室：說(shuō)到開(kāi)源，今年包括Minimax、阿里都出現(xiàn)了閉源趨勢(shì)，MiniMax 4月推出的M2.7，在傳統(tǒng)學(xué)術(shù)意義上依然是開(kāi)源模型，但它的許可證版本改為“嚴(yán)禁商業(yè)用途”“需要得到授權(quán)才能商業(yè)化”，阿里Qwen3.5-Omni選擇閉源。你如何判斷這種戰(zhàn)略轉(zhuǎn)向？它背后的邏輯到底是什么？是技術(shù)控制權(quán)？還是盈利壓力？

馬驍騰：我們必須尊重“公司要掙錢”這個(gè)事實(shí)。一家公司能選擇走開(kāi)源這條路，本身就是極其艱難的商業(yè)決策。阿里的平衡拿捏得不錯(cuò)，把最強(qiáng)的Qwen Max 閉源，同時(shí)把體量小一些的模型開(kāi)源。但DeepSeek確實(shí)會(huì)讓這種原本的平衡變得尷尬。

不過(guò)另一邊，大家也看到，即使開(kāi)源，1.6T的大參數(shù)沒(méi)幾個(gè)人能在自己電腦上真正跑起來(lái)。要把這樣的模型部署好、跑得順、用到業(yè)務(wù)里，需要海量的工程技巧和配套服務(wù)，這本身就是強(qiáng)需求。比如Kimi、智譜、Minimax智譜，他們開(kāi)源的模型照樣賣得很好，因?yàn)橘u的不只是模型權(quán)重，更是大家對(duì)于他們技術(shù)能力的信任。

白鯨實(shí)驗(yàn)室：從第三方評(píng)測(cè)看，V4更多被強(qiáng)調(diào)在代碼任務(wù)上的“開(kāi)源斷層”和價(jià)格屠夫的角色——V4-Flash輸出價(jià)僅0.28美元/百萬(wàn)token。就在前一天發(fā)布的GPT-5.5輸出價(jià)是30美元/百萬(wàn)token。這種近100倍的價(jià)差，在你看來(lái)會(huì)把AI應(yīng)用市場(chǎng)帶向何方？

馬驍騰：其實(shí)現(xiàn)在DeepSeek有一種“炫技”的感覺(jué)。他想傳遞的是，極致的低價(jià)不全是靠壓榨利潤(rùn)換來(lái)的，而是可以通過(guò)KV緩存優(yōu)化這類硬核技術(shù)，從底層把算力消耗實(shí)實(shí)在在地省出來(lái)。卡省下了，成本自然就降了，價(jià)格也就有了更低的空間。背后靠的是技術(shù)底子。

目前的模型定價(jià)策略，也分成了兩條路：一條是朝“更貴、更極致”走，另一條是向“更小、更便宜、更大眾”去。像V4的1.6T版本，追求的就是能力的上限，可以為了極致性能犧牲一點(diǎn)速度和等待時(shí)間；而flash版本，目標(biāo)則是敏捷、好用、覆蓋更廣泛的日常任務(wù)，主打速度和性價(jià)比。這兩者不是對(duì)立的，而是搭配著來(lái)。

白鯨實(shí)驗(yàn)室：V4的低價(jià)開(kāi)源，會(huì)壓縮做中間態(tài)商業(yè)模型公司的生存空間嗎？

馬驍騰：我還是覺(jué)得垂直場(chǎng)景很重要。在一個(gè)強(qiáng)的基座模型上，即使你再擴(kuò)大參數(shù)，智能收益也是有限的。大廠能拿到的數(shù)據(jù)很有限，垂域應(yīng)用廠商下游的真實(shí)數(shù)據(jù)，是有很大護(hù)城河的。最典型的例子就是Cursor。

它就只深耕編程這一個(gè)垂直領(lǐng)域，后訓(xùn)練做得極好，最近也和SpaceX達(dá)成合作并拿到收購(gòu)期權(quán)，估值跟Minimax 這種通用大模型公司平起平坐。這證明了，把后訓(xùn)練這一件事在垂域做好，就能創(chuàng)造出上市級(jí)別的價(jià)值。

現(xiàn)在行業(yè)的問(wèn)題是，基座模型迭代飛快，但讓這些能力在具體場(chǎng)景里落地的推理設(shè)施和部署工程，還跟不上。我們就在嘗試彌補(bǔ)這個(gè)斷層，讓大家能更好地在基座上釋放下游場(chǎng)景的價(jià)值。

撰寫｜馬舒葉

編輯｜劉培

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.