<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      對(duì)話科學(xué)家馬驍騰:DeepSeek在一些技術(shù)上至少領(lǐng)先半年

      0
      分享至


      當(dāng)外界帶著挑剔的目光投向DeepSeek V4,并和上次V3架構(gòu)帶來(lái)的全球轟動(dòng)對(duì)照時(shí),一個(gè)極易忽略的細(xì)節(jié)是,華為昇騰芯片第一次支撐起了萬(wàn)億參數(shù)級(jí)前沿模型的訓(xùn)練。這可能改變國(guó)內(nèi)算力格局。

      “國(guó)內(nèi)第一梯隊(duì)的模型廠商,預(yù)訓(xùn)練已經(jīng)部分可以用昇騰替換英偉達(dá)了,后訓(xùn)練還沒(méi)到那個(gè)程度。”馬驍騰告訴我們。

      過(guò)去兩年,模型廠商的能力提升幾乎完全受限于團(tuán)隊(duì)能拿到多少?gòu)堄ミ_(dá)的A100或H800卡。沒(méi)有算力,再好的算法也是紙上談兵。

      也正因此,Mind Lab首席科學(xué)家、清華大學(xué)自動(dòng)化系博士馬驍騰和他的團(tuán)隊(duì)一直在等待DeepSeek V4的發(fā)布。Mind Lab 是專注于后訓(xùn)練的Neo Lab,基于DeepSeek架構(gòu)模型和Qwen架構(gòu)模型做后訓(xùn)練。因?yàn)橐鸾饷恳豢钪髁餍履P停埠虳eepSeek、智譜、Kimi 等廠商的研發(fā)高層保持著密切的聯(lián)系。

      DeepSeek V4發(fā)布的同一時(shí)段,Mind Lab也和國(guó)產(chǎn)芯片廠商展開(kāi)了合作。

      不過(guò),現(xiàn)在國(guó)產(chǎn)芯片在后訓(xùn)練階段暫時(shí)無(wú)法平替英偉達(dá),后訓(xùn)練時(shí),模型需要頻繁地在“訓(xùn)練”和“推理”之間高速切換,對(duì)芯片的訓(xùn)推一致性和極限響應(yīng)速度要求更高。馬驍騰指出,目前國(guó)產(chǎn)卡的生態(tài)和算子適配還不夠成熟。現(xiàn)階段可以先用國(guó)產(chǎn)的推理卡來(lái)承接后訓(xùn)練中的部分推理任務(wù),訓(xùn)練環(huán)節(jié)暫時(shí)還在依賴英偉達(dá)。

      盡管網(wǎng)上已有許多關(guān)于開(kāi)發(fā)人員、創(chuàng)業(yè)者對(duì)DeepSeek V4的解讀,但像馬驍騰這樣身處一線、又保持第三方視角的解讀并不多。

      馬驍騰看完技術(shù)報(bào)告的一大感受是,DeepSeek的野心很大,這種野心體現(xiàn)在它沒(méi)有專注于榜單的追高,也沒(méi)有像其他模型廠商做局部、單點(diǎn)突破,DeepSeek一直想做架構(gòu)等全棧的原創(chuàng)突破。

      DeepSeek V4發(fā)布后,編程能力略顯平庸,被認(rèn)為沒(méi)有甩開(kāi)智譜 GLM-5.1和Kimi-2.6,甚至在某些測(cè)試中只能勉強(qiáng)打平手。

      馬驍騰解釋稱,如果DeepSeek真要死磕編程,完全可以把性能推到業(yè)界頂尖水準(zhǔn),但代價(jià)必然是犧牲掉在通用任務(wù)上的泛化性。DeepSeek V4更強(qiáng)調(diào)對(duì)通用世界知識(shí)和日常寫作能力的提升——這類任務(wù)恰恰是最難啃的骨頭,因?yàn)樗鼈儾幌窠鈹?shù)學(xué)題、寫代碼那樣有明確的標(biāo)準(zhǔn)答案,無(wú)法通過(guò)強(qiáng)化學(xué)習(xí)直接優(yōu)化。

      “這恰恰說(shuō)明DeepSeek野心很大,它不愿只做一個(gè)編程很強(qiáng)的專用工具”。馬驍騰說(shuō),DeepSeek這次更新的核心就是長(zhǎng)文本能力,這對(duì)其他大廠可以說(shuō)是碾壓級(jí)的。

      他還分享了V4跳票背后的一些技術(shù)真相,比如V4有一套極其獨(dú)創(chuàng)的容器技術(shù)DSec,速度極快,且具備快照功能。在訓(xùn)練時(shí)能隨時(shí)給整個(gè)系統(tǒng)狀態(tài)“拍一張照片”,一旦后續(xù)方向走偏,就能閃回重來(lái)。這種工程靈活度,他目前還沒(méi)在國(guó)內(nèi)第二家公司見(jiàn)過(guò),“DeepSeek在技術(shù)上領(lǐng)先了至少半年”。

      當(dāng) V4 正攪動(dòng)新一輪牌局之際,我們和馬驍騰聊了兩小時(shí),以下是和他的對(duì)話:

      01

      DeepSeek的野心很大

      白鯨實(shí)驗(yàn)室:你第一次聽(tīng)說(shuō)DeepSeek V4要發(fā)布是什么時(shí)候?

      馬驍騰:大概是去年12月左右,DeepSeek V4 計(jì)劃在春節(jié)前后發(fā),我們當(dāng)時(shí)做了充分的準(zhǔn)備,春節(jié)就沒(méi)放假,等著研究V4。后來(lái)確定發(fā)布計(jì)劃是大年三十,但還是撲了空。據(jù)我所知,臨到發(fā)布當(dāng)天,團(tuán)隊(duì)內(nèi)部對(duì)模型仍不滿意,就不發(fā)了。最后我們轉(zhuǎn)而研究智譜的GLM-5和 Kimi 2.5。

      白鯨實(shí)驗(yàn)室:你對(duì) V4 拖到4月份發(fā)是有預(yù)期的嗎?還是覺(jué)得它應(yīng)該更早發(fā)出來(lái)?

      馬驍騰:DeepSeek的節(jié)奏不好說(shuō),大家都很期待這次V4的發(fā)布。畢竟上次V3.1和V3.2都是小版本更新,沒(méi)有像 R1 那樣帶來(lái)巨大突破。不過(guò),這次看到V4,我個(gè)人感覺(jué)非常驚艷,由衷欽佩DeepSeek團(tuán)隊(duì)。

      白鯨實(shí)驗(yàn)室:你最關(guān)注的是什么?

      馬驍騰:其實(shí)有幾點(diǎn)。第一,1.6T 參數(shù)的開(kāi)源模型,是目前國(guó)內(nèi)最大的開(kāi)源模型。我們Mind Lab的研究定位就是用更大的模型、更少的算力,DeepSeek再次印證了往scaling走的趨勢(shì)。

      第二,更長(zhǎng)的上下文窗口。他們這次更新的核心就是長(zhǎng)文本能力,這對(duì)其他大廠可以說(shuō)是碾壓級(jí)的。

      第三,工程上做了很多水下功夫,非常瑣碎但很關(guān)鍵,外行可能感知不大。比如OPD* 的大規(guī)模應(yīng)用,雖然業(yè)界在合成數(shù)據(jù)時(shí)會(huì)用類似思路來(lái)整合不同專家模型的長(zhǎng)處,但DeepSeek是第一個(gè)在萬(wàn)億參數(shù)級(jí)別把它完整跑通的。這背后需要解決很多工程難題,包括對(duì)底層計(jì)算核心(Kernel)進(jìn)行極致的定制化改寫、on-disk KV cache*(磁盤KV緩存)等,單獨(dú)拆開(kāi)每一件都足夠一個(gè)團(tuán)隊(duì)攻堅(jiān),而他們居然在同一個(gè)公司里全做到了。

      *注:OPD :On-Policy Distillation,是一種用于在大模型 agent 訓(xùn)練階段中高效融合專家網(wǎng)絡(luò)的訓(xùn)練方法,也是過(guò)去一年后訓(xùn)練的新范式。

      *磁盤KV緩存,是把模型運(yùn)行時(shí)產(chǎn)生的KV緩存,從昂貴的顯存搬到了更廉價(jià)的硬盤上做持久化存儲(chǔ),對(duì)于提升代碼倉(cāng)庫(kù)等長(zhǎng)文檔的閱讀能力來(lái)說(shuō)很重要。

      白鯨實(shí)驗(yàn)室:你是說(shuō)相對(duì)于他們的團(tuán)隊(duì)人數(shù)來(lái)說(shuō),這很難得?

      馬驍騰:不。其實(shí)不少大模型公司在訓(xùn)練時(shí)更“按部就班”,他們可能選擇擁抱DeepSeek的架構(gòu),但在架構(gòu)本身上花的原創(chuàng)心思不多,他們更傾向于在優(yōu)化器、Agent訓(xùn)練方面做單點(diǎn)突破。但DeepSeek V4做了全棧,把很多大家曾習(xí)以為常的默認(rèn)規(guī)則,全打碎了。現(xiàn)在應(yīng)該沒(méi)有人在看完他們的技術(shù)報(bào)告后不去研究的吧(笑)。

      白鯨實(shí)驗(yàn)室:為什么騰訊、阿里都在推 30B 以下的“小”模型,而 V4 是巨大的1.6T?

      馬驍騰:要想讓模型的表現(xiàn)達(dá)到最好,參數(shù)量就必須足夠大,模型才有足夠高的“智商”上限。但硬件的物理限制擺在那里,如果想把模型放在本地跑,參數(shù)量基本只能控制在 30B(約300億參數(shù))以內(nèi)。這就形成了強(qiáng)力拉扯,追求智能就得往上堆參數(shù),想要方便部署就得往下壓規(guī)模。

      所以現(xiàn)在的模型很自然地分成了四個(gè)檔位:最小的那一檔,跑在最基礎(chǔ)的硬件上,能說(shuō)話就行;30B左右可以在個(gè)人設(shè)備上跑起來(lái);100B到 200B,適合部署在服務(wù)器上,用來(lái)處理常規(guī)的Agent任務(wù);600B到 1T(約1萬(wàn)億參數(shù)),用來(lái)解決真正最困難、最復(fù)雜的任務(wù)。卡在這幾檔中間的參數(shù)規(guī)模,定位很尷尬,意義不大。

      至于這次V4的1.6T版本,它的意義在于追求極限,去探一探參數(shù)規(guī)模的天花板到底在哪里。但說(shuō)實(shí)話,目前對(duì)絕大多數(shù)人來(lái)說(shuō),它確實(shí)很難在實(shí)際場(chǎng)景(本地部署)中用起來(lái)。反而是DeepSeek-V4-Flash(284B參數(shù))最實(shí)用。它既劃算,又能在合理的資源下被訓(xùn)練得動(dòng),還能真正部署到場(chǎng)景里去。對(duì)于任何一個(gè)創(chuàng)業(yè)者來(lái)說(shuō),都不會(huì)拒絕在200B這個(gè)量級(jí)的模型上去開(kāi)展研究工作,它真的很“香”。

      白鯨實(shí)驗(yàn)室:這次V4 發(fā)布,用戶端的感知沒(méi)有R1那么直接了,可以推薦幾個(gè)測(cè)試題,讓非技術(shù)人員也能體會(huì)它的進(jìn)步嗎?

      馬驍騰:其實(shí)大家現(xiàn)在還在用傳統(tǒng)思維測(cè)模型,比如那些經(jīng)典的思維陷阱題。但那些題答得好壞,完全不影響代碼任務(wù)的表現(xiàn)。V4發(fā)布后真正有體感的,是把AI用在編程上的人。這次V4在編程上的表現(xiàn),只能說(shuō)是跟Kimi 2.6、GLM 5.1打了個(gè)平手,這兩個(gè)模型也非常優(yōu)秀。最前沿的還是得看GPT 5.5和Claude 4.7。

      白鯨實(shí)驗(yàn)室:DeepSeek R1是作為“價(jià)格屠夫”出圈的,現(xiàn)在的DeepSeek 相比OpenAI、谷歌,有沒(méi)有找到新的差異化優(yōu)勢(shì)?

      馬驍騰:不能這么單一地看待DeepSeek。R1 本身顛覆性很強(qiáng),它不僅是當(dāng)時(shí)最大的開(kāi)源模型,推理能力也足以和OpenAI的O1正面競(jìng)爭(zhēng),但它更打動(dòng)人的是一種“泛化性”,仿佛無(wú)所不能。我記得當(dāng)時(shí)各行各業(yè)的反饋都是,你跟它聊什么,它都懂一點(diǎn),還能說(shuō)到點(diǎn)子上。

      這種“萬(wàn)金油”式的通用智能體驗(yàn),在當(dāng)時(shí)的其他國(guó)產(chǎn)開(kāi)源模型上是相對(duì)缺失的。大家普遍更聚焦于如何在某個(gè)榜單上刷出更高的性能表現(xiàn)。

      其實(shí)如果DeepSeek真要死磕編程這一個(gè)點(diǎn),完全可以把性能推到業(yè)界頂尖水準(zhǔn),但代價(jià)必然是犧牲掉在通用任務(wù)上的泛化性表現(xiàn)。但這次V4發(fā)布,DeepSeek特別強(qiáng)調(diào)了對(duì)通用世界知識(shí)和日常寫作能力的提升。

      這類任務(wù)恰恰是最難啃的骨頭,因?yàn)樗鼈儾幌駨?qiáng)化學(xué)習(xí)(RL)那樣,可以通過(guò)解數(shù)學(xué)題、寫代碼這種有明確“標(biāo)準(zhǔn)答案”的目標(biāo)來(lái)直接優(yōu)化。這恰恰說(shuō)明DeepSeek野心很大,它不愿只做一個(gè)編程很強(qiáng)的專用工具。

      白鯨實(shí)驗(yàn)室:所以,在某些編程場(chǎng)景,V4打不過(guò)Kimi 2.6,GLM 5.1,這是DeepSeek的選擇還是客觀差距?

      馬驍騰:我覺(jué)得某種程度上,不追求SOTA榜單也是一種智慧。現(xiàn)在發(fā)模型很難,大家的要求都太高了,也都很卷。V4提到了大量對(duì)通用知識(shí)、更好寫作能力的增強(qiáng),這些都不體現(xiàn)在我們最關(guān)注的那幾個(gè)榜單上。

      我個(gè)人感覺(jué),可能V4還是有意犧牲掉一部分的。這種對(duì)均衡性的追求,恰恰和谷歌、OpenAI這些頂級(jí)實(shí)驗(yàn)室的長(zhǎng)期戰(zhàn)略高度對(duì)齊。

      02

      “DeepSeek在技術(shù)上領(lǐng)先了至少半年”

      白鯨實(shí)驗(yàn)室: 在模型架構(gòu)和訓(xùn)練方法上,V4有哪些重大意義上的突破,值得創(chuàng)業(yè)者學(xué)習(xí)的?

      馬驍騰:值得說(shuō)的點(diǎn)太多了。最顯而易見(jiàn)的就是長(zhǎng)上下文的訓(xùn)練方式。在V4開(kāi)源方案公開(kāi)之前,業(yè)內(nèi)絕大多數(shù)模型最多只能真實(shí)訓(xùn)練到25萬(wàn)token左右的上下文長(zhǎng)度。超過(guò)這個(gè)限度再想支持更長(zhǎng)的文本,全靠一種叫“外推”的技術(shù)勉強(qiáng)補(bǔ)位。

      這就導(dǎo)致很多號(hào)稱支持超長(zhǎng)上下文的模型,一旦輸入的文本超過(guò)二十多萬(wàn)token,智商就斷崖式暴跌。原因就是,外推相當(dāng)于讓模型去猜它沒(méi)學(xué)過(guò)的東西,猜著猜著,之前記住的關(guān)鍵信息就丟了。

      DeepSeek這次的做法是,干脆一個(gè)token都不丟,讓模型在訓(xùn)練時(shí)就主動(dòng)去容忍長(zhǎng)序列帶來(lái)的各種誤差,硬生生把上下文窗口撐開(kāi)。這背后牽扯到模型架構(gòu)的改動(dòng),以及QAT技術(shù),也就是量化感知訓(xùn)練。“量化”可以理解為把模型計(jì)算時(shí)的數(shù)字精度壓低,來(lái)?yè)Q取更快的運(yùn)行速度和更低的資源消耗,但這個(gè)壓縮過(guò)程必然帶來(lái)精度的損失。

      常規(guī)做法是訓(xùn)練完之后再量化,通常會(huì)有性能折損。而QAT在訓(xùn)練階段就直接“預(yù)判”了推理時(shí)會(huì)產(chǎn)生的量化誤差,把這種誤差當(dāng)作訓(xùn)練的一部分,讓模型提前去學(xué)習(xí)和適應(yīng)這種“有損”的環(huán)境,抗干擾能力很強(qiáng)。這套設(shè)計(jì)非常關(guān)鍵。據(jù)我們觀察,在類似架構(gòu)上,如果不做QAT,訓(xùn)練出來(lái)的模型性能會(huì)下降得非常厲害。

      白鯨實(shí)驗(yàn)室:最讓你驚喜的是什么?

      馬驍騰:是注意力訓(xùn)練機(jī)制。從DeepSeek V3提出了MLA(多頭潛在注意力),同樣的信息用更少的KV緩存就能記下來(lái)。V3.2提出的DSA,是首次實(shí)現(xiàn)了可以“主動(dòng)遺忘”或舍棄一部分不再關(guān)鍵的KV緩存,這在以前是很難想象的。我們團(tuán)隊(duì)?wèi)?yīng)該是開(kāi)源社區(qū)里第一個(gè)能完整支持DSA訓(xùn)練的,上周才剛剛把這項(xiàng)技術(shù)的細(xì)節(jié)徹底消化,結(jié)果這周他們的新論文就又出來(lái)了。

      這次V4引入的CSA/HCA(混合壓縮注意力機(jī)制)直接挑戰(zhàn)了注意力機(jī)制最底層的核心邏輯。過(guò)去的優(yōu)化大多圍繞著“如何更高效地管理緩存”做文章,而DeepSeek的新思路是,讓模型去“學(xué)習(xí)”緩存本身該是什么樣。這等于是給緩存層也裝上了可訓(xùn)練的參數(shù),讓它能自己決定該記住什么、忘掉什么。這背后牽涉到的系統(tǒng)復(fù)雜度和工程實(shí)現(xiàn)難度是暴漲的。

      另一個(gè)很復(fù)雜的工程是KV緩存*的分層管理。前面提到的CSA、HCA(動(dòng)態(tài)稀疏注意力)等新機(jī)制,雖然大幅壓縮了KV緩存本身的體積,但也帶來(lái)了一個(gè)問(wèn)題,就是緩存的結(jié)構(gòu)變了。過(guò)去一整塊可以統(tǒng)一調(diào)度的東西,裂變成了不同層級(jí)、不同屬性的緩存塊。為了讓它們協(xié)同工作,需要一套新的分層管理機(jī)制,極其復(fù)雜。

      *注:KV緩存(Key Value),在Transformer 模型里,指模型把過(guò)往的詞打上標(biāo)簽,方便快速對(duì)應(yīng)標(biāo)簽底下儲(chǔ)存著的詳細(xì)信息,直接決定大模型能記住多長(zhǎng)的上文和推理速度。上下文越長(zhǎng),存的東西越多,顯存就被撐得越滿。這也是為什么長(zhǎng)上下文模型那么難做的核心瓶頸之一。

      白鯨實(shí)驗(yàn)室:最讓你意外的是什么?

      馬驍騰:還有一個(gè)讓人印象深刻的細(xì)節(jié)。DeepSeek 內(nèi)部有一套極其獨(dú)創(chuàng)的容器技術(shù)DSec,速度極快,而且具備快照功能。就是在訓(xùn)練過(guò)程中隨時(shí)給整個(gè)系統(tǒng)狀態(tài)“拍一張照片”,一旦后續(xù)方向走偏,就能瞬間閃回到那個(gè)時(shí)間點(diǎn)接著重來(lái)。

      這種工程靈活度,我目前還沒(méi)在第二家公司見(jiàn)過(guò)。

      白鯨實(shí)驗(yàn)室:國(guó)外大廠也沒(méi)有嗎?

      馬驍騰:我不清楚OpenAI怎么做的,但其他大廠,他們沒(méi)意識(shí)到這個(gè)容器技術(shù)對(duì)Agent訓(xùn)練的重要性,所以DeepSeek在技術(shù)上可以說(shuō)領(lǐng)先了至少半年。

      白鯨實(shí)驗(yàn)室:V4把上下文一次性“吃”進(jìn)去,這和Mind Lab的Lora是兩條技術(shù)路線。你傾向于哪種?V4的方案會(huì)不會(huì)讓長(zhǎng)期記憶問(wèn)題變得不那么重要了?

      馬驍騰:V4的方案確實(shí)緩解了記憶問(wèn)題,但不是唯一的解法。

      目前業(yè)界跑通的技術(shù)路線,大致可以分成兩派。一派是DeepSeek的做法,不斷把注意力范圍撐大,讓模型能在一次處理中直接“吃”進(jìn)更長(zhǎng)的上下文。另一派是OpenAI的路子,他們拼命做壓縮——也就是把過(guò)往的對(duì)話歷史,實(shí)時(shí)提煉成一種高度濃縮的“摘要信息”。

      你作為用戶,幾乎感覺(jué)不到它的記憶預(yù)算是有限的,聊起來(lái)好像它什么都能記住。但說(shuō)到底,這兩套方案主要解決的,其實(shí)都是工作記憶的問(wèn)題,也就是模型在當(dāng)前對(duì)話里處理信息的能力。

      真正的問(wèn)題是,無(wú)論哪種方案,只要新開(kāi)一個(gè)會(huì)話,它就會(huì)從零開(kāi)始。Lora或者說(shuō)參數(shù)化記憶,永遠(yuǎn)是長(zhǎng)期記憶的終極方案。一個(gè)最直接的例子是,掌握一門新的編程語(yǔ)言,你無(wú)法把所有語(yǔ)法塞進(jìn)上下文就指望模型學(xué)會(huì)。

      前段時(shí)間,某海外頭部芯片廠商的科學(xué)家找到我們,他們每代新硬件都要發(fā)明新的語(yǔ)言,這是基座模型不會(huì)的,所以要尋求一種通過(guò)Lora讓模型快速學(xué)習(xí)新知識(shí)的方式。而且,Lora今年已經(jīng)非常明顯地適用于當(dāng)前模型的整個(gè)后訓(xùn)練流程技術(shù)棧了。各大廠商的訓(xùn)練方式就是基座訓(xùn)練好后,分成各個(gè)分支分別去訓(xùn)練專用任務(wù),最后合并,這其實(shí)就是非常適合Lora的模式。

      白鯨實(shí)驗(yàn)室:下一個(gè)階段的競(jìng)爭(zhēng)核心是在哪?繼續(xù)在文本、Agent上卷,還是多模態(tài)?

      馬驍騰:我覺(jué)得Agent還沒(méi)卷到頭。從技術(shù)上講,如果在文本能力上取得進(jìn)展,模型的可用范圍會(huì)明顯拓寬。相比之下,視覺(jué)能力沒(méi)有外界想象的那么神秘。它的實(shí)現(xiàn)路徑已經(jīng)相對(duì)成熟,就是給語(yǔ)言模型外掛一個(gè)“視覺(jué)編碼器”。

      現(xiàn)在DeepSeek上線了識(shí)圖模式,也是一種印證。因?yàn)樗菆D像理解,而不是圖像生成。而且智譜和 Kimi 現(xiàn)在接入視覺(jué)功能也都很絲滑,但用戶并不會(huì)因此就覺(jué)得這個(gè)模型有多厲害,市場(chǎng)真正優(yōu)先看的,還是它在Agent上的表現(xiàn)。

      白鯨實(shí)驗(yàn)室:什么情況下,能判斷Agent已經(jīng)卷到頭了?

      馬驍騰:比如GPT 5.5相對(duì)于5.4,原來(lái)可能需要十句話講明白的需求,現(xiàn)在一句話就行。AI自己會(huì)考慮好如何正確完成,自己把從需求到結(jié)果的整個(gè)流程閉環(huán),中間需要的人工干預(yù)的步驟越少,價(jià)值就越高。

      現(xiàn)在Agent還有很多工作要做。模型在個(gè)性化任務(wù)上對(duì)人的需求和記憶的理解還是很差。這個(gè)不是圖像層面的問(wèn)題,是語(yǔ)言層面的。甚至隨著編程能力增強(qiáng),模型對(duì)人的理解能力還下降了,說(shuō)話越來(lái)越有“AI味”,我們?cè)谘芯坷锇堰@叫做“人格漂移”。

      03

      模型廠商都開(kāi)始在預(yù)訓(xùn)練昇騰卡了

      白鯨實(shí)驗(yàn)室:這次V4在華為昇騰卡上做了訓(xùn)練適配,對(duì)你們有啟發(fā)嗎?

      馬驍騰:目前國(guó)內(nèi)第一梯隊(duì)的模型廠商,現(xiàn)在已經(jīng)可以在預(yù)訓(xùn)練階段用華為昇騰卡來(lái)替代英偉達(dá)芯片了,但后訓(xùn)練階段還做不到完全平替。目前我們Mind Lab正在積極推動(dòng)和國(guó)產(chǎn)芯片的合作。

      白鯨實(shí)驗(yàn)室:預(yù)訓(xùn)練和后訓(xùn)練適配國(guó)產(chǎn)卡,有哪些不同?為什么大家都卡在了后訓(xùn)練?

      馬驍騰:預(yù)訓(xùn)練雖然整體耗時(shí)最長(zhǎng),但任務(wù)本身非常“單純”,模型只盯著一個(gè)統(tǒng)一的目標(biāo)(優(yōu)化一個(gè)損失函數(shù)),過(guò)程穩(wěn)定且重復(fù)性高,目前國(guó)產(chǎn)芯片已經(jīng)可以勝任了。

      后訓(xùn)練完全是另一回事。這個(gè)階段包含了指令微調(diào)、強(qiáng)化學(xué)習(xí)等復(fù)雜步驟,模型需要頻繁地在“訓(xùn)練”和“推理”兩種狀態(tài)之間高速切換,對(duì)芯片的訓(xùn)推一致性(即同一張卡在訓(xùn)練和推理時(shí)表現(xiàn)都要好,且能無(wú)縫銜接)以及極限響應(yīng)速度要求更高。目前國(guó)產(chǎn)卡的生態(tài)和算子適配還不夠成熟。所以現(xiàn)階段可以先用國(guó)產(chǎn)的推理卡,即專為推理優(yōu)化的芯片,比如昇騰的推理卡來(lái)承接后訓(xùn)練中的部分推理任務(wù),訓(xùn)練環(huán)節(jié)暫時(shí)依賴英偉達(dá)。

      白鯨實(shí)驗(yàn)室:類似DeepSeek和華為的深度合作有篩選門檻嗎?

      馬驍騰:還是有的。畢竟現(xiàn)在能訓(xùn)起這么大模型的實(shí)驗(yàn)室團(tuán)隊(duì),全國(guó)不超過(guò) 10 個(gè)。

      白鯨實(shí)驗(yàn)室:我們能看到大模型后訓(xùn)練完全適配國(guó)產(chǎn)芯片的一天嗎?

      馬驍騰:我們現(xiàn)在對(duì)國(guó)產(chǎn)卡應(yīng)該燃起充分的希望。國(guó)產(chǎn)芯片和英偉達(dá)的差距主要是生態(tài),但是原來(lái)生態(tài)上的不足,現(xiàn)在已經(jīng)能用 AI 來(lái)彌補(bǔ)了。之前模型適配國(guó)產(chǎn)芯片,很多底層的基礎(chǔ)算子、適配代碼,都要靠經(jīng)驗(yàn)豐富的工程師一行一行寫,費(fèi)時(shí)也缺人。

      但現(xiàn)在我不會(huì)寫國(guó)產(chǎn)生成卡的適配代碼,但AI會(huì)寫,而且寫得越來(lái)越好。這等于是給適配過(guò)程裝上了加速器,效率一下子就提上來(lái)了。

      白鯨實(shí)驗(yàn)室:這種合作給你們帶來(lái)的最直觀好處是什么?成本的大幅下降?

      馬驍騰:最直觀的還是緩解算力緊缺。國(guó)產(chǎn)卡的成本優(yōu)勢(shì)是很驚人的,現(xiàn)在買卡真的是又貴又難,能用到更多國(guó)產(chǎn)卡,對(duì)整體生態(tài)肯定是更好的。

      04

      V4炫技,閉源承壓

      白鯨實(shí)驗(yàn)室:V4發(fā)布當(dāng)天,有AI概念股下跌6%以上。從二級(jí)市場(chǎng)到VC圈,有人調(diào)侃說(shuō)DeepSeek還是國(guó)產(chǎn)大模型最嚴(yán)厲的父親,你怎么看待這種現(xiàn)象?

      馬驍騰:說(shuō)實(shí)話,我個(gè)人認(rèn)為這是短期現(xiàn)象,他們可能并沒(méi)真正研究過(guò) V4發(fā)生了什么。比如coding場(chǎng)景上,現(xiàn)在也不能說(shuō)DeepSeek就比 GLM 5.1 好。我理解的“嚴(yán)厲”,是DeepSeek做的很坦蕩,就是把模型性能做到這個(gè)高度,然后徹底開(kāi)源,任何人都能免費(fèi)用。

      這等于給全行業(yè)劃下了一條非常高的及格線,你如果選擇閉源收費(fèi),那你拿出來(lái)的東西就不能只比它好一點(diǎn)點(diǎn),必須得有質(zhì)的飛躍,好到讓用戶覺(jué)得付費(fèi)是值得的。

      白鯨實(shí)驗(yàn)室:說(shuō)到開(kāi)源,今年包括Minimax、阿里都出現(xiàn)了閉源趨勢(shì),MiniMax 4月推出的M2.7,在傳統(tǒng)學(xué)術(shù)意義上依然是開(kāi)源模型,但它的許可證版本改為“嚴(yán)禁商業(yè)用途”“需要得到授權(quán)才能商業(yè)化”,阿里Qwen3.5-Omni選擇閉源。你如何判斷這種戰(zhàn)略轉(zhuǎn)向?它背后的邏輯到底是什么?是技術(shù)控制權(quán)?還是盈利壓力?

      馬驍騰:我們必須尊重“公司要掙錢”這個(gè)事實(shí)。一家公司能選擇走開(kāi)源這條路,本身就是極其艱難的商業(yè)決策。阿里的平衡拿捏得不錯(cuò),把最強(qiáng)的Qwen Max 閉源,同時(shí)把體量小一些的模型開(kāi)源。但DeepSeek確實(shí)會(huì)讓這種原本的平衡變得尷尬。

      不過(guò)另一邊,大家也看到,即使開(kāi)源,1.6T的大參數(shù)沒(méi)幾個(gè)人能在自己電腦上真正跑起來(lái)。要把這樣的模型部署好、跑得順、用到業(yè)務(wù)里,需要海量的工程技巧和配套服務(wù),這本身就是強(qiáng)需求。比如Kimi、智譜、Minimax智譜,他們開(kāi)源的模型照樣賣得很好,因?yàn)橘u的不只是模型權(quán)重,更是大家對(duì)于他們技術(shù)能力的信任。

      白鯨實(shí)驗(yàn)室:從第三方評(píng)測(cè)看,V4更多被強(qiáng)調(diào)在代碼任務(wù)上的“開(kāi)源斷層”和價(jià)格屠夫的角色——V4-Flash輸出價(jià)僅0.28美元/百萬(wàn)token。就在前一天發(fā)布的GPT-5.5輸出價(jià)是30美元/百萬(wàn)token。這種近100倍的價(jià)差,在你看來(lái)會(huì)把AI應(yīng)用市場(chǎng)帶向何方?

      馬驍騰: 其實(shí)現(xiàn)在DeepSeek有一種“炫技”的感覺(jué)。他想傳遞的是,極致的低價(jià)不全是靠壓榨利潤(rùn)換來(lái)的,而是可以通過(guò)KV緩存優(yōu)化這類硬核技術(shù),從底層把算力消耗實(shí)實(shí)在在地省出來(lái)。卡省下了,成本自然就降了,價(jià)格也就有了更低的空間。背后靠的是技術(shù)底子。

      目前的模型定價(jià)策略,也分成了兩條路:一條是朝“更貴、更極致”走,另一條是向“更小、更便宜、更大眾”去。像V4的1.6T版本,追求的就是能力的上限,可以為了極致性能犧牲一點(diǎn)速度和等待時(shí)間;而flash版本,目標(biāo)則是敏捷、好用、覆蓋更廣泛的日常任務(wù),主打速度和性價(jià)比。這兩者不是對(duì)立的,而是搭配著來(lái)。

      白鯨實(shí)驗(yàn)室:V4的低價(jià)開(kāi)源,會(huì)壓縮做中間態(tài)商業(yè)模型公司的生存空間嗎?

      馬驍騰:我還是覺(jué)得垂直場(chǎng)景很重要。在一個(gè)強(qiáng)的基座模型上,即使你再擴(kuò)大參數(shù),智能收益也是有限的。大廠能拿到的數(shù)據(jù)很有限,垂域應(yīng)用廠商下游的真實(shí)數(shù)據(jù),是有很大護(hù)城河的。最典型的例子就是Cursor。

      它就只深耕編程這一個(gè)垂直領(lǐng)域,后訓(xùn)練做得極好,最近也和SpaceX達(dá)成合作并拿到收購(gòu)期權(quán),估值跟Minimax 這種通用大模型公司平起平坐。這證明了,把后訓(xùn)練這一件事在垂域做好,就能創(chuàng)造出上市級(jí)別的價(jià)值。

      現(xiàn)在行業(yè)的問(wèn)題是,基座模型迭代飛快,但讓這些能力在具體場(chǎng)景里落地的推理設(shè)施和部署工程,還跟不上。我們就在嘗試彌補(bǔ)這個(gè)斷層,讓大家能更好地在基座上釋放下游場(chǎng)景的價(jià)值。

      撰寫|馬舒葉

      編輯| 劉培

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      心理學(xué)上有個(gè)詞叫:螃蟹效應(yīng)。永遠(yuǎn)要記住,和周圍人搞好關(guān)系的秘訣就是,不分享喜悅、不炫耀成功、不說(shuō)三道四、不假裝聰明

      心理學(xué)上有個(gè)詞叫:螃蟹效應(yīng)。永遠(yuǎn)要記住,和周圍人搞好關(guān)系的秘訣就是,不分享喜悅、不炫耀成功、不說(shuō)三道四、不假裝聰明

      德魯克博雅管理
      2026-04-28 17:04:30
      揮淚斬馬謖!皇馬正式批準(zhǔn)出售1億“頂星”!2.5億強(qiáng)援空降伯納烏

      揮淚斬馬謖!皇馬正式批準(zhǔn)出售1億“頂星”!2.5億強(qiáng)援空降伯納烏

      頭狼追球
      2026-05-08 17:23:49
      曝王暖暖凌晨被送往醫(yī)院搶救!全身浮腫、滿臉脹紅,昏迷原因曝光

      曝王暖暖凌晨被送往醫(yī)院搶救!全身浮腫、滿臉脹紅,昏迷原因曝光

      阿廢冷眼觀察所
      2026-05-08 18:26:49
      連續(xù)三年財(cái)務(wù)造假!證監(jiān)會(huì)對(duì)清越科技及4名高管開(kāi)出2億元罰單,公司將被強(qiáng)制退市

      連續(xù)三年財(cái)務(wù)造假!證監(jiān)會(huì)對(duì)清越科技及4名高管開(kāi)出2億元罰單,公司將被強(qiáng)制退市

      澎湃新聞
      2026-05-08 21:58:29
      47歲韓國(guó)影后西湖夜跑!獨(dú)自逛超市,沒(méi)戴帽子口罩,全程無(wú)人認(rèn)出

      47歲韓國(guó)影后西湖夜跑!獨(dú)自逛超市,沒(méi)戴帽子口罩,全程無(wú)人認(rèn)出

      趣味八卦
      2026-05-09 00:53:03
      47歲韓國(guó)影后西湖夜跑!獨(dú)自逛超市,沒(méi)戴帽子口罩,全程無(wú)人認(rèn)出

      47歲韓國(guó)影后西湖夜跑!獨(dú)自逛超市,沒(méi)戴帽子口罩,全程無(wú)人認(rèn)出

      喜歡歷史的阿繁
      2026-05-09 02:10:51
      打回身價(jià)!里夫斯31+6創(chuàng)新高解鎖500分里程碑 險(xiǎn)被SGA夾傷胳膊

      打回身價(jià)!里夫斯31+6創(chuàng)新高解鎖500分里程碑 險(xiǎn)被SGA夾傷胳膊

      醉臥浮生
      2026-05-08 12:23:05
      A股:剛剛,三部門聯(lián)合印發(fā),請(qǐng)做好準(zhǔn)備,下周將迎來(lái)更大的變盤

      A股:剛剛,三部門聯(lián)合印發(fā),請(qǐng)做好準(zhǔn)備,下周將迎來(lái)更大的變盤

      云鵬敘事
      2026-05-09 00:00:06
      剛剛,胖東來(lái)正式回復(fù)王海!

      剛剛,胖東來(lái)正式回復(fù)王海!

      聽(tīng)心堂
      2026-05-08 09:49:10
      臺(tái)灣地區(qū)最新民調(diào)出爐,鄭麗文支持率倒數(shù),這下讓蔣萬(wàn)安撿了漏?

      臺(tái)灣地區(qū)最新民調(diào)出爐,鄭麗文支持率倒數(shù),這下讓蔣萬(wàn)安撿了漏?

      共工之錨
      2026-05-08 00:16:36
      出貨量暴跌35%,小米手機(jī)9年來(lái)首次跌出前五

      出貨量暴跌35%,小米手機(jī)9年來(lái)首次跌出前五

      ZAKER新聞
      2026-05-08 16:26:28
      再見(jiàn),字母哥!雄鹿交易內(nèi)幕曝光,騎士賭上一切

      再見(jiàn),字母哥!雄鹿交易內(nèi)幕曝光,騎士賭上一切

      體育新角度
      2026-05-08 22:41:42
      伊朗官員稱美軍襲擊伊民用船只,已致1死10傷

      伊朗官員稱美軍襲擊伊民用船只,已致1死10傷

      界面新聞
      2026-05-09 07:38:49
      明目張膽造假,中國(guó)電影還有救嗎?

      明目張膽造假,中國(guó)電影還有救嗎?

      閑人電影
      2026-05-08 18:31:17
      噩耗!最強(qiáng)3D倒下!紐約危機(jī),系列賽變天了?

      噩耗!最強(qiáng)3D倒下!紐約危機(jī),系列賽變天了?

      籃球盛世
      2026-05-08 19:43:07
      郭德綱、于謙相聲再被舉報(bào)!

      郭德綱、于謙相聲再被舉報(bào)!

      天津人
      2026-05-08 15:12:33
      5月8日俄烏:烏克蘭以牙還牙;無(wú)人機(jī)猛炸俄羅斯

      5月8日俄烏:烏克蘭以牙還牙;無(wú)人機(jī)猛炸俄羅斯

      山河路口
      2026-05-08 17:28:40
      1分鐘徹底焚毀!上海寶山車輛自燃絕非偶然

      1分鐘徹底焚毀!上海寶山車輛自燃絕非偶然

      墜入二次元的海洋
      2026-05-09 01:09:16
      凱特琳-克拉克:去年受傷時(shí),詹姆斯主動(dòng)聯(lián)系我詢問(wèn)是否需要幫助

      凱特琳-克拉克:去年受傷時(shí),詹姆斯主動(dòng)聯(lián)系我詢問(wèn)是否需要幫助

      懂球帝
      2026-05-09 07:30:10
      左派、右派、左傾、右傾、左翼、右翼有什么區(qū)別?

      左派、右派、左傾、右傾、左翼、右翼有什么區(qū)別?

      長(zhǎng)風(fēng)文史
      2026-05-07 12:13:11
      2026-05-09 08:59:00
      白鯨實(shí)驗(yàn)室one incentive-icons
      白鯨實(shí)驗(yàn)室one
      記錄 AI改變世界的瞬間
      133文章數(shù) 16關(guān)注度
      往期回顧 全部

      科技要聞

      美國(guó)政府強(qiáng)力下場(chǎng) 蘋果英特爾達(dá)成代工協(xié)議

      頭條要聞

      媒體:特朗普若順利來(lái)華 將是美總統(tǒng)時(shí)隔十年再訪中國(guó)

      頭條要聞

      媒體:特朗普若順利來(lái)華 將是美總統(tǒng)時(shí)隔十年再訪中國(guó)

      體育要聞

      他把首勝讓給隊(duì)友,然后用一年時(shí)間還清賬單

      娛樂(lè)要聞

      古天樂(lè)被曝隱婚生子,新娘竟是她

      財(cái)經(jīng)要聞

      白宮:特朗普計(jì)劃5月14日至15日訪問(wèn)中國(guó)

      汽車要聞

      MG 4X實(shí)車亮相 將于5月11日開(kāi)啟盲訂

      態(tài)度原創(chuàng)

      房產(chǎn)
      健康
      旅游
      教育
      游戲

      房產(chǎn)要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      干細(xì)胞能讓人“返老還童”嗎

      旅游要聞

      藏北高原“海洋藍(lán)” 壯美奇觀引客來(lái)

      教育要聞

      你收到過(guò)最爛的禮物是什么?

      《生化危機(jī)9》為何不做極致恐怖 卡普空道出了原因

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 两个男人吮她的花蒂和奶水视频| 青久草视频| 无码视频一区| 国产精品偷伦视频免费观看了| 亚洲AVAV天堂AV在线网阿V| 日韩电影精品| 亚洲熟妇自偷自拍另欧美 | 福利精品| 51国产偷自视频区视频| 欧美三级超在线视频| 成人日本有码在线| 国产成人无码一区二区三区在线| 亚洲AV国产福利精品在现观看| 老司机午夜精品视频你懂的| 久久天天躁夜夜躁狠狠 ds005.com| 亚洲熟女综合色一区二区三区| 午夜视频免费一区二区在线看| 白丝乳交内射一二三区| 精品国产亚洲av麻豆特色| www.777奇米色| 亚洲国产高清在线观看视频| 日本偷拍自影像视频久久| 久久精品国产亚洲av天海翼| 亚洲AV无码一二区三区在线播放| 亚洲av成人一区在线| 极品白嫩少妇无套内谢| 午夜诱惑| 免费av深夜在线观看| 欧美日韩国产一区二区三区不卡| 亚洲国产精品午夜福利| 制服丝袜美腿一区二区| 亚洲一区二区精品另类| 3p视频在线观看| 亚州A?V影院| 97青草香蕉依人在线视频| 四虎亚洲国产成人久久精品 | 日韩av每日免费观看| 亚洲 欧美 日韩 国产 丝袜| 国产精品久久蜜臀av| 国产精品区视频中文字幕| 二区三区av|