![]()
這四位開(kāi)發(fā)者的講述,
是觀察中國(guó)算力生態(tài)成熟度的一組真實(shí)樣本。
DeepSeek之后,中國(guó)AI產(chǎn)業(yè)最深刻的一個(gè)變化,可能是大家終于不再相信“暴力堆算力”了。
當(dāng)DeepSeek用一系列極致的低精度優(yōu)化、長(zhǎng)上下文壓縮、算子工程把模型成本壓到行業(yè)平均的十分之一以下,它實(shí)際上證明了一件事:AI下半場(chǎng)的勝負(fù)手,在算力底座的整體效率,而不在某一顆芯片的峰值參數(shù)。
“系統(tǒng)工程”并非孤軍突圍的無(wú)奈之舉,它幾乎是全球性的效率共識(shí)——海外的Anthropic、xAI、Mistral也都在沿著類似的方向重寫(xiě)自己的工程棧。
但對(duì)中國(guó)產(chǎn)業(yè)而言,這個(gè)范式轉(zhuǎn)移的意義更復(fù)雜一些。它一方面意味著中國(guó)廠商不必再在制程和算力密度上跟英偉達(dá)打一場(chǎng)沒(méi)勝算的硬仗,另一方面也意味著,如果軟件生態(tài)跟不上,再多的卡也只是堆在機(jī)房里的“沉默資產(chǎn)”。
這也是為什么近兩年中國(guó)算力的競(jìng)爭(zhēng)焦點(diǎn),迅速?gòu)男酒袚Q到了生態(tài)。
5月23日,鯤鵬昇騰開(kāi)發(fā)者大會(huì)2026的明星開(kāi)發(fā)者團(tuán)隊(duì)圓桌上,主持人、中科院計(jì)算所學(xué)者、老石談芯主理人石侃談道:“硬件是基石,生態(tài)是靈魂。再?gòu)?qiáng)的芯片,如果沒(méi)有好用的軟件生態(tài),只是一種冷冰冰的硬件。”
![]()
主持人、中科院計(jì)算所學(xué)者、老石談芯主理人石侃
這正是當(dāng)下中國(guó)AI計(jì)算產(chǎn)業(yè)生態(tài)最需要回答的問(wèn)題——生態(tài)夠不夠好用?開(kāi)發(fā)者愿不愿意來(lái)?用了能不能留下?
在KADC現(xiàn)場(chǎng),四位來(lái)自AI大模型、金融、高性能計(jì)算領(lǐng)域的開(kāi)發(fā)者,用他們的實(shí)戰(zhàn)經(jīng)驗(yàn)回應(yīng)了這個(gè)問(wèn)題。他們的身份各異——有大模型創(chuàng)業(yè)公司的聯(lián)合創(chuàng)始人,有銀行核心團(tuán)隊(duì)的技術(shù)專家,也有高校的研究者——但他們都把昇騰和鯤鵬當(dāng)作真實(shí)生產(chǎn)環(huán)境的基礎(chǔ)設(shè)施長(zhǎng)期使用。
![]()
這四位開(kāi)發(fā)者的講述,是觀察中國(guó)算力生態(tài)成熟度的一組真實(shí)樣本。
AIGCode陳秋武:65%的
MoE MFU,技術(shù)極客如何吃透昇騰
2024年初,AIGCode剛成立,市場(chǎng)上買(mǎi)不到英偉達(dá)卡,作為創(chuàng)業(yè)小公司,團(tuán)隊(duì)只能從昇騰開(kāi)始。用了一段時(shí)間之后他發(fā)現(xiàn)“其實(shí)還好”——這種從被動(dòng)接受到逐步認(rèn)可的過(guò)渡,幾乎是國(guó)產(chǎn)芯片在那一波AI創(chuàng)業(yè)公司里普遍的破冰路徑。
AIGCode做的是Vibe Coding類應(yīng)用——用一句自然語(yǔ)言提示詞就能生成前端、后端、數(shù)據(jù)庫(kù)的完整系統(tǒng),15分鐘內(nèi)交付一整套應(yīng)用。
但和大多數(shù)Vibe Coding公司不同,AIGCode堅(jiān)持自研基礎(chǔ)大模型。這是因?yàn)椋陉惽镂淇磥?lái),應(yīng)用端的能力上限來(lái)自基礎(chǔ)模型,“AGI能力的瓶頸并不是后訓(xùn)練或Agent,而是來(lái)源于基礎(chǔ)模型”。
在和昇騰的合作中,AIGCode團(tuán)隊(duì)把MoE MFU(模型算力利用率)做到了“65%”。
MFU(Model FLOPs Utilization)反映的是集群在實(shí)際訓(xùn)練中跑出了多少標(biāo)稱算力,是衡量大模型訓(xùn)練效率的核心指標(biāo)。而MoE(Mixure of Experts)混合專家則是當(dāng)前大模型的主流模型架構(gòu)。
這一指標(biāo)和集群規(guī)模、任務(wù)規(guī)模強(qiáng)相關(guān)——單機(jī)或密集場(chǎng)景下通信開(kāi)銷(xiāo)很低,MFU做到很高并不難;如Google密集大模型的PaLM540B TPU集群上達(dá)到46.2%;但當(dāng)主流混合專家大模型時(shí),對(duì)應(yīng)的激活專家約二十分之一,冷熱不均,專家并行效率低下,任務(wù)被切分到成百上千張卡上協(xié)同運(yùn)行時(shí),通信、同步、調(diào)度的開(kāi)銷(xiāo)會(huì)大幅累積,MFU的提升越發(fā)困難。
MoE MFU越高,也意味著算力資產(chǎn)被利用得越充分,訓(xùn)練效率越高,模型出結(jié)果的速度也就越快。
能在集群規(guī)模下把MFU推到這一水平,意味著AIGCode可以調(diào)用昇騰非常底層的調(diào)優(yōu)能力。用陳秋武的話來(lái)說(shuō),相當(dāng)于“一張昇騰卡當(dāng)兩張卡用”。(需要說(shuō)明的是,65%是特定客戶在特定算法、模型、集群規(guī)模等條件下達(dá)成的成果。)
而把MFU推到極致,靠的是一整套體系化能力。
第一層是通信與計(jì)算的協(xié)同調(diào)度,核心是把芯片的等待時(shí)間壓到最小。第二層更硬核,把a(bǔ)ttention里占大頭的MHA與細(xì)碎小塊GDN做并行掩蓋,再把in_proj、激活函數(shù)等小算子做融合, 與DeepSeek V4提到的Mega Kernel思路類似,最后結(jié)合QKV重組零拷貝。“大的塊扔到瓶子里,小的塊再填滿”——這是一個(gè)典型的需要算法團(tuán)隊(duì)和基建團(tuán)隊(duì)同時(shí)具備能力的工作。
陳秋武還認(rèn)為,單卡差距可以靠超節(jié)點(diǎn)集群體系化優(yōu)勢(shì)補(bǔ)齊。
放在更大的產(chǎn)業(yè)語(yǔ)境里,這句話其實(shí)指向了國(guó)產(chǎn)算力的一條隱性突圍路徑——既然單卡制程暫時(shí)追不上,那就用系統(tǒng)級(jí)架構(gòu)(超節(jié)點(diǎn)+高速互聯(lián)+協(xié)同調(diào)度)在另一個(gè)維度上構(gòu)建優(yōu)勢(shì)。
陳秋武如此談到昇騰CANN生態(tài)變化,“2024年初我們?nèi)プ鲇?xùn)練的時(shí)候,基本上算是‘荒漠’,很多東西都沒(méi)有。大概到了去年,整個(gè)CANN的生態(tài)覆蓋率到了80%-90%。8個(gè)月就把生態(tài)完成到這個(gè)程度,我覺(jué)得是非常驚訝的。”
陳秋武參加華為的技術(shù)閉門(mén)會(huì)就參加了六七次。從寫(xiě)第一版預(yù)訓(xùn)練代碼開(kāi)始,到聯(lián)合開(kāi)發(fā)PTO和CANN的預(yù)訓(xùn)練部分。這種深度共建的關(guān)系,某種程度上也定義了AIGCode這類技術(shù)型團(tuán)隊(duì)與國(guó)產(chǎn)算力生態(tài)的相處方式——既是用戶,也是合作者。
某頭部股份制銀行鄭俊:
把AI放進(jìn)金融核心生產(chǎn)系統(tǒng)
如果說(shuō)AIGCode代表的是技術(shù)極客對(duì)極致性能的追求,那么金融行業(yè)代表的是另一個(gè)維度的驗(yàn)證——產(chǎn)業(yè)核心生產(chǎn)場(chǎng)景。
某頭部股份制銀行架構(gòu)辦大模型訓(xùn)推核心專家鄭俊在圓桌上談到的,是一個(gè)比“AI寫(xiě)文案”重得多的應(yīng)用場(chǎng)景。
該行AI團(tuán)隊(duì)負(fù)責(zé)基于昇騰軟硬件生態(tài),構(gòu)建大模型訓(xùn)練與推理基礎(chǔ)設(shè)施,并把這套能力推進(jìn)到了智能風(fēng)控的核心鏈路里——用大模型與小模型的混合架構(gòu),疊加增強(qiáng)人臉識(shí)別技術(shù),實(shí)時(shí)攔截境外詐騙等高風(fēng)險(xiǎn)交易。
可以說(shuō),AI已經(jīng)直接介入這家銀行的資金流轉(zhuǎn)和風(fēng)險(xiǎn)決策,成為業(yè)務(wù)運(yùn)轉(zhuǎn)的關(guān)鍵一環(huán)。
這種場(chǎng)景對(duì)算力底座的要求,和互聯(lián)網(wǎng)應(yīng)用完全不在一個(gè)量級(jí)上。對(duì)于金融級(jí)生產(chǎn)環(huán)境來(lái)說(shuō),AI從輔助場(chǎng)景進(jìn)入核心生產(chǎn)流程要滿足四大剛性要求:
第一條是極致低延遲。該行的服務(wù)級(jí)別目標(biāo)(SLO)把首Token響應(yīng)鎖定在500毫秒左右,后續(xù)Token延遲控制在50毫秒左右。
這種延遲約束放在金融場(chǎng)景里是底線——一次跨境交易的風(fēng)險(xiǎn)判斷、一次反欺詐攔截,必須在用戶感知不到的時(shí)間窗里完成。為了把延遲壓縮到業(yè)務(wù)可接受的范圍,該行和昇騰團(tuán)隊(duì)聯(lián)合做了底層調(diào)度和算子層面的優(yōu)化。
第二條是超高通量并發(fā)。該行的大模型平臺(tái)日均處理260億Token,背后需要數(shù)千張算力卡同時(shí)跑起來(lái)。昇騰的單卡性能和集群通信效率提供了基礎(chǔ)能力,但要把這套系統(tǒng)真正跑穩(wěn),還需要在系統(tǒng)調(diào)優(yōu)和架構(gòu)設(shè)計(jì)上做大量工程投入。
第三條是銀行級(jí)可用性。99.999%的系統(tǒng)可用性意味著全年故障不超過(guò)1分鐘,這是金融核心系統(tǒng)的硬約束。這一指標(biāo)不是單靠硬件就能給出保證的——它是該行和昇騰在硬件穩(wěn)定性、軟件架構(gòu)上共同打磨出來(lái)的結(jié)果。
第四條是高利用率下的故障隔離。降本增效的壓力要求把硬件利用率持續(xù)拉高,但金融場(chǎng)景的另一面是不能因?yàn)閱吸c(diǎn)故障導(dǎo)致業(yè)務(wù)斷流。該行和昇騰一起做了隔離機(jī)制設(shè)計(jì),讓高利用率和高安全能夠同時(shí)成立。
要把這四條指標(biāo)同時(shí)壓下來(lái),靠的是一整套軟硬協(xié)同的工程能力。
鄭俊還談道,“和昇騰一起搞開(kāi)源之后,開(kāi)源的代碼我們隨時(shí)可以去看它,小的問(wèn)題隨時(shí)就可以修。”而任何模型商用前都要經(jīng)過(guò)48小時(shí)以上的長(zhǎng)壓測(cè)試。
值得一提的是,該行在適配過(guò)程中對(duì)昇騰社區(qū)已經(jīng)實(shí)現(xiàn)了反向輸出。
該行秉持“源于開(kāi)源、回饋開(kāi)源”原則,在昇騰生態(tài)適配與算子開(kāi)發(fā)中沉淀的大量?jī)?yōu)化成果,主動(dòng)貢獻(xiàn)給了社區(qū)——截至目前,已經(jīng)累計(jì)向vLLM-Ascend貢獻(xiàn)了34個(gè)特性,讓其他昇騰客戶直接受益、無(wú)需重復(fù)踩坑。
一家股份制銀行的AI團(tuán)隊(duì)主動(dòng)做開(kāi)源貢獻(xiàn),在過(guò)去幾乎是很少見(jiàn)的。回饋社區(qū)也代表著該行選擇昇騰已經(jīng)超出了合規(guī)層面的考慮,更像是把它當(dāng)作了長(zhǎng)期基礎(chǔ)設(shè)施去投入,鄭俊表示,“昇騰讓我們看到國(guó)內(nèi)的算力平臺(tái)同樣優(yōu)秀,可以成為業(yè)務(wù)首選。”
清華大學(xué)王一鳴:
讓科研者把時(shí)間花在科研本身
清華大學(xué)HPCA團(tuán)隊(duì)助理研究員王一鳴團(tuán)隊(duì)和其他高校、科研院所的聯(lián)合研究工作,讓鯤鵬走進(jìn)了一個(gè)更經(jīng)典的高性能計(jì)算場(chǎng)景——地球系統(tǒng)建模。
通過(guò)把AI與傳統(tǒng)數(shù)值模擬結(jié)合起來(lái),團(tuán)隊(duì)嘗試在全球天氣與氣候模擬中引入AI增強(qiáng)的物理參數(shù)化、混合精度計(jì)算和大規(guī)模并行優(yōu)化,實(shí)現(xiàn)公里級(jí)分辨率的全球氣象建模——這是一個(gè)高性能計(jì)算與AI融合的工程。
傳統(tǒng)大氣模擬里有個(gè)長(zhǎng)期需要攻克的問(wèn)題——計(jì)算過(guò)程中有一部分靠嚴(yán)格的物理公式推導(dǎo),另一部分則要靠經(jīng)驗(yàn)公式“估算”,而這部分估算正是模擬結(jié)果不確定性的主要來(lái)源。
王一鳴團(tuán)隊(duì)用AI模型替換了傳統(tǒng)的經(jīng)驗(yàn)估算方案,疊加可擴(kuò)展性優(yōu)化和混合精度優(yōu)化等手段來(lái)提升效率,把全球大氣模擬的分辨率推進(jìn)到了公里級(jí),實(shí)現(xiàn)了“計(jì)算一天就能完成一年以上模式時(shí)間的天氣-氣候演化”的性能突破。在海洋這種動(dòng)力學(xué)相對(duì)穩(wěn)定的場(chǎng)景里,一天甚至可以模擬3年的演變。
這套由清華大學(xué)團(tuán)隊(duì)聯(lián)合其他高校和科研院所做的全球地球系統(tǒng)模式軟件系統(tǒng),已成功投稿到2026年戈登貝爾氣候建模特獎(jiǎng)。
事實(shí)上,地球系統(tǒng)建模對(duì)算力底座的要求,有兩個(gè)看似樸實(shí)卻極其關(guān)鍵的指標(biāo)——穩(wěn)和準(zhǔn)。
穩(wěn)的難度,在于大氣模擬是連續(xù)積分場(chǎng)景。一個(gè)完整的模擬結(jié)果需要數(shù)天甚至數(shù)百年等更長(zhǎng)時(shí)間的連續(xù)計(jì)算,中間一旦斷掉,斷點(diǎn)恢復(fù)的成本極高,往往意味著前面一段時(shí)間的算力白跑。
這種場(chǎng)景對(duì)硬件平臺(tái)的穩(wěn)定性要求是底層級(jí)的——任何一次崩潰,都可能讓一個(gè)科研項(xiàng)目損失數(shù)天的時(shí)間。團(tuán)隊(duì)遷移到鯤鵬平臺(tái)之后,集群在大規(guī)模長(zhǎng)時(shí)間作業(yè)中的穩(wěn)定性顯著改善,斷點(diǎn)續(xù)跑機(jī)制也更友好。
準(zhǔn)的難度,在于科學(xué)計(jì)算對(duì)精度誤差的零容忍。一個(gè)氣象模擬結(jié)果背后是數(shù)億輪計(jì)算過(guò)程,每一步的微小誤差累積數(shù)億次后,最終結(jié)果可能?chē)?yán)重失真。這要求底層平臺(tái)從編譯器到數(shù)學(xué)庫(kù)到并行庫(kù),每一個(gè)環(huán)節(jié)都得在精度上經(jīng)得起推敲。
鯤鵬在這一層提供了面向主流科學(xué)計(jì)算語(yǔ)言和氣象軟件生態(tài)的工具鏈支持,包括編譯器、數(shù)學(xué)庫(kù)、并行庫(kù)和調(diào)優(yōu)工具,讓清華大學(xué)團(tuán)隊(duì)能在一個(gè)體系完整、響應(yīng)高效的平臺(tái)上快速調(diào)試參數(shù)、驗(yàn)證模型,減少底層適配對(duì)科研節(jié)奏的干擾,從而更快地逼近“準(zhǔn)”的目標(biāo)。
但鯤鵬帶給清華團(tuán)隊(duì)的,不止是穩(wěn)和準(zhǔn)本身。
王一鳴在圓桌上提到一個(gè)細(xì)節(jié)——團(tuán)隊(duì)和鯤鵬的合作,已經(jīng)把硬件特性和工程優(yōu)化納入了科學(xué)問(wèn)題設(shè)計(jì)的早期階段。過(guò)去高性能計(jì)算的典型流程是先把科學(xué)問(wèn)題解決了,再回過(guò)頭來(lái)做性能優(yōu)化,科學(xué)和工程是前后接力的兩段。
而現(xiàn)在,團(tuán)隊(duì)從代碼設(shè)計(jì)階段就把鯤鵬的NUMA架構(gòu)、并行方式納入考量,讓科學(xué)研發(fā)和工程優(yōu)化從前后接力變成了并行推進(jìn)。這是一個(gè)容易被忽略但意義不小的變化。它意味著開(kāi)發(fā)者對(duì)底層平臺(tái)的信任度,已經(jīng)高到足以讓它進(jìn)入科學(xué)問(wèn)題設(shè)計(jì)的早期決策。
這背后必須靠真實(shí)的開(kāi)發(fā)體驗(yàn)去積累。在王一鳴看來(lái),鯤鵬對(duì)氣象軟件庫(kù)的支持很好,基本上把氣象模型放到鯤鵬里面,只需要load幾個(gè)庫(kù),基本上就可以跑起來(lái);架構(gòu)適配性也強(qiáng),氣象軟件不需要太改代碼就可以跑一個(gè)初版。遇到問(wèn)題,鯤鵬社區(qū)還有大量已經(jīng)沉淀好的解決方案。
一個(gè)長(zhǎng)期被國(guó)產(chǎn)算力生態(tài)忽略的維度是,開(kāi)發(fā)體驗(yàn)是否友好。性能數(shù)據(jù)是少數(shù)極客追求的事,開(kāi)發(fā)順暢度才是大多數(shù)科研工作者每天面對(duì)的真實(shí)問(wèn)題。王一鳴自己用一句話總結(jié)了團(tuán)隊(duì)的感受:“鯤鵬讓科研者的精力回到科研本身,不用在硬件適配上反復(fù)踩坑。”
正是這種對(duì)底層工作的解放,讓科研人員能夠把精力聚焦在算法突破和科學(xué)問(wèn)題的本質(zhì)上,回到科研創(chuàng)新本來(lái)該有的樣子。
更宏觀來(lái)看,氣候變化、極端天氣、糧食安全、水資源管理,這些都依賴于精準(zhǔn)的氣象建模能力。一個(gè)公里級(jí)精度、性能足夠支撐長(zhǎng)時(shí)序推演的地球系統(tǒng)模擬器,是中國(guó)應(yīng)對(duì)氣候挑戰(zhàn)、保障國(guó)計(jì)民生的科學(xué)基礎(chǔ)設(shè)施之一。
當(dāng)中國(guó)算力底座開(kāi)始能穩(wěn)定承接氣候建模、生命科學(xué)、物質(zhì)科學(xué)等這類基礎(chǔ)科研,意味著它的能力邊界正在從“產(chǎn)業(yè)應(yīng)用”擴(kuò)展到“科學(xué)發(fā)現(xiàn)的基礎(chǔ)工具”。在AI4S這個(gè)關(guān)鍵方向上,鯤鵬也已經(jīng)能打通從硬件到工具鏈再到科研產(chǎn)出的完整鏈路。
中科大陳俊仕:
硬件決定上限,算法向硬件適配
中科大陳俊仕團(tuán)隊(duì)做的工作,在四位開(kāi)發(fā)者里最“底層”,但也最具有方法論價(jià)值——面向鯤鵬平臺(tái)研發(fā)了新型LU求解器。
LU分解是科學(xué)工程計(jì)算中的基礎(chǔ)算子,廣泛用于結(jié)構(gòu)力學(xué)、電路模擬等場(chǎng)景。它看似遠(yuǎn)離大模型,但本質(zhì)上同樣在回應(yīng)一個(gè)問(wèn)題:當(dāng)硬件架構(gòu)變化之后,算法應(yīng)該如何重寫(xiě)。
傳統(tǒng)LU求解器的難點(diǎn)在于稀疏不規(guī)則計(jì)算。矩陣中的非零元素分布分散,訪存不連續(xù),計(jì)算密度不足,很難充分調(diào)用現(xiàn)代處理器里的矩陣計(jì)算單元和高帶寬內(nèi)存。而陳俊仕團(tuán)隊(duì)的解法是,通過(guò)算法與體系結(jié)構(gòu)協(xié)同設(shè)計(jì),把不規(guī)則計(jì)算轉(zhuǎn)化為規(guī)則稠密計(jì)算,把訪存密集型任務(wù)轉(zhuǎn)化為計(jì)算密集型任務(wù)。
在鯤鵬平臺(tái)的張量運(yùn)算部件和高速片上內(nèi)存加持下,新算法相比傳統(tǒng)方法實(shí)現(xiàn)了約40倍的性能提升,部分測(cè)試場(chǎng)景中接近200倍。
但比性能數(shù)字更有意思的,是陳俊仕對(duì)鯤鵬架構(gòu)本身的判斷。他說(shuō)當(dāng)初被吸引,是因?yàn)轹H鵬“另辟蹊徑”——和過(guò)去十幾年統(tǒng)治高性能計(jì)算TOP5榜單的異構(gòu)架構(gòu)不同,獨(dú)特的鯤鵬架構(gòu)走出了一條更簡(jiǎn)潔的路徑。
一個(gè)容易被產(chǎn)業(yè)忽略的事實(shí)是,異構(gòu)架構(gòu)(CPU+GPU)雖然帶來(lái)了算力紅利,但也帶來(lái)了沉重的工程負(fù)擔(dān)。
GPU的計(jì)算性能遠(yuǎn)勝CPU,但代價(jià)是程序員必須把代碼“撕成兩半”:CPU部分跑控制流,GPU部分跑計(jì)算密集型kernel。大量歷史遺留的Fortran、C/C++、OpenMP代碼,很難無(wú)縫遷移到異構(gòu)體系上。
這就是很多高性能計(jì)算團(tuán)隊(duì)長(zhǎng)期面對(duì)的“工程稅”。算力很強(qiáng),但開(kāi)發(fā)者要先付出重構(gòu)代碼、處理內(nèi)存搬運(yùn)、適配多套編程模型的代價(jià)。
當(dāng)主流計(jì)算架構(gòu)紛紛轉(zhuǎn)向異構(gòu)設(shè)計(jì)時(shí),鯤鵬用一套統(tǒng)一的架構(gòu)解決了過(guò)去必須用異構(gòu)計(jì)算才能處理的問(wèn)題。科研工作者不需要再學(xué)習(xí)多種計(jì)算范式和編程接口,大量原本只能跑在CPU上的科學(xué)計(jì)算代碼,可以更自然地遷移上來(lái)。
陳俊仕在圓桌中說(shuō),原來(lái)沒(méi)有GPU代碼,也可以直接在上面跑起來(lái)。對(duì)長(zhǎng)期做高性能計(jì)算的研究者來(lái)說(shuō),這意味著大量原本只能跑在CPU上的Fortran代碼可以直接用OpenMP并行起來(lái),遷移成本極低。據(jù)陳俊仕透露,將求解器項(xiàng)目遷移到鯤鵬平臺(tái),不到一周就能完成。
“硬件決定性能上限,算法必須向硬件適配”,陳俊仕的這句話聽(tīng)起來(lái)像是在描述鯤鵬,本質(zhì)上講的是一個(gè)更普遍的產(chǎn)業(yè)邏輯:AI時(shí)代的算力競(jìng)爭(zhēng)下,軟硬協(xié)同才是真正的護(hù)城河。
過(guò)去,芯片性能提升可以較多依賴制程和通用架構(gòu)演進(jìn)。但AI驅(qū)動(dòng)算力需求爆發(fā)的今天,單純堆硬件越來(lái)越難。真正的性能突破,來(lái)自硬件特性、算法結(jié)構(gòu)、編譯優(yōu)化和應(yīng)用場(chǎng)景之間的耦合。
鯤鵬架構(gòu)提供了矩陣計(jì)算單元和高帶寬內(nèi)存能力,中科大團(tuán)隊(duì)則通過(guò)算法改造把這些能力釋放出來(lái)。可以說(shuō),當(dāng)摩爾定律在異構(gòu)路徑上越走越復(fù)雜,鯤鵬讓高性能計(jì)算編程回到了更簡(jiǎn)潔的范式之上。
中國(guó)算力生態(tài)究竟走到了哪一步?
當(dāng)下的昇騰鯤鵬生態(tài)或許并不適合用“完美”二字概括。
更準(zhǔn)確來(lái)說(shuō),它已經(jīng)走過(guò)了最艱難的冷啟動(dòng)階段,進(jìn)入了一個(gè)需要被真實(shí)使用、持續(xù)打磨、快速補(bǔ)課的青年期。這個(gè)階段的它,不再只靠宏大敘事驅(qū)動(dòng)。
過(guò)去談國(guó)產(chǎn)算力,話語(yǔ)常常落在安全、替代和自主創(chuàng)新上。但到了今天,開(kāi)發(fā)者真正關(guān)心的是模型能不能訓(xùn)起來(lái),框架能不能跑通,算子能不能適配,遷移成本高不高,出了問(wèn)題能不能找到人解決。
把四位開(kāi)發(fā)者的實(shí)踐拼在一起,可以看到昇騰鯤鵬生態(tài)正在發(fā)生的一個(gè)產(chǎn)業(yè)級(jí)變化:它正在從“能用”邁向“好用易用”。
當(dāng)一個(gè)生態(tài)被廣泛使用、被業(yè)界認(rèn)可,它便成為了一種潮流。而昇騰鯤鵬掀起的這股潮流,已經(jīng)在過(guò)去一年有了量化的支撐。截至目前,鯤鵬開(kāi)發(fā)者超過(guò)415萬(wàn),合作伙伴超過(guò)7000家,解決方案認(rèn)證超過(guò)27000個(gè);昇騰開(kāi)發(fā)者超過(guò)410萬(wàn),合作伙伴超過(guò)3000家。
更能說(shuō)明問(wèn)題的是CANN生態(tài)在開(kāi)源之后的爆發(fā)節(jié)奏。2025年12月30日全面開(kāi)源以來(lái),短短5個(gè)月時(shí)間,社區(qū)開(kāi)源項(xiàng)目從0增長(zhǎng)到65個(gè)(平均每3天一個(gè)新項(xiàng)目),開(kāi)源代碼從827萬(wàn)行增長(zhǎng)到1244萬(wàn)行(每天新增3萬(wàn)行),社區(qū)代碼下載量跨過(guò)千萬(wàn)級(jí)別,月活躍開(kāi)發(fā)者超過(guò)3000人。
當(dāng)然,與海外生態(tài)相比,客觀差距依舊存在。但過(guò)去一年里,中國(guó)算力生態(tài)從“能用”到“好用易用”的躍遷速度,已經(jīng)比很多人意識(shí)到的更快。在最主流的兩大開(kāi)源推理框架上,昇騰已成為vLLM Project中唯一的自主創(chuàng)新硬件廠商,以及SGLang主倉(cāng)中唯一的自主創(chuàng)新非GPU硬件廠商。
嬰兒期是幾乎一片空白,青年期是該有的基本都有了,只是還在繼續(xù)成長(zhǎng)。
中國(guó)AI計(jì)算產(chǎn)業(yè)的故事走到這一年,硬件不再是瓶頸,生態(tài)還在加速追趕,開(kāi)發(fā)者開(kāi)始真正用起來(lái)。而生態(tài)的成熟,從來(lái)都不是一家公司的功勞,它是華為、開(kāi)發(fā)者、產(chǎn)業(yè)鏈上每一個(gè)共建者共同寫(xiě)出的答案。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.