![]()
這四位開發(fā)者的講述,
是觀察中國算力生態(tài)成熟度的一組真實樣本。
DeepSeek之后,中國AI產(chǎn)業(yè)最深刻的一個變化,可能是大家終于不再相信“暴力堆算力”了。
當DeepSeek用一系列極致的低精度優(yōu)化、長上下文壓縮、算子工程把模型成本壓到行業(yè)平均的十分之一以下,它實際上證明了一件事:AI下半場的勝負手,在算力底座的整體效率,而不在某一顆芯片的峰值參數(shù)。
“系統(tǒng)工程”并非孤軍突圍的無奈之舉,它幾乎是全球性的效率共識——海外的Anthropic、xAI、Mistral也都在沿著類似的方向重寫自己的工程棧。
但對中國產(chǎn)業(yè)而言,這個范式轉(zhuǎn)移的意義更復雜一些。它一方面意味著中國廠商不必再在制程和算力密度上跟英偉達打一場沒勝算的硬仗,另一方面也意味著,如果軟件生態(tài)跟不上,再多的卡也只是堆在機房里的“沉默資產(chǎn)”。
這也是為什么近兩年中國算力的競爭焦點,迅速從芯片切換到了生態(tài)。
5月23日,鯤鵬昇騰開發(fā)者大會2026的明星開發(fā)者團隊圓桌上,主持人、中科院計算所學者、老石談芯主理人石侃談道:“硬件是基石,生態(tài)是靈魂。再強的芯片,如果沒有好用的軟件生態(tài),只是一種冷冰冰的硬件。”
![]()
主持人、中科院計算所學者、老石談芯主理人石侃
這正是當下中國AI計算產(chǎn)業(yè)生態(tài)最需要回答的問題——生態(tài)夠不夠好用?開發(fā)者愿不愿意來?用了能不能留下?
在KADC現(xiàn)場,四位來自AI大模型、金融、高性能計算領(lǐng)域的開發(fā)者,用他們的實戰(zhàn)經(jīng)驗回應了這個問題。他們的身份各異——有大模型創(chuàng)業(yè)公司的聯(lián)合創(chuàng)始人,有銀行核心團隊的技術(shù)專家,也有高校的研究者——但他們都把昇騰和鯤鵬當作真實生產(chǎn)環(huán)境的基礎(chǔ)設(shè)施長期使用。
![]()
這四位開發(fā)者的講述,是觀察中國算力生態(tài)成熟度的一組真實樣本。
AIGCode陳秋武:65%的
MoE MFU,技術(shù)極客如何吃透昇騰
2024年初,AIGCode剛成立,市場上買不到英偉達卡,作為創(chuàng)業(yè)小公司,團隊只能從昇騰開始。用了一段時間之后他發(fā)現(xiàn)“其實還好”——這種從被動接受到逐步認可的過渡,幾乎是國產(chǎn)芯片在那一波AI創(chuàng)業(yè)公司里普遍的破冰路徑。
AIGCode做的是Vibe Coding類應用——用一句自然語言提示詞就能生成前端、后端、數(shù)據(jù)庫的完整系統(tǒng),15分鐘內(nèi)交付一整套應用。
但和大多數(shù)Vibe Coding公司不同,AIGCode堅持自研基礎(chǔ)大模型。這是因為,在陳秋武看來,應用端的能力上限來自基礎(chǔ)模型,“AGI能力的瓶頸并不是后訓練或Agent,而是來源于基礎(chǔ)模型”。
在和昇騰的合作中,AIGCode團隊把MoE MFU(模型算力利用率)做到了“65%”。
MFU(Model FLOPs Utilization)反映的是集群在實際訓練中跑出了多少標稱算力,是衡量大模型訓練效率的核心指標。而MoE(Mixure of Experts)混合專家則是當前大模型的主流模型架構(gòu)。
這一指標和集群規(guī)模、任務規(guī)模強相關(guān)——單機或密集場景下通信開銷很低,MFU做到很高并不難;如Google密集大模型的PaLM540B TPU集群上達到46.2%;但當主流混合專家大模型時,對應的激活專家約二十分之一,冷熱不均,專家并行效率低下,任務被切分到成百上千張卡上協(xié)同運行時,通信、同步、調(diào)度的開銷會大幅累積,MFU的提升越發(fā)困難。
MoE MFU越高,也意味著算力資產(chǎn)被利用得越充分,訓練效率越高,模型出結(jié)果的速度也就越快。
能在集群規(guī)模下把MFU推到這一水平,意味著AIGCode可以調(diào)用昇騰非常底層的調(diào)優(yōu)能力。用陳秋武的話來說,相當于“一張昇騰卡當兩張卡用”。(需要說明的是,65%是特定客戶在特定算法、模型、集群規(guī)模等條件下達成的成果。)
而把MFU推到極致,靠的是一整套體系化能力。
第一層是通信與計算的協(xié)同調(diào)度,核心是把芯片的等待時間壓到最小。第二層更硬核,把attention里占大頭的MHA與細碎小塊GDN做并行掩蓋,再把in_proj、激活函數(shù)等小算子做融合, 與DeepSeek V4提到的Mega Kernel思路類似,最后結(jié)合QKV重組零拷貝。“大的塊扔到瓶子里,小的塊再填滿”——這是一個典型的需要算法團隊和基建團隊同時具備能力的工作。
陳秋武還認為,單卡差距可以靠超節(jié)點集群體系化優(yōu)勢補齊。
放在更大的產(chǎn)業(yè)語境里,這句話其實指向了國產(chǎn)算力的一條隱性突圍路徑——既然單卡制程暫時追不上,那就用系統(tǒng)級架構(gòu)(超節(jié)點+高速互聯(lián)+協(xié)同調(diào)度)在另一個維度上構(gòu)建優(yōu)勢。
陳秋武如此談到昇騰CANN生態(tài)變化,“2024年初我們?nèi)プ鲇柧毜臅r候,基本上算是‘荒漠’,很多東西都沒有。大概到了去年,整個CANN的生態(tài)覆蓋率到了80%-90%。8個月就把生態(tài)完成到這個程度,我覺得是非常驚訝的。”
陳秋武參加華為的技術(shù)閉門會就參加了六七次。從寫第一版預訓練代碼開始,到聯(lián)合開發(fā)PTO和CANN的預訓練部分。這種深度共建的關(guān)系,某種程度上也定義了AIGCode這類技術(shù)型團隊與國產(chǎn)算力生態(tài)的相處方式——既是用戶,也是合作者。
某頭部股份制銀行鄭俊:
把AI放進金融核心生產(chǎn)系統(tǒng)
如果說AIGCode代表的是技術(shù)極客對極致性能的追求,那么金融行業(yè)代表的是另一個維度的驗證——產(chǎn)業(yè)核心生產(chǎn)場景。
某頭部股份制銀行架構(gòu)辦大模型訓推核心專家鄭俊在圓桌上談到的,是一個比“AI寫文案”重得多的應用場景。
該行AI團隊負責基于昇騰軟硬件生態(tài),構(gòu)建大模型訓練與推理基礎(chǔ)設(shè)施,并把這套能力推進到了智能風控的核心鏈路里——用大模型與小模型的混合架構(gòu),疊加增強人臉識別技術(shù),實時攔截境外詐騙等高風險交易。
可以說,AI已經(jīng)直接介入這家銀行的資金流轉(zhuǎn)和風險決策,成為業(yè)務運轉(zhuǎn)的關(guān)鍵一環(huán)。
這種場景對算力底座的要求,和互聯(lián)網(wǎng)應用完全不在一個量級上。對于金融級生產(chǎn)環(huán)境來說,AI從輔助場景進入核心生產(chǎn)流程要滿足四大剛性要求:
第一條是極致低延遲。該行的服務級別目標(SLO)把首Token響應鎖定在500毫秒左右,后續(xù)Token延遲控制在50毫秒左右。
這種延遲約束放在金融場景里是底線——一次跨境交易的風險判斷、一次反欺詐攔截,必須在用戶感知不到的時間窗里完成。為了把延遲壓縮到業(yè)務可接受的范圍,該行和昇騰團隊聯(lián)合做了底層調(diào)度和算子層面的優(yōu)化。
第二條是超高通量并發(fā)。該行的大模型平臺日均處理260億Token,背后需要數(shù)千張算力卡同時跑起來。昇騰的單卡性能和集群通信效率提供了基礎(chǔ)能力,但要把這套系統(tǒng)真正跑穩(wěn),還需要在系統(tǒng)調(diào)優(yōu)和架構(gòu)設(shè)計上做大量工程投入。
第三條是銀行級可用性。99.999%的系統(tǒng)可用性意味著全年故障不超過1分鐘,這是金融核心系統(tǒng)的硬約束。這一指標不是單靠硬件就能給出保證的——它是該行和昇騰在硬件穩(wěn)定性、軟件架構(gòu)上共同打磨出來的結(jié)果。
第四條是高利用率下的故障隔離。降本增效的壓力要求把硬件利用率持續(xù)拉高,但金融場景的另一面是不能因為單點故障導致業(yè)務斷流。該行和昇騰一起做了隔離機制設(shè)計,讓高利用率和高安全能夠同時成立。
要把這四條指標同時壓下來,靠的是一整套軟硬協(xié)同的工程能力。
鄭俊還談道,“和昇騰一起搞開源之后,開源的代碼我們隨時可以去看它,小的問題隨時就可以修。”而任何模型商用前都要經(jīng)過48小時以上的長壓測試。
值得一提的是,該行在適配過程中對昇騰社區(qū)已經(jīng)實現(xiàn)了反向輸出。
該行秉持“源于開源、回饋開源”原則,在昇騰生態(tài)適配與算子開發(fā)中沉淀的大量優(yōu)化成果,主動貢獻給了社區(qū)——截至目前,已經(jīng)累計向vLLM-Ascend貢獻了34個特性,讓其他昇騰客戶直接受益、無需重復踩坑。
一家股份制銀行的AI團隊主動做開源貢獻,在過去幾乎是很少見的。回饋社區(qū)也代表著該行選擇昇騰已經(jīng)超出了合規(guī)層面的考慮,更像是把它當作了長期基礎(chǔ)設(shè)施去投入,鄭俊表示,“昇騰讓我們看到國內(nèi)的算力平臺同樣優(yōu)秀,可以成為業(yè)務首選。”
清華大學王一鳴:
讓科研者把時間花在科研本身
清華大學HPCA團隊助理研究員王一鳴團隊和其他高校、科研院所的聯(lián)合研究工作,讓鯤鵬走進了一個更經(jīng)典的高性能計算場景——地球系統(tǒng)建模。
通過把AI與傳統(tǒng)數(shù)值模擬結(jié)合起來,團隊嘗試在全球天氣與氣候模擬中引入AI增強的物理參數(shù)化、混合精度計算和大規(guī)模并行優(yōu)化,實現(xiàn)公里級分辨率的全球氣象建模——這是一個高性能計算與AI融合的工程。
傳統(tǒng)大氣模擬里有個長期需要攻克的問題——計算過程中有一部分靠嚴格的物理公式推導,另一部分則要靠經(jīng)驗公式“估算”,而這部分估算正是模擬結(jié)果不確定性的主要來源。
王一鳴團隊用AI模型替換了傳統(tǒng)的經(jīng)驗估算方案,疊加可擴展性優(yōu)化和混合精度優(yōu)化等手段來提升效率,把全球大氣模擬的分辨率推進到了公里級,實現(xiàn)了“計算一天就能完成一年以上模式時間的天氣-氣候演化”的性能突破。在海洋這種動力學相對穩(wěn)定的場景里,一天甚至可以模擬3年的演變。
這套由清華大學團隊聯(lián)合其他高校和科研院所做的全球地球系統(tǒng)模式軟件系統(tǒng),已成功投稿到2026年戈登貝爾氣候建模特獎。
事實上,地球系統(tǒng)建模對算力底座的要求,有兩個看似樸實卻極其關(guān)鍵的指標——穩(wěn)和準。
穩(wěn)的難度,在于大氣模擬是連續(xù)積分場景。一個完整的模擬結(jié)果需要數(shù)天甚至數(shù)百年等更長時間的連續(xù)計算,中間一旦斷掉,斷點恢復的成本極高,往往意味著前面一段時間的算力白跑。
這種場景對硬件平臺的穩(wěn)定性要求是底層級的——任何一次崩潰,都可能讓一個科研項目損失數(shù)天的時間。團隊遷移到鯤鵬平臺之后,集群在大規(guī)模長時間作業(yè)中的穩(wěn)定性顯著改善,斷點續(xù)跑機制也更友好。
準的難度,在于科學計算對精度誤差的零容忍。一個氣象模擬結(jié)果背后是數(shù)億輪計算過程,每一步的微小誤差累積數(shù)億次后,最終結(jié)果可能嚴重失真。這要求底層平臺從編譯器到數(shù)學庫到并行庫,每一個環(huán)節(jié)都得在精度上經(jīng)得起推敲。
鯤鵬在這一層提供了面向主流科學計算語言和氣象軟件生態(tài)的工具鏈支持,包括編譯器、數(shù)學庫、并行庫和調(diào)優(yōu)工具,讓清華大學團隊能在一個體系完整、響應高效的平臺上快速調(diào)試參數(shù)、驗證模型,減少底層適配對科研節(jié)奏的干擾,從而更快地逼近“準”的目標。
但鯤鵬帶給清華團隊的,不止是穩(wěn)和準本身。
王一鳴在圓桌上提到一個細節(jié)——團隊和鯤鵬的合作,已經(jīng)把硬件特性和工程優(yōu)化納入了科學問題設(shè)計的早期階段。過去高性能計算的典型流程是先把科學問題解決了,再回過頭來做性能優(yōu)化,科學和工程是前后接力的兩段。
而現(xiàn)在,團隊從代碼設(shè)計階段就把鯤鵬的NUMA架構(gòu)、并行方式納入考量,讓科學研發(fā)和工程優(yōu)化從前后接力變成了并行推進。這是一個容易被忽略但意義不小的變化。它意味著開發(fā)者對底層平臺的信任度,已經(jīng)高到足以讓它進入科學問題設(shè)計的早期決策。
這背后必須靠真實的開發(fā)體驗去積累。在王一鳴看來,鯤鵬對氣象軟件庫的支持很好,基本上把氣象模型放到鯤鵬里面,只需要load幾個庫,基本上就可以跑起來;架構(gòu)適配性也強,氣象軟件不需要太改代碼就可以跑一個初版。遇到問題,鯤鵬社區(qū)還有大量已經(jīng)沉淀好的解決方案。
一個長期被國產(chǎn)算力生態(tài)忽略的維度是,開發(fā)體驗是否友好。性能數(shù)據(jù)是少數(shù)極客追求的事,開發(fā)順暢度才是大多數(shù)科研工作者每天面對的真實問題。王一鳴自己用一句話總結(jié)了團隊的感受:“鯤鵬讓科研者的精力回到科研本身,不用在硬件適配上反復踩坑。”
正是這種對底層工作的解放,讓科研人員能夠把精力聚焦在算法突破和科學問題的本質(zhì)上,回到科研創(chuàng)新本來該有的樣子。
更宏觀來看,氣候變化、極端天氣、糧食安全、水資源管理,這些都依賴于精準的氣象建模能力。一個公里級精度、性能足夠支撐長時序推演的地球系統(tǒng)模擬器,是中國應對氣候挑戰(zhàn)、保障國計民生的科學基礎(chǔ)設(shè)施之一。
當中國算力底座開始能穩(wěn)定承接氣候建模、生命科學、物質(zhì)科學等這類基礎(chǔ)科研,意味著它的能力邊界正在從“產(chǎn)業(yè)應用”擴展到“科學發(fā)現(xiàn)的基礎(chǔ)工具”。在AI4S這個關(guān)鍵方向上,鯤鵬也已經(jīng)能打通從硬件到工具鏈再到科研產(chǎn)出的完整鏈路。
中科大陳俊仕:
硬件決定上限,算法向硬件適配
中科大陳俊仕團隊做的工作,在四位開發(fā)者里最“底層”,但也最具有方法論價值——面向鯤鵬平臺研發(fā)了新型LU求解器。
LU分解是科學工程計算中的基礎(chǔ)算子,廣泛用于結(jié)構(gòu)力學、電路模擬等場景。它看似遠離大模型,但本質(zhì)上同樣在回應一個問題:當硬件架構(gòu)變化之后,算法應該如何重寫。
傳統(tǒng)LU求解器的難點在于稀疏不規(guī)則計算。矩陣中的非零元素分布分散,訪存不連續(xù),計算密度不足,很難充分調(diào)用現(xiàn)代處理器里的矩陣計算單元和高帶寬內(nèi)存。而陳俊仕團隊的解法是,通過算法與體系結(jié)構(gòu)協(xié)同設(shè)計,把不規(guī)則計算轉(zhuǎn)化為規(guī)則稠密計算,把訪存密集型任務轉(zhuǎn)化為計算密集型任務。
在鯤鵬平臺的張量運算部件和高速片上內(nèi)存加持下,新算法相比傳統(tǒng)方法實現(xiàn)了約40倍的性能提升,部分測試場景中接近200倍。
但比性能數(shù)字更有意思的,是陳俊仕對鯤鵬架構(gòu)本身的判斷。他說當初被吸引,是因為鯤鵬“另辟蹊徑”——和過去十幾年統(tǒng)治高性能計算TOP5榜單的異構(gòu)架構(gòu)不同,獨特的鯤鵬架構(gòu)走出了一條更簡潔的路徑。
一個容易被產(chǎn)業(yè)忽略的事實是,異構(gòu)架構(gòu)(CPU+GPU)雖然帶來了算力紅利,但也帶來了沉重的工程負擔。
GPU的計算性能遠勝CPU,但代價是程序員必須把代碼“撕成兩半”:CPU部分跑控制流,GPU部分跑計算密集型kernel。大量歷史遺留的Fortran、C/C++、OpenMP代碼,很難無縫遷移到異構(gòu)體系上。
這就是很多高性能計算團隊長期面對的“工程稅”。算力很強,但開發(fā)者要先付出重構(gòu)代碼、處理內(nèi)存搬運、適配多套編程模型的代價。
當主流計算架構(gòu)紛紛轉(zhuǎn)向異構(gòu)設(shè)計時,鯤鵬用一套統(tǒng)一的架構(gòu)解決了過去必須用異構(gòu)計算才能處理的問題。科研工作者不需要再學習多種計算范式和編程接口,大量原本只能跑在CPU上的科學計算代碼,可以更自然地遷移上來。
陳俊仕在圓桌中說,原來沒有GPU代碼,也可以直接在上面跑起來。對長期做高性能計算的研究者來說,這意味著大量原本只能跑在CPU上的Fortran代碼可以直接用OpenMP并行起來,遷移成本極低。據(jù)陳俊仕透露,將求解器項目遷移到鯤鵬平臺,不到一周就能完成。
“硬件決定性能上限,算法必須向硬件適配”,陳俊仕的這句話聽起來像是在描述鯤鵬,本質(zhì)上講的是一個更普遍的產(chǎn)業(yè)邏輯:AI時代的算力競爭下,軟硬協(xié)同才是真正的護城河。
過去,芯片性能提升可以較多依賴制程和通用架構(gòu)演進。但AI驅(qū)動算力需求爆發(fā)的今天,單純堆硬件越來越難。真正的性能突破,來自硬件特性、算法結(jié)構(gòu)、編譯優(yōu)化和應用場景之間的耦合。
鯤鵬架構(gòu)提供了矩陣計算單元和高帶寬內(nèi)存能力,中科大團隊則通過算法改造把這些能力釋放出來。可以說,當摩爾定律在異構(gòu)路徑上越走越復雜,鯤鵬讓高性能計算編程回到了更簡潔的范式之上。
中國算力生態(tài)究竟走到了哪一步?
當下的昇騰鯤鵬生態(tài)或許并不適合用“完美”二字概括。
更準確來說,它已經(jīng)走過了最艱難的冷啟動階段,進入了一個需要被真實使用、持續(xù)打磨、快速補課的青年期。這個階段的它,不再只靠宏大敘事驅(qū)動。
過去談國產(chǎn)算力,話語常常落在安全、替代和自主創(chuàng)新上。但到了今天,開發(fā)者真正關(guān)心的是模型能不能訓起來,框架能不能跑通,算子能不能適配,遷移成本高不高,出了問題能不能找到人解決。
把四位開發(fā)者的實踐拼在一起,可以看到昇騰鯤鵬生態(tài)正在發(fā)生的一個產(chǎn)業(yè)級變化:它正在從“能用”邁向“好用易用”。
當一個生態(tài)被廣泛使用、被業(yè)界認可,它便成為了一種潮流。而昇騰鯤鵬掀起的這股潮流,已經(jīng)在過去一年有了量化的支撐。截至目前,鯤鵬開發(fā)者超過415萬,合作伙伴超過7000家,解決方案認證超過27000個;昇騰開發(fā)者超過410萬,合作伙伴超過3000家。
更能說明問題的是CANN生態(tài)在開源之后的爆發(fā)節(jié)奏。2025年12月30日全面開源以來,短短5個月時間,社區(qū)開源項目從0增長到65個(平均每3天一個新項目),開源代碼從827萬行增長到1244萬行(每天新增3萬行),社區(qū)代碼下載量跨過千萬級別,月活躍開發(fā)者超過3000人。
當然,與海外生態(tài)相比,客觀差距依舊存在。但過去一年里,中國算力生態(tài)從“能用”到“好用易用”的躍遷速度,已經(jīng)比很多人意識到的更快。在最主流的兩大開源推理框架上,昇騰已成為vLLM Project中唯一的自主創(chuàng)新硬件廠商,以及SGLang主倉中唯一的自主創(chuàng)新非GPU硬件廠商。
嬰兒期是幾乎一片空白,青年期是該有的基本都有了,只是還在繼續(xù)成長。
中國AI計算產(chǎn)業(yè)的故事走到這一年,硬件不再是瓶頸,生態(tài)還在加速追趕,開發(fā)者開始真正用起來。而生態(tài)的成熟,從來都不是一家公司的功勞,它是華為、開發(fā)者、產(chǎn)業(yè)鏈上每一個共建者共同寫出的答案。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.