![]()
在AI大模型席卷全球的浪潮中,算力芯片是無可替代的核心基石。過去很長一段時間,國內AI產業高度依賴海外芯片,“卡脖子”風險如影隨形。如今,這一格局正在被徹底改寫。華為昇騰,作為國產算力的標桿,正以肉眼可見的速度崛起:客戶測完950芯片一周就下單、互聯網巨頭和大模型初創企業全面基于昇騰訓推、DeepSeekV4等頂尖模型實現全系列適配……從性能追趕到生態成型,從市場認可到自主可控,昇騰的突圍之路,正是中國AI算力打破壟斷、站穩腳跟的生動縮影。
一、市場爆火:從“試用”到“搶單”,客戶用腳投票
“客戶測了我們的950,不到一個禮拜就說可以下單了。”昇騰計算業務副總裁張良的這句話,直白道出了當下昇騰的市場熱度。如今的昇騰,早已不再是需要費力推廣的小眾產品,而是被客戶主動追捧的香餑餑,銷量和認可度雙雙飆升。
這種熱度,源于客戶最真實的使用體驗。在AI行業,不同場景對算力的需求天差地別。推理場景看重性價比和便捷性,不需要極致穩定性,只要用得快、成本低就好;而訓練場景則是“慢工出細活”,客戶要求成熟、穩定、經過長時間驗證的大規模集群,軟硬件必須同步達標。
此前,國內大模型訓練幾乎被海外芯片壟斷,推理場景也多依賴進口產品。而現在,拐點已經到來——今年以來,大量客戶開始全面基于昇騰訓練大模型、超大參數模型,不少國內領先的模型都選擇昇騰作為核心算力支撐。這背后,是昇騰產品成熟度的質變,是實打實通過了市場最嚴苛的可靠性考驗。
更值得關注的是,“一卡難求”已成昇騰的真實寫照。張良坦言:“雖然我們生產卡,但我想用卡也很難。”供需失衡的背后,是國內AI產業對國產算力的迫切需求,也是客戶用真金白銀做出的選擇——從試用一周就下單,到互聯網公司、初創企業全面適配,昇騰正在成為國產AI算力的首選。
二、硬核實力:扛住DeepSeekV4大考,950芯片雙場景通吃
如果說市場熱度是外在表現,那硬核技術實力就是昇騰崛起的核心底氣。近期,頂尖大模型DeepSeekV4的發布,成為檢驗昇騰能力的“試金石”,而昇騰交出了一份滿分答卷——全系列產品均完美支持DeepSeekV4,徹底打破了海外芯片在頂尖模型適配領域的壟斷。
DeepSeekV4絕非普通模型,它在技術上實現了重大突破:引入混合注意力機制,結合滑窗、稀疏、壓縮等優化算法,支持1M級超長上下文推理;延續MoE(混合專家)結構,對專家路由、多卡通信、KVCache管理等提出了極高要求。這樣的復雜模型,對算力芯片的架構、算力、通信能力都是極致考驗,堪稱華為昇騰面臨的一次“大考”。
![]()
面對挑戰,昇騰950系列芯片展現出了強大的適配能力,完美兼顧低時延和高吞吐兩大核心場景:在950DT系列上,DeepSeekV4Flash模型實現低于10毫秒的超低時延推理,Pro模型也僅需約20毫秒;在AtlasA3系列上,Flash模型則實現約30毫秒的高吞吐性能,完全滿足不同場景的核心需求。
這份亮眼成績的背后,是昇騰軟件棧CANN的深度優化。針對DeepSeekV4的mHC、混合注意力、壓縮器、MoE等核心模塊,CANN進行了原生適配:提供多種mHC實現路徑,開發稀疏注意力融合算子和KVCache壓縮算子,增強長上下文稀疏注意力計算能力;優化MoE門控功能,支持哈希路由和縮放softmax……從卡間通信到算子優化,從架構適配到性能調優,每一處細節都彰顯著昇騰的技術硬實力。
三、厚積薄發:全面升級軟硬件,筑牢自主算力根基
羅馬不是一天建成的,昇騰的爆發也絕非偶然。過去一年,昇騰團隊始終在“卷”技術、卷產品,從芯片架構到軟件棧,從低精度能力到基礎設施,完成了一輪系統性升級,為崛起筑牢根基。
去年以來,昇騰對芯片體系進行了大刀闊斧的調整,精準匹配大模型和Agent場景的新需求。如今的大模型推理和Agent應用,對編程靈活性、細粒度訪存能力、Cacheline設計要求極高,昇騰針對性優化:重新配比算力,提升不同負載適配能力;引入SIMT能力,增強編程靈活性;強化細粒度訪存能力,完美適配訓練、推理和復雜Agent工作負載的數據訪問需求。
低精度計算能力的突破,更是昇騰的一大亮點。隨著大模型對Token產出效率的需求激增,FP8、FP4等低精度格式成為行業趨勢。昇騰團隊“拼盡全力”提前落地FP8、FP4能力,讓芯片的Token產出能力直接翻倍,在推理場景中性價比優勢進一步凸顯。
基礎設施建設同樣毫不松懈。張良強調:“所有工作沒有基礎設施是不行的。”面對“一卡難求”的行業現狀,昇騰一邊全力保障芯片產能,一邊加快超節點集群建設。昇騰950超節點最大可支持8192卡高速互聯,形成一臺超級計算機,訓練性能較傳統集群翻番,可穩定運行30天以上,為萬億級大模型訓練提供了堅實支撐。
四、生態破局:拒絕“仿CUDA”,走自主可控之路
對于算力芯片而言,硬件是骨架,生態是靈魂。英偉達能長期壟斷全球AI算力市場,核心就在于CUDA構建的生態護城河。如今,昇騰正以CANN為核心,打造屬于中國的自主AI計算生態,而且堅決拒絕走“仿CUDA”的捷徑。
![]()
張良明確表示:“如果只是做一個‘CUDA2號’,短期適配成本低,但新特性都建立在他人生態上,不是真正的自主生態。”在他看來,從虛擬指令級、運行時能力,到編譯器、硬件協同,必須全部自主構建,才能把底層能力牢牢掌握在自己手中,擺脫對海外生態的依附。
堅持自主,并不意味著脫離業界生態。昇騰的生態建設思路清晰而務實:底層關鍵能力自主可控,上層兼容主流開發習慣,逐步將自主NPU特性引入開源社區。這種“底層自主、上層兼容”的模式,既守住了自主可控的底線,又降低了開發者的遷移門檻。
如今,昇騰生態已初具規模,遷移效率大幅提升。目前昇騰社區開發者約1.3萬人,月活近2000人,適配60多個基礎大模型系列。模型遷移更是絲滑高效:簡單模型6小時就能從CUDA遷移到CANN,比如千問3.6;架構新穎的復雜模型,也僅需一兩周即可完成,徹底打消了客戶的遷移顧慮。
生態建設最難的,是獲得主流開源社區的認可。長期以來,海外社區主導AI開源項目,對中國軟硬件存在偏見,昇騰的適配代碼常被要求以插件形式存在,難以融入主流。為此,昇騰投入大量精力溝通論證,推動Triton、PyTorch等主流項目逐步支持昇騰硬件,讓國產算力生態從被動適配轉向主動融入。
五、面向未來:抓住Agent機遇,持續突破永不止步
當前,AI產業正迎來新的變革——Agent應用快速興起,對時延、多輪推理、長序列處理和系統綜合能力提出更高要求,也可能引發新一輪“算力荒”。這對昇騰而言,既是千載難逢的機遇,也是必須直面的挑戰。
“Agent這么紅火,我們當然很開心,它會帶來新的算力需求。但更重要的是,要識別出真正的問題,比如編程編譯速度的不足,持續投入改進。”張良的話,道出了昇騰的清醒與務實。在他看來,昇騰不滿足于抓住一輪機會,而是要在每一輪產業變革中,暴露問題、修正問題、補齊能力。
回顧過往,昇騰團隊既抓住過時代機遇,也走過彎路,部分問題曾被市場紅利掩蓋。但不變的是,他們始終保持“永遠不完美,還要繼續努力”的心態,持續投入、極致打磨。從910到950,從性能追趕到生態成型,從市場認可到自主可控,昇騰的每一步,都走得堅定而有力。
從“一卡難求”到撐起國產大模型半邊天,從技術追趕到生態自主,華為昇騰的突圍之路,是中國AI算力打破海外壟斷、實現自主可控的縮影。如今,昇騰950芯片憑實力贏得市場認可,CANN生態逐步壯大,技術實力扛住頂尖模型考驗,國產算力的時代已然到來。
但昇騰的故事遠未結束。面對Agent時代的新需求,面對全球AI產業的激烈競爭,昇騰仍需持續投入、不斷突破。相信在不久的將來,以昇騰為代表的國產算力,將徹底擺脫“卡脖子”困境,不僅撐起中國AI產業的發展,更能在全球AI舞臺上,發出屬于中國的最強音。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.