![]()
智算集群正經(jīng)歷從“千卡級”向“萬卡級”乃至“十萬卡級”的跨越式發(fā)展。
伴隨全球人工智能產(chǎn)業(yè)加速演進,國內(nèi)基礎設施建設正告別粗放式規(guī)模擴張,全面邁向智能化升級新階段。以算力網(wǎng)絡、新一代通信網(wǎng)絡為核心的信息基礎設施,已然成為穩(wěn)定有效投資、培育壯大新質(zhì)生產(chǎn)力的關鍵支撐與核心引擎。智算集群作為 AI 時代的 “超級大腦工廠”,正從單點試點走向規(guī)模化落地,成為支撐大模型訓練、產(chǎn)業(yè)智能化升級的核心底座。
從國家數(shù)據(jù)局《數(shù)字中國建設2025年行動方案》到國務院《關于深入實施“人工智能+”行動的意見》,再到2026年政府工作報告,政策層面已將智算集群建設提升至國家戰(zhàn)略高度。《通信產(chǎn)業(yè)報》全媒體研究組從“智算集群是什么、關鍵有哪些、挑戰(zhàn)有幾個、誰來干”四個維度,深度解析智算集群的發(fā)展現(xiàn)狀與未來路徑。
是什么?
2026年政府工作報告提出“實施超大規(guī)模智算集群、算電協(xié)同等新基建工程,加強全國一體化算力監(jiān)測調(diào)度,支持公共云發(fā)展”。目前,中國已建成42個萬卡級智算集群,智能算力總規(guī)模超過1590EFLOPS,該體系已被納入國家“東數(shù)西算”工程整體布局。
智算集群是專門用于人工智能(AI)模型訓練與推理的高性能計算資源集合,由大量 GPU(或?qū)S?AI 芯片)、高速網(wǎng)絡、存儲系統(tǒng)和調(diào)度軟件協(xié)同組成,是支撐大模型、生成式 AI、自動駕駛、科學智能等前沿應用的 “數(shù)字底座”。作為 AI 產(chǎn)業(yè)的核心基礎設施,智算集群區(qū)別于傳統(tǒng)數(shù)據(jù)中心和通用超算集群,具備高密度算力、極致通信、綠色低碳、軟硬協(xié)同四大核心特征。
從定義內(nèi)涵看,智算集群區(qū)別于傳統(tǒng)數(shù)據(jù)中心的核心特征在于“三專”:專用AI芯片架構、專用高速互聯(lián)協(xié)議、專用軟件棧優(yōu)化。從技術演進脈絡看,智算集群正經(jīng)歷從“千卡級”向“萬卡級”乃至“十萬卡級”的跨越式發(fā)展。從功能定位看,智算集群正在從“算力堆砌”向“智能調(diào)度”轉變。傳統(tǒng)的算力供給模式側重于硬件堆砌,而新一代智算集群強調(diào)軟硬件協(xié)同優(yōu)化。
![]()
關鍵有哪些?
智算集群的建設是一項復雜的系統(tǒng)工程,其關鍵技術可歸納為“算、聯(lián)、存、調(diào)、散”五大核心環(huán)節(jié)。
AI芯片是智算集群的算力源泉。當前主流路徑包括通用GPU(圖形處理器)和ASIC(專用集成電路)兩大技術路線。目前來看,英偉達憑借CUDA生態(tài)在通用GPU領域占據(jù)主導地位,而寒武紀等國內(nèi)企業(yè)則聚焦ASIC路線。
通過專用架構實現(xiàn)特定場景的高效計算。華為昇騰系列芯片的技術演進頗具代表性。2025年9月,華為輪值董事長徐直軍披露了未來三年芯片規(guī)劃:2026年一季度推出昇騰950PR,2026年四季度推出昇騰950DT,2027年四季度推出昇騰960,2028年四季度推出昇騰970。其中昇騰950PR全面支持FP8、MXFP8、HIF8、MXFP4和HIF4等低精度數(shù)據(jù)格式,F(xiàn)P8算力達1 PFLOPS,MXFP4算力高達2 PFLOPS,針對AI訓練和推理的不同需求進行優(yōu)化。
超大規(guī)模集群的核心挑戰(zhàn)在于芯片間的高效通信。傳統(tǒng)以太網(wǎng)在帶寬、時延、可靠性等方面已難以滿足萬卡級集群需求。例如,華為推出的“靈衢”(UnifiedBus)互聯(lián)協(xié)議,正是為解決這一瓶頸而生。
大模型訓練對數(shù)據(jù)吞吐能力提出極高要求。以GPT-3為例,其訓練數(shù)據(jù)集規(guī)模達570GB,訓練過程中需要頻繁讀取海量數(shù)據(jù)。阿里云推出的“滄海”統(tǒng)一存儲系統(tǒng),支持對象/文件/塊存儲融合,AI訓練數(shù)據(jù)讀取帶寬達TB級,延遲降低70%。
存儲架構的創(chuàng)新方向包括:高并發(fā)數(shù)據(jù)讀取優(yōu)化、冷熱數(shù)據(jù)分層管理、近計算存儲(Near-Data Processing)等。浪潮信息的智算集群解決方案通過優(yōu)化數(shù)據(jù)加載路徑,將數(shù)據(jù)預處理時間縮短40%,顯著提升GPU利用率。聯(lián)想集團提出的“萬全異構智算平臺”,在數(shù)據(jù)存儲環(huán)節(jié),其NetApp AFX全閃存系統(tǒng)吞吐量達457GiB/s,配合AIDE引擎與LiSA智能體,在制造業(yè)及金融等落地項目中實現(xiàn)質(zhì)檢效率提升80%、存儲成本降低30%。
算力調(diào)度是釋放集群效能的關鍵。由于算力是高度異構和非標準化的,算力調(diào)度的復雜度,要遠超水、電的調(diào)度。國家信息中心大數(shù)據(jù)發(fā)展部專家表示,英偉達、華為的AI芯片架構不同,這些AI芯片和通用的CPU(中央處理器)架構也不同。因此,不同的芯片,無法像水電那樣簡單混合使用,這給調(diào)度帶來了極高的適配難度。
調(diào)度技術的核心能力包括:細粒度租戶配額管理、任務優(yōu)先級智能排隊、斷點續(xù)訓與容錯重試、彈性資源伸縮等。
隨著單機柜功率突破50kW,傳統(tǒng)風冷技術已逼近物理極限。中國科學院院士張鎖江指出,智算中心已不可逆地邁入“兆瓦級時代”,亟需在突破芯片效能的同時,攻克高效散熱難題。
液冷技術成為主流解決方案。曙光數(shù)創(chuàng)發(fā)布的全球首個兆瓦級相變浸沒液冷整機柜,最高支持單機柜功率超過900kW,散熱能力超過200W/cm2,機房占地面積節(jié)省超85%。聯(lián)想集團的海神Neptune溫水水冷技術,通過45℃~50℃溫水循環(huán),實現(xiàn)散熱效率98%、余熱回收90%,數(shù)據(jù)中心PUE降至1.1。
挑戰(zhàn)是什么?
智算集群的快速發(fā)展背后,面臨著技術、生態(tài)、能耗、成本等多重挑戰(zhàn)。中國信通院《智算基礎設施發(fā)展研究報告》將其歸納為四大核心瓶頸。
盡管國產(chǎn)AI芯片取得長足進步,但在制程、算力性能、軟件生態(tài)等方面與國際先進水平仍存在差距。特別是在芯片制造環(huán)節(jié),先進代工能力是AI芯片的“物理基座”,當前國內(nèi)先進制程產(chǎn)能供給仍受制約。
生態(tài)短板同樣突出。英偉達CUDA生態(tài)經(jīng)過十多年發(fā)展,已成為AI開發(fā)的事實標準,擁有龐大的開發(fā)者社區(qū)和豐富的軟件工具鏈。華為的昇思MindSpore、海光的DTK軟件棧雖然在技術上不斷進步,但在全球開發(fā)者接受度和應用廣度方面仍需時間積累。
當前,智算集群普遍存在“重建設、輕運營”的問題。在“2025云網(wǎng)智聯(lián)大會”上,SNAI推委會榮譽主席、原中國電信科技委主任韋樂平表示,當前國內(nèi)智算中心已超280個,看似算力充沛,實則GPU平均利用率不足30%,且分布極不均衡。大量設施長期閑置或低效運行,暴露出典型的“有硬件、無體系”短板。
跨區(qū)域、跨行業(yè)的算力調(diào)度機制尚未健全。中國移動集團級首席專家張昊表示,從技術經(jīng)濟賬來看,有人擔心跨域調(diào)度的網(wǎng)絡成本是否會抵消掉西部電價的優(yōu)惠。如果為了省1元電費要花2元網(wǎng)費,那么調(diào)度的商業(yè)邏輯就不成立。同時,由于不同廠商的芯片架構、軟件生態(tài)存在差異,模型應用跨廠商、跨架構調(diào)度往往面臨著復雜度高和成本高的技術痛點。
中科院計算所研究員趙曉芳認為,從商業(yè)機制來看,算力資源掌握在不同的云計算廠商、電信運營商和地方國企手中。不同企業(yè)在業(yè)務上存在競爭關系,這會涉及算力定價和利益分配的難題。
智算集群已成為“電老虎”。據(jù)斯坦福人工智能研究所發(fā)布的《2023年AI指數(shù)報告》,AI大語言模型GPT-3一次訓練的耗電量為1287兆瓦時,大概相當于3000輛特斯拉電動汽車共同開跑、每輛車跑20萬英里所耗電量的總和。據(jù)中國信通院預測,到2030年,中國數(shù)據(jù)中心年用電量或?qū)⑦_到約7000億千瓦時,占全國總用電量的比例將由目前的1.7%上升到約5.3%。因此,持續(xù)完善算電協(xié)同政策體系,提升協(xié)同智能化水平與自主可控能力,健全安全保障體系成為關鍵。
建設成本同樣高昂。以萬卡級集群為例,僅AI芯片采購成本就達數(shù)億元,加上網(wǎng)絡設備、存儲系統(tǒng)、機房建設、液冷設施等投入,總投資規(guī)模往往超過10億元甚至上百億。高昂的投資門檻導致算力資源向頭部企業(yè)集聚,中小企業(yè)面臨“用不起”的困境。
誰建設?
智算集群的建設主體呈現(xiàn)多元化格局,主要包括政府、電信運營商、互聯(lián)網(wǎng)云廠商、AI科技企業(yè)等。當前,已形成“政府引導、企業(yè)主導、政企協(xié)同”的建設運營模式。政府主導建設的智算中心通常作為公共基礎設施存在,用于支持地方產(chǎn)業(yè)與AI融合,推動產(chǎn)業(yè)集群化發(fā)展。政府角色正從“直接投資者”向“規(guī)則制定者”和“生態(tài)搭建者”轉變。
![]()
中國移動、中國電信、中國聯(lián)通都制定了宏大的智算投資計劃。運營商的核心優(yōu)勢在于網(wǎng)絡基礎設施和屬地化服務能力。通過將智算中心與5G網(wǎng)絡、邊緣計算節(jié)點協(xié)同部署,運營商能夠提供"云-邊-端"一體化的AI算力服務。
互聯(lián)網(wǎng)及云廠商在智算集群建設上展現(xiàn)出強勁的技術創(chuàng)新能力。據(jù)東北證券測算,中國互聯(lián)網(wǎng)企業(yè)AI基礎設施資本開支將從2025年的1688億元增長至2030年的1.92萬億元,其中超節(jié)點占比預計從10%提升至約80%,對應超節(jié)點需求空間從253億元增至1.54萬億元。
![]()
科技巨頭的優(yōu)勢在于“算力-算法-數(shù)據(jù)”的閉環(huán)生態(tài)。字節(jié)跳動、阿里巴巴、百度等企業(yè)不僅建設大規(guī)模智算集群支撐自研大模型,還通過云服務向外輸出算力。
智算集群建設還帶動了產(chǎn)業(yè)鏈上下游的協(xié)同發(fā)展。在芯片層,華為、寒武紀、海光信息等國產(chǎn)廠商加速突破;在服務器層,浪潮信息、中科曙光、新華三等推出AI服務器新品;在散熱層,曙光數(shù)創(chuàng)、英維克、高瀾股份等液冷方案商快速崛起;在運營層,萬國數(shù)據(jù)、世紀互聯(lián)等第三方IDC廠商積極轉型智算服務。
智算集群作為人工智能時代的“新基建”,正經(jīng)歷從規(guī)模擴張向質(zhì)量提升的關鍵轉型。從國家數(shù)據(jù)局的頂層設計到華為、中國移動等企業(yè)的技術突破,從政府主導的公共算力設施到市場驅(qū)動的商業(yè)集群,多元主體共同構筑起中國智能算力的四梁八柱。
采寫:李洪力
編輯:洪力
制圖:曙念
指導:辛文
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.