筑基AI+：四問智算集群

2026-04-27 16:59:58　來源: 通信產(chǎn)業(yè)報

北京舉報

分享至

智算集群正經(jīng)歷從“千卡級”向“萬卡級”乃至“十萬卡級”的跨越式發(fā)展。

伴隨全球人工智能產(chǎn)業(yè)加速演進，國內(nèi)基礎設施建設正告別粗放式規(guī)模擴張，全面邁向智能化升級新階段。以算力網(wǎng)絡、新一代通信網(wǎng)絡為核心的信息基礎設施，已然成為穩(wěn)定有效投資、培育壯大新質(zhì)生產(chǎn)力的關鍵支撐與核心引擎。智算集群作為 AI 時代的 “超級大腦工廠”，正從單點試點走向規(guī)模化落地，成為支撐大模型訓練、產(chǎn)業(yè)智能化升級的核心底座。

從國家數(shù)據(jù)局《數(shù)字中國建設2025年行動方案》到國務院《關于深入實施“人工智能+”行動的意見》，再到2026年政府工作報告，政策層面已將智算集群建設提升至國家戰(zhàn)略高度。《通信產(chǎn)業(yè)報》全媒體研究組從“智算集群是什么、關鍵有哪些、挑戰(zhàn)有幾個、誰來干”四個維度，深度解析智算集群的發(fā)展現(xiàn)狀與未來路徑。

是什么？

2026年政府工作報告提出“實施超大規(guī)模智算集群、算電協(xié)同等新基建工程，加強全國一體化算力監(jiān)測調(diào)度，支持公共云發(fā)展”。目前，中國已建成42個萬卡級智算集群，智能算力總規(guī)模超過1590EFLOPS，該體系已被納入國家“東數(shù)西算”工程整體布局。

智算集群是專門用于人工智能（AI）模型訓練與推理的高性能計算資源集合，由大量 GPU（或?qū)Ｓ?AI 芯片）、高速網(wǎng)絡、存儲系統(tǒng)和調(diào)度軟件協(xié)同組成，是支撐大模型、生成式 AI、自動駕駛、科學智能等前沿應用的 “數(shù)字底座”。作為 AI 產(chǎn)業(yè)的核心基礎設施，智算集群區(qū)別于傳統(tǒng)數(shù)據(jù)中心和通用超算集群，具備高密度算力、極致通信、綠色低碳、軟硬協(xié)同四大核心特征。

從定義內(nèi)涵看，智算集群區(qū)別于傳統(tǒng)數(shù)據(jù)中心的核心特征在于“三專”：專用AI芯片架構、專用高速互聯(lián)協(xié)議、專用軟件棧優(yōu)化。從技術演進脈絡看，智算集群正經(jīng)歷從“千卡級”向“萬卡級”乃至“十萬卡級”的跨越式發(fā)展。從功能定位看，智算集群正在從“算力堆砌”向“智能調(diào)度”轉變。傳統(tǒng)的算力供給模式側重于硬件堆砌，而新一代智算集群強調(diào)軟硬件協(xié)同優(yōu)化。

關鍵有哪些？

智算集群的建設是一項復雜的系統(tǒng)工程，其關鍵技術可歸納為“算、聯(lián)、存、調(diào)、散”五大核心環(huán)節(jié)。

AI芯片是智算集群的算力源泉。當前主流路徑包括通用GPU（圖形處理器）和ASIC（專用集成電路）兩大技術路線。目前來看，英偉達憑借CUDA生態(tài)在通用GPU領域占據(jù)主導地位，而寒武紀等國內(nèi)企業(yè)則聚焦ASIC路線。

通過專用架構實現(xiàn)特定場景的高效計算。華為昇騰系列芯片的技術演進頗具代表性。2025年9月，華為輪值董事長徐直軍披露了未來三年芯片規(guī)劃：2026年一季度推出昇騰950PR，2026年四季度推出昇騰950DT，2027年四季度推出昇騰960，2028年四季度推出昇騰970。其中昇騰950PR全面支持FP8、MXFP8、HIF8、MXFP4和HIF4等低精度數(shù)據(jù)格式，F(xiàn)P8算力達1 PFLOPS，MXFP4算力高達2 PFLOPS，針對AI訓練和推理的不同需求進行優(yōu)化。

超大規(guī)模集群的核心挑戰(zhàn)在于芯片間的高效通信。傳統(tǒng)以太網(wǎng)在帶寬、時延、可靠性等方面已難以滿足萬卡級集群需求。例如，華為推出的“靈衢”（UnifiedBus）互聯(lián)協(xié)議，正是為解決這一瓶頸而生。

大模型訓練對數(shù)據(jù)吞吐能力提出極高要求。以GPT-3為例，其訓練數(shù)據(jù)集規(guī)模達570GB，訓練過程中需要頻繁讀取海量數(shù)據(jù)。阿里云推出的“滄海”統(tǒng)一存儲系統(tǒng)，支持對象/文件/塊存儲融合，AI訓練數(shù)據(jù)讀取帶寬達TB級，延遲降低70%。

存儲架構的創(chuàng)新方向包括：高并發(fā)數(shù)據(jù)讀取優(yōu)化、冷熱數(shù)據(jù)分層管理、近計算存儲（Near-Data Processing）等。浪潮信息的智算集群解決方案通過優(yōu)化數(shù)據(jù)加載路徑，將數(shù)據(jù)預處理時間縮短40%，顯著提升GPU利用率。聯(lián)想集團提出的“萬全異構智算平臺”，在數(shù)據(jù)存儲環(huán)節(jié)，其NetApp AFX全閃存系統(tǒng)吞吐量達457GiB/s，配合AIDE引擎與LiSA智能體，在制造業(yè)及金融等落地項目中實現(xiàn)質(zhì)檢效率提升80%、存儲成本降低30%。

算力調(diào)度是釋放集群效能的關鍵。由于算力是高度異構和非標準化的，算力調(diào)度的復雜度，要遠超水、電的調(diào)度。國家信息中心大數(shù)據(jù)發(fā)展部專家表示，英偉達、華為的AI芯片架構不同，這些AI芯片和通用的CPU（中央處理器）架構也不同。因此，不同的芯片，無法像水電那樣簡單混合使用，這給調(diào)度帶來了極高的適配難度。

調(diào)度技術的核心能力包括：細粒度租戶配額管理、任務優(yōu)先級智能排隊、斷點續(xù)訓與容錯重試、彈性資源伸縮等。

隨著單機柜功率突破50kW，傳統(tǒng)風冷技術已逼近物理極限。中國科學院院士張鎖江指出，智算中心已不可逆地邁入“兆瓦級時代”，亟需在突破芯片效能的同時，攻克高效散熱難題。

液冷技術成為主流解決方案。曙光數(shù)創(chuàng)發(fā)布的全球首個兆瓦級相變浸沒液冷整機柜，最高支持單機柜功率超過900kW，散熱能力超過200W/cm2，機房占地面積節(jié)省超85%。聯(lián)想集團的海神Neptune溫水水冷技術，通過45℃~50℃溫水循環(huán)，實現(xiàn)散熱效率98%、余熱回收90%，數(shù)據(jù)中心PUE降至1.1。

挑戰(zhàn)是什么？

智算集群的快速發(fā)展背后，面臨著技術、生態(tài)、能耗、成本等多重挑戰(zhàn)。中國信通院《智算基礎設施發(fā)展研究報告》將其歸納為四大核心瓶頸。

盡管國產(chǎn)AI芯片取得長足進步，但在制程、算力性能、軟件生態(tài)等方面與國際先進水平仍存在差距。特別是在芯片制造環(huán)節(jié)，先進代工能力是AI芯片的“物理基座”，當前國內(nèi)先進制程產(chǎn)能供給仍受制約。

生態(tài)短板同樣突出。英偉達CUDA生態(tài)經(jīng)過十多年發(fā)展，已成為AI開發(fā)的事實標準，擁有龐大的開發(fā)者社區(qū)和豐富的軟件工具鏈。華為的昇思MindSpore、海光的DTK軟件棧雖然在技術上不斷進步，但在全球開發(fā)者接受度和應用廣度方面仍需時間積累。

當前，智算集群普遍存在“重建設、輕運營”的問題。在“2025云網(wǎng)智聯(lián)大會”上，SNAI推委會榮譽主席、原中國電信科技委主任韋樂平表示，當前國內(nèi)智算中心已超280個，看似算力充沛，實則GPU平均利用率不足30%，且分布極不均衡。大量設施長期閑置或低效運行，暴露出典型的“有硬件、無體系”短板。

跨區(qū)域、跨行業(yè)的算力調(diào)度機制尚未健全。中國移動集團級首席專家張昊表示，從技術經(jīng)濟賬來看，有人擔心跨域調(diào)度的網(wǎng)絡成本是否會抵消掉西部電價的優(yōu)惠。如果為了省1元電費要花2元網(wǎng)費，那么調(diào)度的商業(yè)邏輯就不成立。同時，由于不同廠商的芯片架構、軟件生態(tài)存在差異，模型應用跨廠商、跨架構調(diào)度往往面臨著復雜度高和成本高的技術痛點。

中科院計算所研究員趙曉芳認為，從商業(yè)機制來看，算力資源掌握在不同的云計算廠商、電信運營商和地方國企手中。不同企業(yè)在業(yè)務上存在競爭關系，這會涉及算力定價和利益分配的難題。

智算集群已成為“電老虎”。據(jù)斯坦福人工智能研究所發(fā)布的《2023年AI指數(shù)報告》，AI大語言模型GPT-3一次訓練的耗電量為1287兆瓦時，大概相當于3000輛特斯拉電動汽車共同開跑、每輛車跑20萬英里所耗電量的總和。據(jù)中國信通院預測，到2030年，中國數(shù)據(jù)中心年用電量或?qū)⑦_到約7000億千瓦時，占全國總用電量的比例將由目前的1.7%上升到約5.3%。因此，持續(xù)完善算電協(xié)同政策體系，提升協(xié)同智能化水平與自主可控能力，健全安全保障體系成為關鍵。

建設成本同樣高昂。以萬卡級集群為例，僅AI芯片采購成本就達數(shù)億元，加上網(wǎng)絡設備、存儲系統(tǒng)、機房建設、液冷設施等投入，總投資規(guī)模往往超過10億元甚至上百億。高昂的投資門檻導致算力資源向頭部企業(yè)集聚，中小企業(yè)面臨“用不起”的困境。

誰建設？

智算集群的建設主體呈現(xiàn)多元化格局，主要包括政府、電信運營商、互聯(lián)網(wǎng)云廠商、AI科技企業(yè)等。當前，已形成“政府引導、企業(yè)主導、政企協(xié)同”的建設運營模式。政府主導建設的智算中心通常作為公共基礎設施存在，用于支持地方產(chǎn)業(yè)與AI融合，推動產(chǎn)業(yè)集群化發(fā)展。政府角色正從“直接投資者”向“規(guī)則制定者”和“生態(tài)搭建者”轉變。

中國移動、中國電信、中國聯(lián)通都制定了宏大的智算投資計劃。運營商的核心優(yōu)勢在于網(wǎng)絡基礎設施和屬地化服務能力。通過將智算中心與5G網(wǎng)絡、邊緣計算節(jié)點協(xié)同部署，運營商能夠提供"云-邊-端"一體化的AI算力服務。

互聯(lián)網(wǎng)及云廠商在智算集群建設上展現(xiàn)出強勁的技術創(chuàng)新能力。據(jù)東北證券測算，中國互聯(lián)網(wǎng)企業(yè)AI基礎設施資本開支將從2025年的1688億元增長至2030年的1.92萬億元，其中超節(jié)點占比預計從10%提升至約80%，對應超節(jié)點需求空間從253億元增至1.54萬億元。

科技巨頭的優(yōu)勢在于“算力-算法-數(shù)據(jù)”的閉環(huán)生態(tài)。字節(jié)跳動、阿里巴巴、百度等企業(yè)不僅建設大規(guī)模智算集群支撐自研大模型，還通過云服務向外輸出算力。

智算集群建設還帶動了產(chǎn)業(yè)鏈上下游的協(xié)同發(fā)展。在芯片層，華為、寒武紀、海光信息等國產(chǎn)廠商加速突破；在服務器層，浪潮信息、中科曙光、新華三等推出AI服務器新品；在散熱層，曙光數(shù)創(chuàng)、英維克、高瀾股份等液冷方案商快速崛起；在運營層，萬國數(shù)據(jù)、世紀互聯(lián)等第三方IDC廠商積極轉型智算服務。

智算集群作為人工智能時代的“新基建”，正經(jīng)歷從規(guī)模擴張向質(zhì)量提升的關鍵轉型。從國家數(shù)據(jù)局的頂層設計到華為、中國移動等企業(yè)的技術突破，從政府主導的公共算力設施到市場驅(qū)動的商業(yè)集群，多元主體共同構筑起中國智能算力的四梁八柱。

采寫：李洪力

編輯：洪力

制圖：曙念

指導：辛文

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機 / 數(shù)碼

房產(chǎn) / 家居

筑基AI+：四問智算集群