網易首頁 > 網易號 > 正文申請入駐

直面數據中心“運維暴擊”，AI時代元腦服務器如何“見招拆招”

2025-02-18 08:19:28　來源: 大咖科技TechChic

北京舉報

分享至

文｜宋辰

編輯｜李薇

AI時代，數據中心正經歷一場前所未有的“進化”。

爆發的AI訓練、推理，還有大數據分析、云計算等業務，讓數據中心算力需求暴漲、能耗持續攀升，運維團隊每天都在“刀尖上跳舞”——高負載、高并行的各類應用給服務器內存、風扇、硬盤帶來“暴擊”，稍有不慎就可能造成宕機、數據丟失甚至業務中斷。

而不同的應用要運行在幾百種不同型號的異構設備上，隨著數據中心服務器規模快速攀升，大規模基礎設施的運維也面臨重重挑戰。

元腦服務器作為浪潮信息最新一代智算品牌，依托數百萬級服務器運維管理經驗，全新升級服務器智能管理功能，直面數據中心運維的多重暴擊，幫助運維團隊“見招拆招”，成為大規模數據中心運維團隊的必備“智囊”。

大咖科技

Tech Chic

數據中心運維面臨

三大“暴擊”

暴擊一：內存資源“告急”，宕機風險步步緊逼。

AI模型的訓練和推理對內存的需求堪稱“饕餮”。 AI計算任務往往涉及大規模并行計算，對內存的使用更加密集，以GPT-3為例，其訓練需要數百GB甚至TB級別的內存資源。隨著模型規模的不斷擴大，內存的需求還在持續增長。

內存資源不僅昂貴，還非常“嬌氣”。一旦出現故障，輕則影響單臺服務器的性能，重則導致整個集群的崩潰。更糟糕的是，內存故障往往難以預測，傳統的監控手段只能“事后補救”，無法做到“未卜先知”。

據統計，由服務器硬件異常導致的宕機中，高達74%是由內存故障引發的。內存故障可分為不可糾正錯誤UCE和可糾正錯誤CE，UCE故障可能會導致服務器立馬宕機。

安全研究機構波洛蒙研究所的統計結果顯示，具有一定規模的企業發生服務器宕機事件，會帶來平均每分鐘近9000美元的損失成本，小型企業的損失在每分鐘137至427美元之間。

元腦服務器全新升級的內存故障智能預警修復技術MUPR，從單端預警升級為BIOS、BMC兩級防護，通過對上萬臺服務器故障數據的建模分析和AI模型算法的訓練，實現了對內存UCE故障的精準預測和實時修復。

搭載了MUPR技術的元腦服務器，全天候、多方位監測服務器內存健康狀態，50萬臺服務器級別的數據中心，內存UCE發生率按年化1%計算，MUPR技術可以有效規避80%以上的內存UCE發生，每年節省約5400萬元的內存故障維護費用。

暴擊二：溫控壓力“爆表”，開機如起飛

算力越強，發熱量就越大。一臺高性能的服務器功耗可能高達數千瓦，相當于幾十臺普通服務器的總和。而數據中心的散熱系統往往“跟不上節奏”，導致服務器溫度過高，性能下降甚至硬件損壞。

光聽服務器開機的聲音以為是“飛機起飛”。“明明剛開機，服務器內部各個部件還未完全上電，風扇轉速為什么要拉滿？”運維人員大為不解卻無可奈何。而且，伴隨著風扇的呼嘯聲，服務器啟動“龜速”，開機時間要三五分鐘甚至更久。

癥結就在于，服務器傳統控溫策略中為了盡可能滿足散熱安全性要求，上電之后會以最大配置的方式來進行風扇速度調節，而此時BMC Linux系統尚未啟動，熱量傳感器數據無法采集，導致風扇滿載狀態會持續較長時間，帶來能耗、噪音的攀升和穩定性的降低。而且，為了避免開機過程中散熱風險，一般會設置等待BMC Linux系統啟動完成后再啟動POST過程，導致服務器從AC上電到進入OS的時間被拉長。

元腦服務器首創服務器開機3秒智能控溫技術，通過BMC Linux/RTOS異構雙系統并行管理技術，實現了上電即開機，開機時間縮短一半以上。同時，該技術通過實時感知環境溫度，動態調控風扇轉速，噪音比優化前最大下降30.4%，開機功耗也可大幅降低。

暴擊三：硬盤故障“頻發”，數據安全岌岌可危

AI時代，數據就是“命根子”。然而，隨著數據量的爆炸式增長，硬盤的故障率也在不斷上升。一塊硬盤的故障可能導致數TB的數據丟失，而數據恢復的時間成本和經濟成本都高得驚人。

某互聯網大廠的數據中心4年內的29萬次硬件故障中，硬盤故障占比高達81.84%。一旦硬盤故障，就會導致陣列降級，讀寫性能下降，期間還會存在二次掉盤導致的數據丟失風險。雖然傳統存儲有RAID、副本等機制，但是數據重建過程中要使用大量IO資源，而且重建時間很長，往往以天計算，這會對業務連續性造成嚴重影響。

傳統的硬盤監控手段往往只能“亡羊補牢”，無法提前預警。更糟糕的是，硬盤故障的排查和修復需要大量人力，運維團隊常常疲于奔命，類似于中醫“治未病”理念的準確預測成為硬盤真正“硬”起來的最優解。

根據當前技術規范，服務器系統可提取的硬盤參數大約60多種，這是磁盤故障判斷的基礎。元腦服務器的研發工程師們選擇采用AI算法技術來建立硬盤的失效預測模型。模型累計分析了超過300億條故障特征數據，引入GAN、XGBoost、PCCs算法，基于567種預處理參數的近百種模型組合，以匹配不同型號、不同廠商的硬盤，最終實現最優的失效模型建模。

目前，元腦服務器已經實現HDD故障預測、SSD壽命預測，提前14天預測風險盤，故障預測準確率超95%，誤報率小于1%。

大咖科技

Tech Chic

設備規模爆發，

大規模數據中心運維新挑戰

一方面，數據中心運維的三大“暴擊”依舊需要面對，另一方面，AI時代的算力需求，讓數據中心的設備規模快速攀升，基礎設施運維管理面臨全新挑戰。

在大規模數據中心，隨著業務量的快速增長，服務器數量爆發式增長，設備規模從最初的1000臺逐漸增加到10萬臺，規模擴大了100倍，涵蓋了不同年代和廠商的服務器、存儲、網絡設備等，設備種類多，內存、電源、硬盤、風扇等各類故障發生的不確定性大。

以擁有10萬+設備的大規模數據中心為例，每日產生近30TB的設備運行狀態、億級監控指標、數千條告警推送等。如何秒級反饋海量并發需求，保證管理平臺穩定運行；如何避免將每秒近千條的大規模設備告警風暴強塞給客戶，進行根因定位并避免誤報、漏報。這些挑戰正伴隨服務器、存儲和網絡設備規模的持續增長，成為超大規模數據中心管理亟待解決的難題。

在最近的一項調查中，57%的數據中心所有者表示，他們會相信人工智能模型來做出運營決策，借助智能平臺來簡化日常運維——這比上一年增長了近20%。

面對數據中心大規模的設備運維管理需求，元腦服務器數據中心基礎設施管理平臺結合在數據中心大規模IT設備運維實踐經驗，通過統一接口、協議，能夠納管多達400種不同廠商、不同型號的服務器、存儲、網絡等機型，設備規模最多可達10萬臺，不僅創造了金融行業單一數據中心帶外管理的最大紀錄，還實現了數據中心基礎設施全生命周期管理，整體運維效率提升兩倍，為超大規模數據中心運維提供智能均衡調度、實時精準告警等管理功能；同時在智能化方面，管理平臺通過智能均衡作業調度平臺，能夠在秒級內處理超大規模數據中心億級實時并發運維管理數據，并基于自研的告警管理框架，實現5秒內響應上千條告警風暴，顯著降低告警誤報與漏報的風險。

目前，元腦服務器和基礎設施管理平臺的全新智能升級，已在海內外收獲了廣泛的認可，為全球互聯網、金融、通信、IT、教科研等用戶的數據中心，提供了數字化、智能化的運維服務，保障數據中心業務安全、穩定地運行。

未來，隨著AI技術的進一步成熟，數據中心的運維工作將從“人力密集型”持續向“技術密集型”轉型。元腦服務器將以技術創新為驅動，助力數據中心在AI時代“乘風破浪“，為基礎設施的數智化轉型提供更加智能、高效、穩定、可靠的算力產品，加速智能時代的到來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.