![]()
文|宋辰
編輯|李薇
AI時代,數據中心正經歷一場前所未有的“進化”。
爆發的AI訓練、推理,還有大數據分析、云計算等業務,讓數據中心算力需求暴漲、能耗持續攀升,運維團隊每天都在“刀尖上跳舞”——高負載、高并行的各類應用給服務器內存、風扇、硬盤帶來“暴擊”,稍有不慎就可能造成宕機、數據丟失甚至業務中斷。
而不同的應用要運行在幾百種不同型號的異構設備上,隨著數據中心服務器規模快速攀升,大規模基礎設施的運維也面臨重重挑戰。
元腦服務器作為浪潮信息最新一代智算品牌,依托數百萬級服務器運維管理經驗,全新升級服務器智能管理功能,直面數據中心運維的多重暴擊,幫助運維團隊“見招拆招”,成為大規模數據中心運維團隊的必備“智囊”。
大咖科技
Tech Chic
數據中心運維面臨
三大“暴擊”
暴擊一:內存資源“告急”,宕機風險步步緊逼。
AI模型的訓練和推理對內存的需求堪稱“饕餮”。 AI計算任務往往涉及大規模并行計算,對內存的使用更加密集,以GPT-3為例,其訓練需要數百GB甚至TB級別的內存資源。隨著模型規模的不斷擴大,內存的需求還在持續增長。
內存資源不僅昂貴,還非常“嬌氣”。一旦出現故障,輕則影響單臺服務器的性能,重則導致整個集群的崩潰。更糟糕的是,內存故障往往難以預測,傳統的監控手段只能“事后補救”,無法做到“未卜先知”。
據統計,由服務器硬件異常導致的宕機中,高達74%是由內存故障引發的。內存故障可分為不可糾正錯誤UCE和可糾正錯誤CE,UCE故障可能會導致服務器立馬宕機。
安全研究機構波洛蒙研究所的統計結果顯示,具有一定規模的企業發生服務器宕機事件,會帶來平均每分鐘近9000美元的損失成本,小型企業的損失在每分鐘137至427美元之間。
元腦服務器全新升級的內存故障智能預警修復技術MUPR,從單端預警升級為BIOS、BMC兩級防護,通過對上萬臺服務器故障數據的建模分析和AI模型算法的訓練,實現了對內存UCE故障的精準預測和實時修復。
搭載了MUPR技術的元腦服務器,全天候、多方位監測服務器內存健康狀態,50萬臺服務器級別的數據中心,內存UCE發生率按年化1%計算,MUPR技術可以有效規避80%以上的內存UCE發生,每年節省約5400萬元的內存故障維護費用。
![]()
暴擊二:溫控壓力“爆表”,開機如起飛
算力越強,發熱量就越大。一臺高性能的服務器功耗可能高達數千瓦,相當于幾十臺普通服務器的總和。而數據中心的散熱系統往往“跟不上節奏”,導致服務器溫度過高,性能下降甚至硬件損壞。
光聽服務器開機的聲音以為是“飛機起飛”。“明明剛開機,服務器內部各個部件還未完全上電,風扇轉速為什么要拉滿?”運維人員大為不解卻無可奈何。而且,伴隨著風扇的呼嘯聲,服務器啟動“龜速”,開機時間要三五分鐘甚至更久。
癥結就在于,服務器傳統控溫策略中為了盡可能滿足散熱安全性要求,上電之后會以最大配置的方式來進行風扇速度調節,而此時BMC Linux系統尚未啟動,熱量傳感器數據無法采集,導致風扇滿載狀態會持續較長時間,帶來能耗、噪音的攀升和穩定性的降低。而且,為了避免開機過程中散熱風險,一般會設置等待BMC Linux系統啟動完成后再啟動POST過程,導致服務器從AC上電到進入OS的時間被拉長。
元腦服務器首創服務器開機3秒智能控溫技術,通過BMC Linux/RTOS異構雙系統并行管理技術,實現了上電即開機,開機時間縮短一半以上。同時,該技術通過實時感知環境溫度,動態調控風扇轉速,噪音比優化前最大下降30.4%,開機功耗也可大幅降低。
![]()
暴擊三:硬盤故障“頻發”,數據安全岌岌可危
AI時代,數據就是“命根子”。然而,隨著數據量的爆炸式增長,硬盤的故障率也在不斷上升。一塊硬盤的故障可能導致數TB的數據丟失,而數據恢復的時間成本和經濟成本都高得驚人。
某互聯網大廠的數據中心4年內的29萬次硬件故障中,硬盤故障占比高達81.84%。一旦硬盤故障,就會導致陣列降級,讀寫性能下降,期間還會存在二次掉盤導致的數據丟失風險。雖然傳統存儲有RAID、副本等機制,但是數據重建過程中要使用大量IO資源,而且重建時間很長,往往以天計算,這會對業務連續性造成嚴重影響。
傳統的硬盤監控手段往往只能“亡羊補牢”,無法提前預警。更糟糕的是,硬盤故障的排查和修復需要大量人力,運維團隊常常疲于奔命,類似于中醫“治未病”理念的準確預測成為硬盤真正“硬”起來的最優解。
根據當前技術規范,服務器系統可提取的硬盤參數大約60多種,這是磁盤故障判斷的基礎。元腦服務器的研發工程師們選擇采用AI算法技術來建立硬盤的失效預測模型。模型累計分析了超過300億條故障特征數據,引入GAN、XGBoost、PCCs算法,基于567種預處理參數的近百種模型組合,以匹配不同型號、不同廠商的硬盤,最終實現最優的失效模型建模。
目前,元腦服務器已經實現HDD故障預測、SSD壽命預測,提前14天預測風險盤,故障預測準確率超95%,誤報率小于1%。
![]()
大咖科技
Tech Chic
設備規模爆發,
大規模數據中心運維新挑戰
一方面,數據中心運維的三大“暴擊”依舊需要面對,另一方面,AI時代的算力需求,讓數據中心的設備規模快速攀升,基礎設施運維管理面臨全新挑戰。
在大規模數據中心,隨著業務量的快速增長,服務器數量爆發式增長,設備規模從最初的1000臺逐漸增加到10萬臺,規模擴大了100倍,涵蓋了不同年代和廠商的服務器、存儲、網絡設備等,設備種類多,內存、電源、硬盤、風扇等各類故障發生的不確定性大。
以擁有10萬+設備的大規模數據中心為例,每日產生近30TB的設備運行狀態、億級監控指標、數千條告警推送等。如何秒級反饋海量并發需求,保證管理平臺穩定運行;如何避免將每秒近千條的大規模設備告警風暴強塞給客戶,進行根因定位并避免誤報、漏報。這些挑戰正伴隨服務器、存儲和網絡設備規模的持續增長,成為超大規模數據中心管理亟待解決的難題。
在最近的一項調查中,57%的數據中心所有者表示,他們會相信人工智能模型來做出運營決策,借助智能平臺來簡化日常運維——這比上一年增長了近20%。
面對數據中心大規模的設備運維管理需求,元腦服務器數據中心基礎設施管理平臺結合在數據中心大規模IT設備運維實踐經驗,通過統一接口、協議,能夠納管多達400種不同廠商、不同型號的服務器、存儲、網絡等機型,設備規模最多可達10萬臺,不僅創造了金融行業單一數據中心帶外管理的最大紀錄,還實現了數據中心基礎設施全生命周期管理,整體運維效率提升兩倍,為超大規模數據中心運維提供智能均衡調度、實時精準告警等管理功能;同時在智能化方面,管理平臺通過智能均衡作業調度平臺,能夠在秒級內處理超大規模數據中心億級實時并發運維管理數據,并基于自研的告警管理框架,實現5秒內響應上千條告警風暴,顯著降低告警誤報與漏報的風險。
![]()
目前,元腦服務器和基礎設施管理平臺的全新智能升級,已在海內外收獲了廣泛的認可,為全球互聯網、金融、通信、IT、教科研等用戶的數據中心,提供了數字化、智能化的運維服務,保障數據中心業務安全、穩定地運行。
未來,隨著AI技術的進一步成熟,數據中心的運維工作將從“人力密集型”持續向“技術密集型”轉型。元腦服務器將以技術創新為驅動,助力數據中心在AI時代“乘風破浪“,為基礎設施的數智化轉型提供更加智能、高效、穩定、可靠的算力產品,加速智能時代的到來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.