<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      HPC迎來AI大考,鯤鵬如何為開發者“減負”?|甲子光年

      0
      分享至



      一場科研生產力的深度革命。

      作者|劉楊楠

      編輯|栗子

      在科研計算領域,傳統HPC的優化路徑正在逐漸逼近效率與成本的雙重邊界。

      長期以來,HPC的核心方法論,是在明確物理方程與數值模型的前提下,通過規模化并行計算逼近唯一解。這一范式在流體力學、材料計算、分子模擬等領域取得了巨大成功,但其前提是:計算過程高度規則、算子結構穩定、通信模式可預測。

      然而,隨著AI4S(AI for Science)逐步深入科研主流工作流,這一前提正在被打破。越來越多的科研任務不再僅僅依賴傳統數值求解,而是引入深度學習模型、統計推斷與數據驅動方法,形成HPC+AI的混合計算形態。

      這類負載呈現出算子碎片化、計算圖驅動、混合精度以及動態負載不均衡等特征,使得單純依靠“更大規模并行”已難以獲得線性收益。

      正是在這一背景下,HPC的問題不再只是“算得夠不夠快”,而是演變為一個軟硬件協同的系統性問題,例如,硬件如何更好地支撐多樣化負載?軟件如何在不增加開發復雜度的前提下釋放硬件潛力?

      為此,鯤鵬CPU處理器及其配套軟件棧的協同設計,正是為了從根本上回應這一系統性問題,重新定義HPC+AI4S的開發體驗。

      1.鯤鵬如何重寫HPC+AI4S開發范式?

      面對HPC+AI4S的系統性挑戰,鯤鵬也給出了與之對應的系統性解決方案,即構建“硬件提供潛力、軟件釋放能力”的協同體系。

      作為一顆面向HPC與AI4S多元負載的服務器CPU,鯤鵬920 72F8采用眾核架構,支持向量與矩陣計算擴展,并配備高帶寬片上內存與大容量DDR內存的混合內存體系,能夠同時滿足高精度科學計算與AI4S場景下的吞吐需求。

      但在AI4S負載下,硬件能力并不會自動轉化為應用性能。高度動態的算子調用、頻繁變化的數據依賴關系,使得單純依賴“更多核心”或“更高帶寬”往往難以持續提升效率。

      真正決定開發者部署體驗的核心,是圍繞處理器構建的軟件棧,能否將硬件特性轉化為開發者無感的性能收益。這便引出了鯤鵬通過軟硬協同的系統性方案,重新定義HPC+AI4S開發范式的核心思路。

      具體來看,鯤鵬軟件棧并未選擇通過某一個“明星組件”解決所有問題,而是以HPCKit為核心,構建了一套面向HPC與AI負載的系統級協同優化體系。在這一體系中,領域加速庫、鯤鵬數學庫(Kunpeng Math Library,KML)、Hyper MPI、KUPL(Kunpeng Unified Parallel Library,鯤鵬統一并行庫)、畢昇編譯器,并非孤立存在,而是通過版本選擇、參數配置與調用路徑上的整體協同,使能應用在精度與性能上的綜合最優。

      這種“基礎組件最優協同”的思路,改變了傳統HPC軟件棧中由開發者負責大量拼裝與調優工作的模式。對于應用而言,HPCKit提供的是一個已經在鯤鵬平臺上完成系統級驗證的“性能基線”。

      作為這一協同體系的性能基石,畢昇編譯器的作用至關重要。它是面向數據中心場景的高性能編譯器,支持主流系統語言和芯片架構,是將鯤鵬硬件特性高效映射到上層應用的關鍵橋梁。

      不過,在工程實踐中,性能并非唯一指標。對于大多數科研與工程團隊而言,部署成本、遷移成本與維護復雜度同樣關鍵。

      HPCKit在設計之初,便將“高易用性”作為核心目標之一。通過一鍵集成部署能力,HPCKit將領域加速庫、數學庫、通信庫、并行編程框架以及編譯器多組件整合為統一的軟件套件,使開發者無需在不同組件之間反復適配與調優。

      在數學計算層面,鯤鵬數學庫基于鯤鵬平臺,通過數據預取、編譯優化與數據重排等手段,顯著提升基礎數學函數性能。同時,KML保持了對FFTW、LAPACK、ScaLAPACK等主流接口的兼容,使得大量既有應用僅需修改鏈接庫,即可完成遷移。

      這種“對上透明、對下深度優化”的設計,使得高性能不再依賴于開發者對底層硬件細節的高度敏感。

      此外,針對AI4S領域越來越多的高并行負載需求,鯤鵬在2025年9月的華為全聯接大會上開源KUPL,與編譯器、數學庫、通信機制的協同下,支撐更復雜的并行與調度需求。

      軟硬件的協同作戰,也使得在鯤鵬通用CPU平臺上開發與優化復雜AI4S應用(如AlphaFold)的工作,從一項高度定制化的手藝活,轉變為一項更高效、更具可復制性的系統工程,更極致地釋放了自主算力平臺的潛在性能。

      軟硬協同的設計理念為應對混合負載提供了新思路,但其能否經受考驗,首要在于能否攻克當前科研中依賴GPU的應用,例如蛋白質結構預測模型AlphaFold。

      「甲子光年」關注到,北京航空航天大學楊海龍團隊基于鯤鵬920 72F8優化了AlphaFold2的計算效率,可以看作檢驗鯤鵬HPC解決方案能否在真實科研場景中發揮作用的關鍵案例。

      2.AlphaFold:鯤鵬答案在AI4S場景下的現實檢驗

      作為蛋白質結構預測領域的里程碑,AlphaFold2(AF2)作為AI4S的典型成果,其推理過程屬于典型AI負載,已成為現代科研工作流中不可或缺的環節。

      從HPC模擬生成數據到AI模型分析預測,再到結果反饋驗證的閉環中,優化此類純AI模型的運行效率,正是打通HPC+AI4S全流程的關鍵一環。

      北京航空航天大學楊海龍團隊基于鯤鵬920 72F8,對AlphaFold2進行了系統性優化。

      在制定具體優化策略之前,楊海龍團隊首先對模型不同模塊的計算占比進行了系統分析,以明確優化投入的主要方向。

      團隊發現,在AlphaFold2的推理過程中,NoExtraEvoformer模塊占據了約68%的整體推理時間,是決定端到端性能的核心瓶頸。這一判斷,為后續所有算子級與系統級優化提供了清晰的目標邊界。

      鎖定瓶頸模塊后,楊海龍團隊將優化重點放在以GatingAttention為代表的核心算子上。團隊采用精細化的混合精度策略:在確保Softmax等數值敏感操作保持高精度的前提下,將大部分計算轉換為FP16格式執行。

      在混合精度策略下,楊海龍團隊從空間局部性、算子融合、向量化、通信以及Structure模塊五個維度,對AlphaFold 2模型的GatingAttention算子進行系統性優化。

      具體來看,在GatingAttention中,查詢(q)、鍵(k)、值(v)向量對應的數據在某些階段中往往指向相同的底層數據。

      在優化前,該輸入張量需要被重復讀取三次;優化后,系統可以檢測到相同的輸入,僅進行一次讀取,并連續完成q、k、v的全部計算。這一調整直接將內存訪問次數減少至原來的三分之一,大幅降低了訪存開銷。

      對于OuterProductMean等包含連續矩陣乘法(GEMM)的算子,楊海龍團隊并未直接在原始數據布局上執行計算。

      相反,團隊在計算前將數據分塊復制至連續的臨時緩沖區,并按照下一步計算最優的訪問順序進行預排列。這確保了數據在高速緩存中以最友好的方式存放,后續計算能夠連續、高速地訪問數據,避免因跨區域跳躍訪問而引發的緩存失效。

      這套策略不是在計算開始后才去搬數據,而是在計算前主動規劃、重組數據,將其放置在更近、更順暢的位置。開發者無需手動實現復雜的緩沖區管理和數據重排,只需調用優化后的算子,即可自動獲得這些收益。

      在向量化方面,sigmoid、softmax等函數需要對大量數據獨立進行相同的數學運算,而原生實現僅采用標量實現或簡單的OpenMP多線程加速,無法充分發揮強大的鯤鵬算力。團隊基于ARM的SVE指令集,對softmax與sigmoid函數進行了從底層重構的向量化優化,顯著提高了優化效果。

      在通信與并行層面,鯤鵬920 72F8采用多NUMA架構,單一進程難以有效利用全部計算資源。同時,PyTorch原生多進程通信機制在該場景下性能不足,為此,楊海龍團隊重構了推理流程:放棄單進程模式,轉向多進程并行推理;繞過標準通信路徑,基于共享內存重新實現alltoall與allgather接口,這些接口算子在設計之初便結合AI4S數據形態進行優化,顯著降低了跨進程通信開銷。

      在上述一系列優化工作后,楊海龍團隊發現,Structure模塊的推理時間占比反而逐漸升高。這是由于Structure模塊是基于JAX實現的。

      JAX是Google開發的一個用于高性能數值計算和機器學習研究的Python庫,其特性十分適合實現蛋白質折疊這樣結構復雜的模型,因此被DeepMind用來作為AlphaFold 2的初始框架。

      然而,JAX模塊幾乎沒有利用CPU的多核并行能力。另外,楊海龍團隊此前一系列優化工作已將模型其他主要部分(如Evoformer)已在PyTorch上進行了深度優化,如果保留一個獨立的JAX模塊,便破壞了計算圖的完整性和優化連續性。兩個框架間的數據交換和調度會帶來額外開銷。

      因此,楊海龍團隊將Structure模塊從JAX遷移至PyTorch,并將模塊內的核心計算層(Linear層)替換為團隊已高度優化的實現。

      在上述一系列優化的基礎上,AlphaFold 2在鯤鵬920 72F8處理器上的端到端推理時間,從令人望而卻步的1332秒縮短至88秒,實現了超過15倍的性能飛躍,同時保證計算精度不受損。

      總體上看,楊海龍團隊的優化,本質上是針對大模型推理中常見的計算密集型算子(Attention)、訪存瓶頸和并行調度效率這一系列通用問題進行的。

      HPCKit、KUPL等工具的價值,正是將這些針對特定問題的優化經驗,沉淀為可被其他AI4S應用(如材料模擬中的圖神經網絡、流體仿真中的物理信息神經網絡)直接調用的通用能力。

      同時,我們必須指出,此次優化雖然展示了鯤鵬CPU在運行復雜AI模型時的巨大潛力與上限,但并不意味著宣稱CPU在所有場景下均優于GPU。其價值在于,提供了一個高性能、可選的自主算力底座,豐富了科研團隊的選擇。

      AlphaFold3發布后,算子形態更復雜、調用路徑更深,對多進程并行效率、高頻通信及內存管理提出更高要求。于是,在楊海龍團隊的優化思路上,鯤鵬研發團隊進一步從平臺視角,基于KUPL對AlphaFold3的并行與通信路徑進行增強。

      具體來看,在并行層面,鯤鵬團隊將模型重構為多進程模式并由KUPL統一調度;在通信層面,針對AI4S場景中矩陣動態變化的特點,基于KUPL的共享內存機制,重構了alltoall等通信算子,將數據搬運與轉置操作融合,將通信時延降低90%以上;在算子層面,借鑒Flash Attention思路,重構了關鍵注意力算子的計算與訪存路徑。

      這些工作并不改變應用邏輯,而是通過平臺能力的增強,釋放前一階段優化的潛在空間,體現出系統級協同設計的價值。

      AlphaFold的案例證明了,通過系統優化,CPU能有效處理計算圖復雜、通信密集的AI負載。這一范式是否具有普適性?答案是肯定的。從分子動力學到工業仿真,不同領域的科研應用正沿著相似的“系統協同優化”路徑,在鯤鵬平臺上實現突破。

      3.重構中的HPC開發生態

      當HPC的開發重心從單純追求硬件峰值性能,轉向圍繞負載特征與開發效率進行系統設計時,原本被系統復雜性所壓制的創新空間,開始逐步被釋放。

      通過與北京大學、清華大學、上海交通大學、浙江大學、中國科學技術大學、南京大學、復旦大學等多所頂尖高校共建“鯤鵬昇騰科教創新孵化中心”,產業級算力平臺也被引入科研與教學一線,為工程型人才的成長提供真實場景。這種從技術、生態到人才的閉環布局,正是HPC+AI4S能夠持續演進的關鍵支撐。

      在材料科學領域,上海交通大學江震團隊圍繞LAMMPS分子模擬軟件的優化,同樣體現了HPC+AI4S思維對傳統路徑的突破。

      通過將MPI進程級并行與鯤鵬 NEON向量化能力相結合,團隊完成了百萬原子、百納秒級的相變模擬實驗,成功突破了傳統模擬在規模與效率上的雙重瓶頸。這使高熵合金篩選、鋰電池電極跨尺度設計等原本周期極長的研究任務,首次具備了工程化落地的現實可能。

      這一實踐表明,當底層并行模型能夠有效匹配負載特征時,科研問題本身的復雜度,才不再被系統能力所限制。

      更具沖擊力的案例來自工業仿真領域。

      北京大學陳幟團隊提出的DeepFlame燃燒仿真,將物理嵌入剛性神經算子(PE-SNO)與眾核PDE求解器相結合,在鯤鵬平臺上完成了近萬億網格規模的模擬計算,浮點性能峰值超過1EFlops。原本需要6個月完成的火箭發動機燃燒模擬,被壓縮至1小時完成。

      2026年1月,該團隊正式發布DeepFlame 2.0,正式引入“AI智能體驅動科學計算”的全新科研范式,從上一版的“求解器集合”,進化為一個開放的、覆蓋代碼開發和算例模擬各個環節的“智能體集合”。

      目前,DeepFlame 2.0已經基于鯤鵬生態進行了多項適配優化。

      在易用性方面,DeepFlame 2.0軟件棧可基于鯤鵬原生編譯,支持Jarvis工具一鍵部署運行。

      在性能方面,實現了鯤鵬架構深度優化與性能突破:硬件層針對鯤鵬 920 72F8眾核、多NUMA、片上內存架構,引入精細化綁核、內存分配策略;軟件層基于畢昇編譯器重構代碼,在保證準確性和魯棒性的同時,集成鯤鵬數學庫加速GEMM計算;算法層設計鯤鵬-native的混合精度求解器(FP64 稀疏求解+FP16 推理),平衡精度與速度。

      在AI-CFD融合推理加速方面,模型層開發輕量化神經網絡模型,實現高精度網絡推理,并適配鯤鵬矩陣運算指令集。

      這套方案在提升計算效率的同時,也重塑了研發流程。當仿真成本從很難復用的反復嘗試轉變為可高頻迭代的飛輪,工程創新的節奏與方式隨之發生根本變化。

      無論是AlphaFold還是DeepFlame,它們的成功優化都非依賴于單一的硬件算力飆升,根本在于對應用負載的深度理解,并將此理解通過KUPL、HPCKit等工具轉化為系統級的協同優化。

      這標志著HPC開發的焦點,正從追逐硬件峰值,轉向構建“理解負載、優化系統”的下一代科研計算基礎設施。

      當然,HPC+AI4S的演進之路仍面臨現實挑戰。例如,存量應用遷移成本高、國內生態與國際頂級社區之間的差距,以及技術路線碎片化帶來的內耗,都是短期內難以徹底回避的問題。但通過行業內各玩家的持續開放協作與長期投入,這些問題正在被逐步化解。

      長遠來看,AI正在推動HPC從“算得更快”,走向“算得更聰明”。在這一轉變中,真正決定成敗的,不再是單點性能指標,而是誰能夠率先為開發者降低系統復雜度。

      當并行、通信與異構調度不再成為創新門檻,當科學家與工程師能夠專注于問題本身而非工具差異,HPC+AI4S的潛力才會被真正釋放。根本上看,這是在AI4S這一特定問題空間內,對CPU和GPU算力角色分工的一次重構。

      從這一意義上看,鯤鵬嘗試扮演的,正是這場HPC+AI4S開發范式轉移中的加速器。

      (本文圖片來源:AI生成)


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      散步再次被關注!醫生發現:走得越多,糖尿病人壽命或越長?

      散步再次被關注!醫生發現:走得越多,糖尿病人壽命或越長?

      健康之光
      2026-05-14 13:10:01
      克宮:莫斯科和北京將同時宣布普京訪問中國的日期

      克宮:莫斯科和北京將同時宣布普京訪問中國的日期

      俄羅斯衛星通訊社
      2026-05-13 14:59:45
      現在有多少存款,才相當于80年代的“萬元戶”,看看你達標了嗎?

      現在有多少存款,才相當于80年代的“萬元戶”,看看你達標了嗎?

      貓叔東山再起
      2026-05-14 08:20:11
      世乒賽獎金出爐:王楚欽孫穎莎最高,梁靖崑太意外,陳幸同很正常

      世乒賽獎金出爐:王楚欽孫穎莎最高,梁靖崑太意外,陳幸同很正常

      笑飲孤鴻非
      2026-05-13 10:58:45
      辣椒再次被關注!醫生發現:胃癌病人吃辣,不用多久或有5變化

      辣椒再次被關注!醫生發現:胃癌病人吃辣,不用多久或有5變化

      荷蘭豆愛健康
      2026-05-14 12:19:34
      71.5%!歷史性暴跌,以貸養貸的泡沫崩了

      71.5%!歷史性暴跌,以貸養貸的泡沫崩了

      月滿大江流
      2026-04-16 13:54:38
      74歲劉鑾雄罕見露面,為楊受成撐場面再現當年雄風,甘比不在身旁

      74歲劉鑾雄罕見露面,為楊受成撐場面再現當年雄風,甘比不在身旁

      伴史緣
      2026-05-14 12:53:48
      造紙廠儲罐發現3具女尸,法醫:三人為親姐妹,生前骨盆均被破壞

      造紙廠儲罐發現3具女尸,法醫:三人為親姐妹,生前骨盆均被破壞

      罪案洞察者
      2025-10-28 15:33:21
      比夏朝更早的王朝:考古取得重大發現,難怪尚書第一篇是《虞書》

      比夏朝更早的王朝:考古取得重大發現,難怪尚書第一篇是《虞書》

      掠影后有感
      2026-05-13 10:55:27
      不管你愛不愛我 我都準備好彩禮等你 從22追到42勇士為啥鐘情老詹

      不管你愛不愛我 我都準備好彩禮等你 從22追到42勇士為啥鐘情老詹

      兵哥籃球故事
      2026-05-14 13:53:55
      小叔子婚禮開銷50萬,丈夫問錢從哪來,婆婆:你媳婦家不是有錢嗎

      小叔子婚禮開銷50萬,丈夫問錢從哪來,婆婆:你媳婦家不是有錢嗎

      娛樂洞察點點
      2026-05-14 12:01:01
      等了16年,0失誤,41分!他終于摸到了總決賽的地板

      等了16年,0失誤,41分!他終于摸到了總決賽的地板

      云隱南山
      2026-05-13 17:29:16
      美國眾議院繞過共和黨高層,強推百億烏克蘭援助

      美國眾議院繞過共和黨高層,強推百億烏克蘭援助

      金十數據
      2026-05-14 14:33:35
      在單位里永遠要記住一個人際關系的殘酷實情:如果領導有事不直接找你,反倒讓同事傳話告訴你,只能說明這兩個問題

      在單位里永遠要記住一個人際關系的殘酷實情:如果領導有事不直接找你,反倒讓同事傳話告訴你,只能說明這兩個問題

      心理觀察局
      2026-05-08 09:11:06
      澳洲放羊大叔引爆AI編程革命!Claude Code急推goal模式,不干完不許停

      澳洲放羊大叔引爆AI編程革命!Claude Code急推goal模式,不干完不許停

      新智元
      2026-05-13 18:31:06
      呼吁:立馬停止飲用這種茶葉,比煙酒還要傷肝,盡早處理

      呼吁:立馬停止飲用這種茶葉,比煙酒還要傷肝,盡早處理

      馬蹄燙嘴說美食
      2026-05-14 11:23:53
      杰米·福克斯58歲再當爸,女友官宣懷孕

      杰米·福克斯58歲再當爸,女友官宣懷孕

      娛圈觀察員
      2026-05-13 06:00:27
      又一家中國廠商量產DDR5內存條

      又一家中國廠商量產DDR5內存條

      放毒
      2026-05-12 17:24:38
      畸形女拳來了!誤入男廁反責男生,女生指責其素質低下、疑暴露狂

      畸形女拳來了!誤入男廁反責男生,女生指責其素質低下、疑暴露狂

      火山詩話
      2026-05-13 13:32:40
      阿森納能否提前奪得英超聯賽冠軍——英超爭冠沖刺形勢分析

      阿森納能否提前奪得英超聯賽冠軍——英超爭冠沖刺形勢分析

      章民解說體育
      2026-05-14 07:18:51
      2026-05-14 15:24:50
      甲子光年
      甲子光年
      中國科技產業化前沿智庫
      3445文章數 9265關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      媒體:中美元首會晤 世界吃下一顆“定心丸”

      頭條要聞

      媒體:中美元首會晤 世界吃下一顆“定心丸”

      體育要聞

      登海報!哈登30+8+6創多項紀錄 第8次贏天王山

      娛樂要聞

      肖戰提名金海燕獎,這一步走得太穩

      財經要聞

      習近平同美國總統特朗普會談

      汽車要聞

      C級純電轎跑 吉利銀河"TT"申報圖來了

      態度原創

      本地
      家居
      健康
      房產
      軍事航空

      本地新聞

      用蘇繡的方式,打開江西婺源

      家居要聞

      精神奢享 對話塔尖需求

      干細胞能讓人“返老還童”嗎

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      軍事要聞

      美以伊戰爭期間以總理密訪阿聯酋

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 好看的国产精品自拍视频| 日本成人在线视频网站| 亚洲中文字幕一区精品自| 精品va在线观看| 【_undefined?-?P站免费版?-?永久免费的福利视频平台】https://17630364268551281430832.nx37lbnqvd.com/column/all/show?t=&tags=%E5%90%8E%E5%85%A5%E9%AA%91%E9%A9%AC&page=2&orderBy=createTime&expanded=1 | 天天久久| 亚洲av乱码国产精品色| 在线观看成人年视频免费| 亚洲第一色区| 凹凸白浆熟女精品视频| 亚洲另类丝袜综合网| 一本大道久久香蕉成人网| 亚洲日韩精品欧美一区二区| 亚洲youjizz| 欧美性受xxxx极品| 欧洲亚洲精品免费二区| 免费人妻AⅤ无码专区久久综合| 碰超免费人妻中文字幕| 久久无码中文字幕久久无码app | 东京热人妻丝袜无码AV一二三区观| 欧美三根一起进三p| 亚洲 欧美 国产 日韩 精品| 男人天堂2024手机在线| yw尤物av无码国产在线观看| 国产99久久亚洲综合精品西瓜tv| 亚洲AV成人一区二区三区网站| 成人免费A级毛片无码网站入口| 亚洲精品美女一区二区| 狠狠干| 久久久久久av无码免费网站下载| 欧美老熟妇乱子伦牲交视频| 国产精品XXX| 亚洲AV无码专区国产H小说| 国产成人不卡无码免费视频| 亚洲肥熟女一区二区三区| www射我里面在线观看| 国产成人精品视频一区二区电影 | 999精品视频| 亚洲色拍拍噜噜噜最新网站| 秋霞午夜成人无码精品| 国产一区二区内射最近人|