快科技5月11日消息,SemiAnalysis旗下InferenceX性能測試平臺發(fā)布的最新測試數(shù)據(jù)顯示,自DeepSeek V4大模型發(fā)布以來,AMD ROCm軟件棧在約14天內(nèi)實現(xiàn)了75倍的推理吞吐提升。
該測試覆蓋了FP4和FP8精度下的8K/1K上下文典型應(yīng)用場景,測試周期截至5月8日。
![]()
在相同交互性水平下,token處理能力同步增長,有效降低了大模型推理延遲,顯著改善了終端用戶的使用體驗。
此次性能飛躍完全來自ROCm軟件棧的深度優(yōu)化,未涉及硬件層面的改動,展現(xiàn)出AMD在AI軟件領(lǐng)域的快速迭代能力。
性能提升主要源于兩大核心優(yōu)化:融合mHC操作與RoPE哈達瑪變換,降低CPU開銷并提高HBM內(nèi)存利用率。
此外,索引器、鍵值緩存壓縮器等核心計算內(nèi)核均采用TileLang和Triton語言編寫,大幅加快了開發(fā)迭代速度。
目前ROCm距離單節(jié)點聚合英偉達B200的性能水平仍有5倍差距,距離PD解耦版本B200則還有1.5倍提升空間。
相關(guān)信息顯示,AMD有望在未來幾周內(nèi)完成剩余的性能優(yōu)化目標(biāo),進一步縮小與NVIDIA CUDA的技術(shù)差距。
這是DeepSeek V4發(fā)布后,AMD ROCm團隊在未提前獲得模型權(quán)重的情況下啟動適配,僅用約兩周便交出上述成績單。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.