隨著英特爾至強600系列和銳炫Pro B系列正式發布,英特爾針對高性能工作站領域打出了一套強有力的組合拳。在整個行業都在為AI計算傾倒的同時,非AI領域的專業計算性能提升也同樣迫在眉睫。面對AI與傳統算力的需求,至強600系列和銳炫Pro B系列將如何出招?
![]()
在發布會后,筆者有幸參加了英特爾中國區技術部總經理高宇(Gary Gao),英特爾中國區顯卡和AI高級產品總監徐金平(JP Xu),以及英特爾技術專家王巍巍(WeiWei Wang)的采訪,更深入了解英特爾至強600和銳炫Pro B70背后的故事。
![]()
英特爾中國區技術部總經理高宇(Gary Gao)
HPC:與AI PC并行的產品哲學
英特爾至強600系列搭配銳炫Pro B70構建出了今年英特爾旗下最強勁的HPC解決方案。HPC和AI工作站以及AI PC區分的討論被擺上了臺面。狹義的HPC與AI性能兼顧是比較難的,因為需要在有限的芯片內同時支持FP64,還要支持FP16或者是更低精度。
從芯片設計的角度來看,這其實是一場芯片面積的零和博弈,在晶體管預算固定的情況下,HPC追求的FP64雙精度。浮點單元與AI需要的INT8/BF16/FP16低精度矩陣單元在物理層面存在資源競爭。FP64單元面積大、頻率低,但流體模擬、有限元分析、氣象預測這樣的科學計算是需要FP64作為支持。對應的AI計算只需要注入AMX這樣的低精度矩陣單元,面積利用率很高,但對HPC無直接幫助。
![]()
英特爾的解法是在架構上將AI與HPC融合,而非二選一。FP64仍然是HPC的基本盤,用購絕對的領導力,同時至強在雙精度浮點性能上的傳統優勢,使其在全球HPC集群中保持高市場份額。
負責AI計算的AMX指令集使用的是嵌入式策略,在架構設計之初變容易其中,這意味著至強600并非在HPC架構上打補丁增加AI能力,而是在微架構設計階段就將AMX作為基礎模塊融入,與FP64單元共存,這避免了雙架構拼接帶來的效率損耗,也是英特爾考慮兼容性的一貫作風。
與AMX同步推出的是統一內存帶寬MRDIMM帶來的雙軌紅綠。MRDIMM(Multiplexed Rank DIMM)通過多路復用技術大幅提升內存帶寬,可同時服務于HPC和AI計算,在HPC上,MRDIMM內存可以緩解CPU核心數增加帶來的內存帶寬瓶頸。在AI計算領域,MRDIMM則可以為AMX矩陣運算提供足夠的數據吞吐,避免計算單元饑餓。
![]()
而在軟件棧層面,同一套硬件也展現出了兩種加速邏輯。HPC通過MKL(Math Kernel Library)實現優化數學運算、線性代數、FFT,通過OneCCL加速多CPU節點間通訊,構建集群。AI則可以通過OneAPI和OpenVINO實現統一編程接口,跨硬件抽象,以及模型優化與推理加速。
這意味著至強用戶不需要在HPC和AI之間做硬件站隊,同一套平臺可通過軟件棧切換負載類型。
![]()
值得注意的是,雖然架構統一,但具體SKU是存在針對性優化的。比如HPC取向的至強600系列具備高核心數量,追求并行線程吞吐量。AI取向的至強600系列可在頻率、AMX利用率或內存通道配置上有其他優化。這種統一架構配合場景化SKU的策略,讓英特爾用單一芯片設計覆蓋兩個市場,進而攤薄研發成本。
在現場,王巍巍和高宇共同指出了一個反直覺的現象,HPC和AI并非割裂,而是在融合。舉個例子,HPC不是每天24小時都在跑的,當它不跑HPC任務負載的時候,他們可以用它來跑一些AI模型,同樣也可以獲得很好的效果。這對擁有超算中心或HPC集群的科研機構極具吸引力,無需額外采購AI專用硬件,利用至強的AMX能力在空閑時段跑AI推理,提升資產利用率。
![]()
英特爾技術專家王巍巍(WeiWei Wang)
另一個則是內存容量帶來的巨大優勢。例如AlphaFold 3算法其實要求更大體積的內存,內存越大,它才能夠跑更大體積的生物分子的3D結構預測。這個其實反而是至強CPU的優勢,因為至強600系列單核CPU可以支持4TB內存容量,這是目前任何GPU都做不到的。
因此類似AlphaFold3的AI驅動科學計算本身仍然需要海量內存來存儲生物分子3D結構,除非內存可以在短時間內,以低廉的價格進一步擴展至TB級,否則至強CPU配合大內存的融合場景仍具備不可替代的優勢。
![]()
銳炫Pro B70的進攻哲學
銳炫Pro B系列作為專業顯卡,被英特爾寄予厚望。與此同時,英特爾此次在專業顯卡市場的布局,呈現出一條非常清晰的以顯存容量為核心坐標軸的產品切割邏輯。這不是簡單的低中高三檔劃分,而是針對AI工作負載中顯存即瓶頸的殘酷現實,進行的一場商業與技術雙重算計。
![]()
例如銳炫Pro B60用于基礎AI加速,輕量級創作,銳炫Pro B65具備更大的顯存,是性價比的守門員。旗艦級銳炫Pro B70一步到位,擁有旗艦顯卡表現,以及多卡并聯和專業創作的能力。
徐金平表示,B65并非一款全新設計的芯片,而是B70晶圓在良率爬坡過程中,部分Die無法全核穩定運行在B70頻率下的另一種選擇。英特爾的選擇不是屏蔽顯存降級為B60,而是保留32GB顯存滿足AI用戶對顯存的剛需,同時屏蔽部分Xe核心至20核,當然定價也更為優惠,可以介于B60與B70之間。
![]()
英特爾中國區顯卡和AI高級產品總監徐金平(JP Xu)
這樣做法好處是,可以很好的用顯存容量滿足模型權重和KV Cache造成的AI推理場景門檻。對于運行70B級別模型量化版、或需要長上下文窗口的Stable Diffusion用戶,32GB顯存"能不能跑的問題,20核與更高核心數之間的差異只是跑多快的問題。B65精準卡住了顯存饑渴但算力需求溫和、預算敏感的細分市場。
B70系列則無疑將賣點錨定在了32GB GDDR6顯存上。在NVIDIA RTX A系列和Pro系列中,32GB顯存顯卡價格高昂。英特爾正在嘗試用每GB顯存的美元成本指標上建立絕對優勢。在本地大模型部署熱潮下,顯存容量直接決定了可運行的模型規模,這使得大顯存配合低單價成為撬動N卡用戶遷移的有力杠桿。
![]()
銳炫Pro B70的多卡組合技能也可以幫助用戶從個人專業工作站延伸至企業部門級邊緣部署。對于個人創作者而言,利用B70就可以完成對PB級視頻素材進行故事線抽取和結構化,將非結構化數據轉化為可檢索的數據庫。這體現了顯存大帶來的處理更長序列、更大批量的優勢。
對于多卡場景的企業部門級邊緣部署而言,100B模型INT4/FP8量化后權重需要50GB到60GB,4張32GB B70可以帶來128GB顯存,剩余60GB到70GB用于KV Cache和并發緩沖。如果是4張24GB卡組96GB顯存,在扣除權重后僅剩30-40GB給KV Cache,對于企業級并發請求會顯得非常吃力。英特爾借此將4卡B70配置定位為企業邊緣側100B模型本地部署的甜點方案。
多卡也帶來了硬件形態上變化。工作站其實開始變得不那么傻大黑粗。英特爾已經向OEM伙伴提出了極具挑戰性的工業設計目標,包括單卡配置機箱小于8升,噪音低于35dB;雙卡配置機箱小于14升,噪音低于40dB,四卡配置則要求機箱小于35升。這背后是AI工作站從機房、工位角落走向辦公桌面的定位轉變。小型化、靜音化不僅關乎用戶體驗,更直接降低了企業部署的空間成本。
![]()
同時英特爾意識到,硬件性價比只是敲門磚,創作者能否無折騰使用才是關鍵。ComfyUI作為AIGC視頻/圖像生成的行業標準工具鏈,其官網原生支持意味著用戶無需手動配置復雜的后端加速或尋找社區補丁。這種開箱即用的體驗,配合英特爾團隊直接提供的技術服務,構成了針對小型創作團隊的完整賦能閉環,這對于個人工作室而言,是非常友好的。
對于NVIDIA CUDA對銳炫Pro B系列構成的護城河問題,英特爾也提出了框架、語言、工具三層滲透的策略。原因是整個生態都不希望被一家硬件廠商鎖定,所以我們才會看到PyTorch崛起,目標就是擺脫硬件單一化標準限定。
![]()
對于開發者而言,基于PyTorch編寫的模型代碼,理論上可通過后端切換在不同硬件上運行。基于vLLM部署的推理服務,其連續批處理和Paged Attention機制已逐步支持Intel GPU,如果應用是基于PyTorch或者是基于vLLM的,其實可以不關心下層硬件,不關心是否調用的是CUDA。
在編程語言層面,Triton也已經作為OpenAI推出的Python-like GPU編程語言,正在迅速成為Kernel開發的事實標準。同一份Triton代碼可通過不同的Backend編譯為NVIDIA PTX或Intel GPU ISA,開發者無需學習英特爾專用的底層編程模型。最后隨著Triton生態壯大,新算法/新算子的首發實現將越來越多地以Triton而非CUDA呈現。英特爾對Triton的支持,相當于在CUDA最擅長的Kernel編程層面植入了一個兼容性接口。這不是與CUDA正面交鋒,而是讓CUDA的獨占性編程模型被更開放的編程語言取代。
![]()
最后是自身軟件棧與兼容性建設。在封裝層面,英特爾有oneAPI與OpenVINO。oneAPI提供跨CPU/GPU/FPGA的統一編程接口,OpenVINO則專注于模型優化與推理加速。兩者共同作用是將Intel GPU的硬件特性封裝為高階、易用的API,減少開發者直接面對硬件差異的摩擦。
這也為英特爾對模型生態兼容加速提供了良好的基礎。特別是在在生成式AI領域,注入MoE結構和Attention變體等新模型、新架構層出不窮。英特爾需要確保其軟件棧能以極快速度適配這些新模型,避免硬件能跑但軟件不支持的尷尬空窗期。
例如對ComfyUI的原生支持不僅是產品體驗問題,更是生態建設的樣板工程。當一個創作者最常用的工具鏈無需任何配置即可調用B70的全部算力時,CUDA生態的遷移成本被降至最低。
![]()
當然英特爾也深知Intel GPU仍然有大量的工作需要準備,因此現階段的推廣中,會通過大顯存性價比吸引用戶首次購買,用PyTorch/Triton的跨平臺兼容性降低其嘗試成本,用ComfyUI等原生支持留住用戶,最終通過"I+I"(CPU+GPU)協同的獨特價值形成長期粘性。
寫在最后:往大顯存進發
在采訪的最后,英特爾也分享了未來的可能性,比如下一代GPU架構Crescent Island的技術路線選擇,以及英特爾對算力擴展路徑的戰略判斷。英特爾現場分享未來產品信息還處在保密期內,這里筆者也只能賣個關子,在這個月底,我們就有機會顯存更大的顛覆性顯卡產品,而Crescent Island極可能是英特爾下一代數據中心和工作站GPU的旗艦基準。
![]()
與此同時,OEM生態是英特爾將技術規格轉化為市場銷量的最后一公里。銳炫Pro系列會推行大陸AIC廠商先行,工作站創新,以及大廠加入的策略。目前藍戟、銘瑄、撼與科技、ASRock已經加入了Intel AIC行列,在專業顯卡供應緊張,價格高企的背景下,OEM常上也迫切需要更多的第二供應商提供支持。英特爾銳炫Pro系列通過大顯存、靜音小型化的差異賣點,也有機會在市場中找到新的機遇。
![]()
可以看到的是,英特爾以顯存容量為突破口,積極尋找市場份額的新途徑。不斷壯大的顯卡陣營,以及顯卡設計的差異化競爭,都在幫助英特爾換取生態建設的時間窗口。特別是在整個行業承受著GPU、存儲成本壓力的大環境下,至強600系列與銳炫Pro系列構成的"I+I"組合,已經悄然展現出十足的競爭力。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.