![]()
![]()
圖片由AI生成
出品|搜狐科技
作者|梁昌均
編輯| 楊 錦
最近,業內期待了很久的DeepSeek-V4發布,國產AI芯片迅速掀起適配潮。
華為在發布當天迅速發文稱,通過雙方芯模技術緊密協同,實現昇騰超節點全系列產品支持V4模型。
搜狐科技注意到,除了華為昇騰,還有寒武紀、海光信息、摩爾線程、沐曦股份、昆侖芯、平頭哥、天數智芯、清微智能、曦望等共計10款主流國產AI芯片均已完成對V4的適配。
智源眾智FlagOS技術團隊最近因此變得異常忙碌,作為打造支持多種AI芯片的開源統一生態的技術團隊,其在V4發布后就迅速完成了和9家國產AI芯片的適配。
4月29日,搜狐科技獨家對話了北京智源人工智能研究院副院長兼總工程師林詠華。
![]()
她認為,V4核心突破在于系統優化,從硬件優化和架構創新層面,繼續大幅降低模型所需要的計算和顯存,DeepSeek在持續探索最極致的降本方法。
此次國產芯片和V4的適配,多數企業包括FlagOS都宣布Day0適配,可謂快速。她告訴搜狐科技,要做到Day0適配,需要提前做大量技術準備工作。
在適配過程中,技術團隊需要解決在多款芯片上的統一算子替換、精度轉換、顯存限制等基礎技術問題,更重要的是要進行精度對齊。
從適配效果看,林詠華表示,內部測試顯示,FlagOS團隊在國產AI芯片上適配的V4 Flash模型,推理效果已基本對齊DeepSeek發布的原版模型。
更關鍵的是,模型廠商的態度也發生了變化。今年之前,模型廠商主動適配國產芯片的意愿并不高,重心依然圍繞英偉達。今年以來,國內大模型和國產AI芯片則更像是一場雙方奔赴。
林詠華認為,現在國內模型廠商適配意愿提升,主要得益于推理市場算力需求提升的帶動。
“即便模型性能卓越,若算力支撐不足、難以滿足用戶需求,用戶仍將轉向替代方案。正因如此,今年模型廠商普遍呈現出更積極的姿態,主動推進甚至提前布局與芯片廠商的適配工作。”
國產芯片的進步不止于推理層面,在訓練領域同樣取得了關鍵突破。
林詠華透露,當前基于千卡規模的國產芯片集群,已基本能夠復刻出與英偉達芯片相當的訓練效果。
她所在的技術團隊已完成對多種AI芯片、異構混合訓練方案在多種模型上的驗證,覆蓋了端到端從頭預訓練這一嚴苛場景,但萬卡級國產集群的穩定性和表現仍有待進一步驗證。
林詠華認為,這背后的挑戰在于行業對國產芯片的信心,同時面臨跨芯遷移難題。
不過,通過國內外多個技術團隊在軟硬件開源生態的合作和共建,當下以FlagOS為代表的國內AI計算生態發展已經有了很大的進步。林詠華提到,這主要體現在三個層面。
一是實現從手寫算子到AI自動生成算子的跨越,二是實現從單芯片專用語言到跨芯片統一編程語言的突破,三是從單芯片適配到Day-0多芯片同步發布的能力躍升。
未來國產芯片如果想要繼續在大模型領域實現更好的適配,林詠華認為,還需在開發者習慣與社區生態的遷移,以及在編譯優化、算子庫覆蓋率、硬件特性利用等繼續投入,打通性能的“最后一公里”。
同時,還要發揮生態的網絡效應。“CUDA的優勢不僅是技術,更是大家都在用。當開發者發現用各種AI芯片跑模型都很簡單時,生態才會真正發展起來。”
以下是對話精編:
搜狐科技:此次DeepSeek-V4發布,最核心的創新和進步是什么?
林詠華:DeepSeek-V4目前是開源模型第一梯隊,甚至是最頂尖的,對整個開源社區和產業是一份很重要的禮物。隨著VLLM 和 SGLang兩個推理引擎推出正式版本支持之后,將推動更多落地使用。
它核心突破是在系統優化上,不只是硬件優化,而是從模型架構創新層面,繼續大幅降低模型所需要的計算和顯存,在降低推理成本上是極致的探索和優化。
DeepSeek尋求的是如何用更少算力、更低成本,去追求更高的智能,希望在這條路上探索最極致的方法,未來應該還有更多可能和空間把成本做得更低。
搜狐科技:V4發布后似乎沒有V3和R1那般驚艷,DeepSeek這次沒有復現自己的“DeepSeek時刻”,您怎么看?
林詠華:R1去年初發布,是首次有比較領先的頂級大模型做到了GPT-o1具備的推理思考的能力,并直接開源出來。這是從無到有,把國內開源帶上了新臺階,所以市場反應很大。
但過去一年,國內其他大模型企業激烈競爭,把大眾也拉到了比較高度使用的狀態。這次V4雖然在繼續往上走,但以如今大模型的強大能力,外界已經很難對它的進步進行準確“度量”了。
此外,這次還沒有出現當初千問模型蒸餾R1的工作,如果都以當下的284B或1.6T的巨大模型尺寸進行部署,對硬件的需求不低。所以目前看到的更多是互聯網大廠,如騰訊云等部署了V4作為API服務,但廣大的企業用戶私有化部署,還未能大量出現。
搜狐科技:最近斯坦福報告說國內距國外最前沿模型只有2.7%的差距,這是在V4發布前,V4發布后差距有進一步縮小嗎?
林詠華:DeepSeek評估V4和國外最新的頂尖閉源模型還有3到6個月的差距,比較客觀。目前評測追求的還是模型的絕對智力,但在產業落地的時候,現在開始看重的是能否高效完成任務。既衡量智力,又要衡量Token效率,這種綜合衡量還缺乏權威的評測。
搜狐科技:V4發布后,華為、寒武紀,包括智源FlagOS等都宣布Day0適配,為什么能做到這么快?解決了哪些關鍵挑戰?
林詠華:對于V4這種量級的模型,整個架構有很多變化,所以提前需要做大量的技術準備工作,目標是要讓這個模型能夠在很多AI芯片上跑起來,里面有很多基礎的技術問題要解決。
第一,要將DeepSeek的原版算子用FlagOS的技術棧全部替換,從而保證之前已經適配過我們技術棧的芯片都能跑這些算子。
第二,要解決模型對硬件的精度依賴問題。DeepSeek這次采用的是FP4和FP8混合精度,而國內上市的芯片多數都是以BF16為主,必須轉換成這些芯片所能支持的精度。
第三,要解決顯存并行限制的問題。國內主流顯卡基本是32G或64G顯存,需要張量并行大于8份才能放得下,但V4最多切8份,所以就需要重新做并行策略的切割。
這些都是在工程上、技術上怎么讓它跑起來,后面更重要的要對齊精度。我們端到端測試了所有芯片,把精度誤差控制在5%以內,然后才發布開源出來,讓大家能下載代碼,開箱即用。
搜狐科技:國產芯片適配V4后,您這邊內部測試或業內反饋的效果如何?
林詠華:我們在Flash版完整做過測試,推理效果基本跟原版對齊。馬上VLLM和SGlang就會推出正式版本支持,我們將重新去適配國產芯片,這樣吞吐量會明顯上升,就可以跑得更快。
搜狐科技:最近除了V4,Hy3.0、MiMo-V2.5-Pro等都在和國產芯片適配,原來這種情況并不多見,您怎么看這種變化?
林詠華:原來都關注英偉達,模型廠商沒有很大動力跟國產芯片適配。但今年很大的變化是,智能體拉動國內大模型的部署使用需求大幅上升,普遍需要更多的算力進入推理市場。
如果模型廠商手上沒有更多的算力資源,就很難支撐它去做更多的推理任務,吸引更多的用戶。即便模型性能卓越,若算力支撐不足、難以滿足用戶需求,用戶仍將轉向替代方案。正因如此,今年模型廠商普遍呈現出更積極的姿態,主動推進甚至提前布局與芯片廠商的適配工作。
搜狐科技:現在適配更多聚焦在推理部署層面,那訓練側國產芯片進展如何?卡點是什么?
林詠華:在千卡量級,基于FlagOS在國產芯片上去做訓練,無論是語言模型還是多模態模型,都沒問題,跟英偉達比完全能夠對齊。
我們做了很多的實驗完成了多輪的驗證。這些過程的驗證是很昂貴的,如果萬卡級別的端到端驗證,那就更昂貴了。
這也是為什么當下還看不到很多企業用國產萬卡集群去訓模型。如果沒有對照過英偉達的萬卡,是否放心在國產萬卡上去做?
所以挑戰在于,第一還是信心的問題,驗證需要大量資金進行陪跑驗證;第二在于跨芯遷移。
過去這么多年,產業都是用英偉達CUDA作為數值對齊的標準。那么使用某款非英偉達芯片訓練出來的模型,是否可以順利遷移到其它芯片上?這里面既有精度對齊的難題,也有跨芯技術棧的難題。
不過由于FlagOS本身已經在訓練、推理上做到了多種AI芯片統一了編譯器、算子庫、框架接入等。所以跨芯的軟件問題已經被解決了,剩下主要還是精度對齊的挑戰。
搜狐科技:兩年前您說國內算力生態要在架構創新、底層軟件、編譯器等層面補課,過去兩年有哪些進步?
林詠華:我認為有三個關鍵進步。第一,從手寫算子到AI自動生成算子的跨越。兩年前,移植模型到新芯片,需要花數周手寫適配算子,現在只需用自然語言描述需求就能自動生成、驗證、優化算子,大大縮短開發周期。
第二,從單芯片專用語言到跨芯片統一編程語言的突破。原來每換一顆芯片就要學一套新語言、新工具鏈,但現在通過兼容標準,讓開發者寫一套代碼,就能在所有芯片上跑出好性能。
第三,從單芯片適配到Day-0多芯片同步發布的能力躍升。像這次V4發布當天,我們就完成了10款芯片的同步適配,行業內跨芯片適配時間已從原來的數周縮短至數天。
搜狐科技:國內算力生態如果想打造類似CUDA的生態,還要在哪些領域繼續努力?
林詠華:一是開發者習慣與社區生態的遷移。CUDA擁有十幾年積累的海量代碼、文檔、教程和開發者習慣,同時不同模型在算子生成任務上的能力差異明顯,需要更多開源模型和工具來降低多元芯片的使用門檻。
二是還需要在編譯優化、算子庫覆蓋率、硬件特性利用等方面持續投入,打通性能的“最后一公里”。
三是要發揮生態的網絡效應。CUDA的優勢不僅是技術,更是大家都在用。當開發者發現用各種AI芯片跑模型都很簡單時,生態才會真正發展起來。
![]()
![]()
運營編輯 |曹倩審核|孟莎莎
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.