導語:
英偉達的優勢從來不只是一塊 GPU,而是 CUDA 把芯片、編譯器、算子庫、框架接口和開發者習慣綁成了一整套體系。企業一旦在這套體系里完成訓練、部署和運維,后續每一次遷移都會面對代碼重寫、算子補齊、框架重適配和性能回退的連鎖成本。
對國內廠商來說,這意味著兩個風險同時存在:一是長期依賴單一路徑,產業鏈的自主可控始終受限;二是即便硬件能替代,軟件生態也未必能跟上,結果是“有卡,但是難用”。這也是為什么國產算力討論到今天,問題已經從單點性能競爭,轉向生態組織能力的競爭。
一、智能體時代:FlagOS搭建國產芯片適配底座
先簡單科普下智源 FlagOS 。
作為智源面向下一代 AI 基礎設施打造的全域智能操作系統,FlagOS 長期聚焦異構芯片適配、跨架構協同、AI 生態開放三大核心方向,核心目標是打破單一算力架構壁壘,為大模型、AI 智能體、端邊側智能應用提供統一的底層運行底座。
隨著大模型進入智能體階段后。
模型不再只是做單輪生成,而是要跨框架、跨場景、跨設備持續運行,底層基礎設施就不能再只服務一種架構、一類任務。
眾智 FlagOS 2.0 給出的判斷很直接:如果沒有普適計算,智能體難以跨芯片運行;如果沒有開放計算,AI 生態就會被單一路徑鎖定。沿著這個邏輯看,國內產業對架構多元化和本土化替代的訴求,本質上都指向同一個問題——不是簡單復制一個 CUDA,而是先建立一套可以讓多種國產芯片共同接入、共同演進的公共底座。
![]()
FlagOS 2.0 目前已支持18 家廠商、32 款 AI 芯片,算子總數達到 497 個,應用范圍也從大模型訓練推理擴展到邊緣推理、機器人和科學計算,這些數字的意義不在于規模更大,而在于它開始嘗試把分散的國產硬件,放進同一套軟件語言里。
這也是海外封閉生態對國內創新真正的制約所在。
過去行業里常見的做法,是每一種芯片配一套工具鏈、每一個框架做一次魔改、每一家廠商各自維護自己的適配版本。表面看,國內生態很熱鬧,但從開發者視角看,碎片化意味著學習成本和遷移成本持續累積。
![]()
FlagOS 2.0 在統一插件體系上連接vLLM、Megatron-LM、Transformer Engine等主流框架,在底層又通過Flag Tree、Flag Gems、FLIR這類組件推動編譯和算子層的統一,試圖解決的正是“一種芯片一套開發工具”的老問題。說得更直白一點,國內算力現在最缺的,是一套讓不同技術路線能共同參與競爭的基礎設施。
![]()
在這個背景下,智源推動的 FlagOS,更像是一場“先搭公共路基,再談單車速度”的嘗試。不是押注某一家芯片公司,而是把GPU、DSA、RPU(可重構數據流)三條路線同時納入同一套技術框架中。Triton-TLE 已支持 31 種原語,并分別在 GPU、DSA、可重構計算三類代表性架構上完成驗證;FLIR 也開始探索統一中間表示層,讓不同芯片共享一部分編譯優化能力。換句話說,智源并不是想證明哪條路線天然勝出,而是想先降低多路線并行的協同門檻。對一個仍在追趕期的產業來說,這比單點押注更現實。因為國產生態的短板,從來不是沒有路線,而是路線太多但彼此不兼容。
二、除了打通芯片、模型與應用,也提供“第三種可能”
在芯片、模型和應用層,最核心的統一價值就是,對芯片廠商來說,減少重復適配和各自造輪子的成本;對模型廠商,它縮短從模型發布到國產算力可用的時間差;對應用方,它至少提供了一種更可預期的遷移路徑,而不是每次換底座都從零開始。
FlagOS 2.0 里FlagGems 已覆蓋 40 個主流模型、推理任務算子覆蓋度達到 90% 到 100%,FlagScale 則試圖把推理、訓練和強化學習的接入方式標準化。這些工作看上去偏底層,離市場很遠,但決定生態是否成立的,往往就是這些不顯眼的工程層。國內 AI 產業過去最容易掉進去的誤區,是把發布當成落地;而統一適配標準,恰恰是把落地前面的摩擦一點點削掉。
GPGPU 仍然承擔通用計算主力,優勢是開發者熟悉、生態接口接近國際主流,DSA 代表更強的場景化優化能力,適合在既定任務模型下做深度打磨;而RPU(可重構數據流),提供的是第三種可能:它既不完全走 GPU 的通用堆疊,也不完全走固定數據流的專用設計,而是試圖在靈活性和效率之間找到一個新的平衡點。眾智 FlagOS 把它與 GPU、DSA 一起納入三條代表性架構路線,本身已經說明,可重構計算不再只是實驗室概念,而是被放進了國產生態的正式坐標系中。
三、“第三種可能”:架構創新實現性能突破
RPU(可重構數據流)的差異化價值,核心在于通過“軟件定義硬件”核心技術,讓芯片硬件能根據不同AI任務實時動態重組,可兼顧高效性與靈活性,實現低延遲、低能耗,以此應對未來復雜多變的AI計算需求。
對行業來說,這件事的價值不只是一個性能數字,而是說明非 GPU 架構也有機會進入主流開發工作流,而不是永遠停留在能跑但難開發的階段。
![]()
從生態表現看,RPU 至少已經不再是邊緣角色。清微智能為例,在 FlagOS 生態中的適配模塊數量位居前列,在非 GPU 架構中與華為昇騰分列一二位,這意味著它在統一軟件棧里的參與度已經進入第一梯隊。
更值得注意的是它的適配速度,尤其在最新模型適配上表現突出:4 月 8 日智譜 GLM-5.1 開源當天,清微智能即完成模型適配;在 4 月 24 日 DeepSeek 重磅發布 V4 系列模型后,清微智能基于成熟的軟硬件協同架構,攜手智源眾智FlagOS,在模型發布當天就完成了DeepSeek-V4-Flash版本的全量算子適配與驗證,成為國內首批實現該模型全量算子兼容的芯片廠商。此外,清微智能還與千問等其他主流模型保持同步迭代,持續夯實其在國產AI算力生態中的核心地位。
四、演進:從分散替代到多架構組團協同
這也解釋了為什么國產架構競爭正在從分散替代走向組團協同。國內算力企業如果都試圖復制同一條路徑,結果很可能不是生態繁榮,而是同質化內耗:大家一起追一個最成熟、也最難追上的方向,最后誰都拿不到足夠大的開發者規模。
更合理的格局,是不同路線在各自擅長的場景里補位:GPGPU 繼續承擔廣譜兼容任務,DSA 在高強度場景優化里建立優勢,可重構架構則在模型快速適配、邊緣部署、輕量化推理和部分定制場景中釋放彈性。據了解,此前清微 RPU 與華為昇騰形成的非 GPU 梯隊,至少已經讓這種互補關系具備了雛形。它不是誰替代誰,而是誰把國產架構的覆蓋面再往外推一步。
從這個角度看,未來,突破 CUDA 壁壘也許并不取決于是否有單點能力,能在所有維度上完全復制英偉達。更現實的路徑,是先建立一個能容納多種國產路線協同演進的生態,把工具鏈、算子、框架和模型適配變成公共能力,再由不同架構在不同場景里分擔任務。FlagOS 的價值就在這里:它讓國產芯片企業不必各自孤軍作戰,而是有機會在同一個生態里共享一部分軟件資產、共享一部分開發者心智。對于還處在建設期的產業,這種組團價值,可能比單家廠商的短期性能沖刺更重要。
5、結語:架構多元化,引領國產AI生態發展
真正決定下一階段競爭的,也不會只是芯片參數,而是生態協同深度和技術落地能力。
架構多元化不是為了證明哪條路線最正確,而是為了讓國產 AI 不再被單一路徑定義。以 RPU 為代表的創新架構,提供的不是對 GPU 的簡單跟隨,而是把國產算力從先適配、再優化的被動節奏,往按場景設計、按任務組織的主動節奏推了一把。
未來能否持續推進,關鍵不在于再講多少國產化替代敘事,而在于誰能把統一軟件棧做厚,把模型接入做快,把真實業務場景跑通,國產 AI 生態若想形成長效發展機制,最終比拼的不是某一家廠商講了什么,而是誰真正把多架構協同這件事,做成了開發者愿意用、客戶愿意遷移的現實能力。
文章來源:數聚勢能
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.