網易首頁 > 網易號 > 正文申請入駐

國產算力，兵分三路對抗CUDA

2026-04-28 09:32:35　來源: 半導體行業觀察

上海舉報

分享至

導語：

英偉達的優勢從來不只是一塊 GPU，而是 CUDA 把芯片、編譯器、算子庫、框架接口和開發者習慣綁成了一整套體系。企業一旦在這套體系里完成訓練、部署和運維，后續每一次遷移都會面對代碼重寫、算子補齊、框架重適配和性能回退的連鎖成本。

對國內廠商來說，這意味著兩個風險同時存在：一是長期依賴單一路徑，產業鏈的自主可控始終受限；二是即便硬件能替代，軟件生態也未必能跟上，結果是“有卡，但是難用”。這也是為什么國產算力討論到今天，問題已經從單點性能競爭，轉向生態組織能力的競爭。

一、智能體時代：FlagOS搭建國產芯片適配底座

先簡單科普下智源 FlagOS 。

作為智源面向下一代 AI 基礎設施打造的全域智能操作系統，FlagOS 長期聚焦異構芯片適配、跨架構協同、AI 生態開放三大核心方向，核心目標是打破單一算力架構壁壘，為大模型、AI 智能體、端邊側智能應用提供統一的底層運行底座。

隨著大模型進入智能體階段后。

模型不再只是做單輪生成，而是要跨框架、跨場景、跨設備持續運行，底層基礎設施就不能再只服務一種架構、一類任務。

眾智 FlagOS 2.0 給出的判斷很直接：如果沒有普適計算，智能體難以跨芯片運行；如果沒有開放計算，AI 生態就會被單一路徑鎖定。沿著這個邏輯看，國內產業對架構多元化和本土化替代的訴求，本質上都指向同一個問題——不是簡單復制一個 CUDA，而是先建立一套可以讓多種國產芯片共同接入、共同演進的公共底座。

FlagOS 2.0 目前已支持18 家廠商、32 款 AI 芯片，算子總數達到 497 個，應用范圍也從大模型訓練推理擴展到邊緣推理、機器人和科學計算，這些數字的意義不在于規模更大，而在于它開始嘗試把分散的國產硬件，放進同一套軟件語言里。

這也是海外封閉生態對國內創新真正的制約所在。

過去行業里常見的做法，是每一種芯片配一套工具鏈、每一個框架做一次魔改、每一家廠商各自維護自己的適配版本。表面看，國內生態很熱鬧，但從開發者視角看，碎片化意味著學習成本和遷移成本持續累積。

FlagOS 2.0 在統一插件體系上連接vLLM、Megatron-LM、Transformer Engine等主流框架，在底層又通過Flag Tree、Flag Gems、FLIR這類組件推動編譯和算子層的統一，試圖解決的正是“一種芯片一套開發工具”的老問題。說得更直白一點，國內算力現在最缺的，是一套讓不同技術路線能共同參與競爭的基礎設施。

在這個背景下，智源推動的 FlagOS，更像是一場“先搭公共路基，再談單車速度”的嘗試。不是押注某一家芯片公司，而是把GPU、DSA、RPU（可重構數據流）三條路線同時納入同一套技術框架中。Triton-TLE 已支持 31 種原語，并分別在 GPU、DSA、可重構計算三類代表性架構上完成驗證；FLIR 也開始探索統一中間表示層，讓不同芯片共享一部分編譯優化能力。換句話說，智源并不是想證明哪條路線天然勝出，而是想先降低多路線并行的協同門檻。對一個仍在追趕期的產業來說，這比單點押注更現實。因為國產生態的短板，從來不是沒有路線，而是路線太多但彼此不兼容。

二、除了打通芯片、模型與應用，也提供“第三種可能”

在芯片、模型和應用層，最核心的統一價值就是，對芯片廠商來說，減少重復適配和各自造輪子的成本；對模型廠商，它縮短從模型發布到國產算力可用的時間差；對應用方，它至少提供了一種更可預期的遷移路徑，而不是每次換底座都從零開始。

FlagOS 2.0 里FlagGems 已覆蓋 40 個主流模型、推理任務算子覆蓋度達到 90% 到 100%，FlagScale 則試圖把推理、訓練和強化學習的接入方式標準化。這些工作看上去偏底層，離市場很遠，但決定生態是否成立的，往往就是這些不顯眼的工程層。國內 AI 產業過去最容易掉進去的誤區，是把發布當成落地；而統一適配標準，恰恰是把落地前面的摩擦一點點削掉。

GPGPU 仍然承擔通用計算主力，優勢是開發者熟悉、生態接口接近國際主流，DSA 代表更強的場景化優化能力，適合在既定任務模型下做深度打磨；而RPU（可重構數據流），提供的是第三種可能：它既不完全走 GPU 的通用堆疊，也不完全走固定數據流的專用設計，而是試圖在靈活性和效率之間找到一個新的平衡點。眾智 FlagOS 把它與 GPU、DSA 一起納入三條代表性架構路線，本身已經說明，可重構計算不再只是實驗室概念，而是被放進了國產生態的正式坐標系中。

三、“第三種可能”：架構創新實現性能突破

RPU（可重構數據流）的差異化價值，核心在于通過“軟件定義硬件”核心技術，讓芯片硬件能根據不同AI任務實時動態重組，可兼顧高效性與靈活性，實現低延遲、低能耗，以此應對未來復雜多變的AI計算需求。

對行業來說，這件事的價值不只是一個性能數字，而是說明非 GPU 架構也有機會進入主流開發工作流，而不是永遠停留在能跑但難開發的階段。

從生態表現看，RPU 至少已經不再是邊緣角色。清微智能為例，在 FlagOS 生態中的適配模塊數量位居前列，在非 GPU 架構中與華為昇騰分列一二位，這意味著它在統一軟件棧里的參與度已經進入第一梯隊。

更值得注意的是它的適配速度，尤其在最新模型適配上表現突出：4 月 8 日智譜 GLM-5.1 開源當天，清微智能即完成模型適配；在 4 月 24 日 DeepSeek 重磅發布 V4 系列模型后，清微智能基于成熟的軟硬件協同架構，攜手智源眾智FlagOS，在模型發布當天就完成了DeepSeek-V4-Flash版本的全量算子適配與驗證，成為國內首批實現該模型全量算子兼容的芯片廠商。此外，清微智能還與千問等其他主流模型保持同步迭代，持續夯實其在國產AI算力生態中的核心地位。

四、演進：從分散替代到多架構組團協同

這也解釋了為什么國產架構競爭正在從分散替代走向組團協同。國內算力企業如果都試圖復制同一條路徑，結果很可能不是生態繁榮，而是同質化內耗：大家一起追一個最成熟、也最難追上的方向，最后誰都拿不到足夠大的開發者規模。

更合理的格局，是不同路線在各自擅長的場景里補位：GPGPU 繼續承擔廣譜兼容任務，DSA 在高強度場景優化里建立優勢，可重構架構則在模型快速適配、邊緣部署、輕量化推理和部分定制場景中釋放彈性。據了解，此前清微 RPU 與華為昇騰形成的非 GPU 梯隊，至少已經讓這種互補關系具備了雛形。它不是誰替代誰，而是誰把國產架構的覆蓋面再往外推一步。

從這個角度看，未來，突破 CUDA 壁壘也許并不取決于是否有單點能力，能在所有維度上完全復制英偉達。更現實的路徑，是先建立一個能容納多種國產路線協同演進的生態，把工具鏈、算子、框架和模型適配變成公共能力，再由不同架構在不同場景里分擔任務。FlagOS 的價值就在這里：它讓國產芯片企業不必各自孤軍作戰，而是有機會在同一個生態里共享一部分軟件資產、共享一部分開發者心智。對于還處在建設期的產業，這種組團價值，可能比單家廠商的短期性能沖刺更重要。

5、結語：架構多元化，引領國產AI生態發展

真正決定下一階段競爭的，也不會只是芯片參數，而是生態協同深度和技術落地能力。

架構多元化不是為了證明哪條路線最正確，而是為了讓國產 AI 不再被單一路徑定義。以 RPU 為代表的創新架構，提供的不是對 GPU 的簡單跟隨，而是把國產算力從先適配、再優化的被動節奏，往按場景設計、按任務組織的主動節奏推了一把。

未來能否持續推進，關鍵不在于再講多少國產化替代敘事，而在于誰能把統一軟件棧做厚，把模型接入做快，把真實業務場景跑通，國產 AI 生態若想形成長效發展機制，最終比拼的不是某一家廠商講了什么，而是誰真正把多架構協同這件事，做成了開發者愿意用、客戶愿意遷移的現實能力。

文章來源：數聚勢能

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.