網易首頁 > 網易號 > 正文申請入駐

國產GPU首獲全球頂級推理框架「原生門票」：MUSA合入SGLang主線

2026-05-14 16:03:08　來源: 機器之心Pro

河北舉報

分享至

機器之心編輯部

如果只看這場 Meetup 的嘉賓名單，你大概會先想到海外芯片巨頭，或者某家國際 AI 基礎設施公司。

畢竟，SGLang、TileLang、Triton 、Mooncake…… 這些今天大模型推理棧里最活躍、也最有存在感的開源項目，幾乎都有核心開發者來到現場。

但真正把這群人聚到一起的，竟然是摩爾線程。

這才是這件事最值得看的地方。它說明一件事：國產 GPU 廠商開始不只是追著生態跑，而是打入了全球主流開源 AI 軟件棧，成為共建者

近日，摩爾線程舉辦「SGLang × MUSA Meetup」，分享了其與 SGLang 社區及 MUSA 生態協同推進的最新進展。

自上個月 DeepSeek V4 發布后，摩爾線程第一時間基于 SGLang 開源推理框架，成功完成了 DeepSeek V4 的完整運行驗證，并率先打通了從硬件架構核心計算引擎承接、熱點算子支持，再到端到端部署驗證的系統化適配鏈路。

另一項關鍵進展是，摩爾線程 MUSA 后端已正式加入 SGLang 官方支持體系，相關代碼也已成功合入 SGLang 主線，獲得了這一全球頂級開源推理框架的「原生支持」。

這意味著不僅是 DeepSeek V4，從 Qwen、GLM、MiniMax 到 Wan，越來越多主流大模型的推理加速能力，都正在向國產算力生態原生開放。

擁抱開源推理框架

摩爾線程做了什么

在 AI 技術棧中，SGLang 是連接大模型與底層硬件的推理服務框架，是讓頂尖 AI 真正落地成 App 的關鍵一環。自 2025 年起，SGLang 開始走向通用硬件適配，陸續加入了對 AMD、英特爾芯片的支持。

此次摩爾線程代碼合入 SGLang 主線，意味著摩爾線程已經與國際主流芯片站在了同一陣列，正式躋身 SGLang 官方后端矩陣。

基于這一官方支持體系，開發者在使用 SGLang 運行大語言模型及多模態推理任務時，已經可以直接調用摩爾線程全功能 GPU，完全無需再依賴任何第三方適配層。

為什么摩爾線程能做到這一步？摩爾線程 CTO 張鈺勃在這場技術分享上的致辭中給出了答案：立足「通用計算」，以 MUSA（Meta-computing Unified System Architecture）開放架構擁抱開源生態。

他強調，摩爾線程不走封閉路線，而是堅持底層計算平臺的真正通用與高度統一。一方面，通用架構能支撐從物理世界仿真、數字孿生到具身智能的未來技術演進，不為創新設限；另一方面，通過全產品線「統一」的指令集與架構標準，確保軟件生態能夠持續沉淀與積累。

針對開發者最為關心的「生態遷移」痛點，張鈺勃直言：「摩爾線程秉持開放的態度，MUSA 在接口設計上最大程度復用了開發者熟悉的 GPU 編程習慣。我們不希望獨立創造一套封閉的生態，而是以零學習成本，全面融入現有的繁榮生態。」

這種「零學習成本」的承諾，正真真切切地反映在摩爾線程與 SGLang 的工程落地中。

自今年 1 月起，摩爾線程向 SGLang 提交 issue，提供增加 MUSA 支持的完整路線圖和任務拆分，計劃涵蓋：在 runtime 部分對 LLM 的支持，AOT Kernel 的支持，多模態生成的支持，Docker、CI、release 的支持等等。

現在，AI 開發者使用國產 GPU 后，不需要再做復雜底層改造，就能直接用上全球目前最先進、最高效的大模型調度框架。目前，SGLang 已支持通過源碼方式進行安裝，并可按照文檔直接完成部署，能夠直接在摩爾線程 MTT S5000 智算卡上正常運行，并支持了幾乎所有的基礎模型，無需任何二次代碼改造，顯著降低了開發者的算力遷移門檻

過去將代碼遷移到國產 GPU 需要手動搜索和修改大量的 torch.cuda 原語。針對這個問題，摩爾線程開發了torchada 適配層，實現了「一次 import，全包搞定」。開發者只需引入適配包，即可自動將大模型的顯存管理、流處理等 CUDA 接口無縫橋接到 MUSA 平臺上，大幅降低了適配與維護成本。

同時，針對無法直接遷移或性能不佳的算子，摩爾線程應用開源的MATE（MUSA AI Tensor Engine）高性能算子庫進行替換和加速，其提供了高性能 Attention 與 GEMM 算子，已對接 FlashAttention、FlashMLA、DeepGEMM 等主流接口。

在模型一側，摩爾線程已支持 DeepSeek 模型，在最新的 DeepSeek V4 上，摩爾線程正在與社區協作，希望以 Jit Kernel 和 TileLang 的方式實現優化。摩爾線程支持 Qwen3、Qwen3.5、Qwen VL 視覺模型，以及 MiniMax 的 M2.5、M2.7 和智譜 AI 的 GLM 4、5 系列等模型。

Diffusion 模型方面，摩爾線程也完成了對文生圖、文生視頻、圖生圖、圖生視頻的支持，覆蓋 Qwen-Image、Wan 等模型。

量化方面，摩爾線程 MTT S5000天然支持 FP8，部分 GGUF、INT4 量化支持也已提供，能夠讓更多、更大的模型在國產 GPU 上更好地運行。

在分布式支持上，摩爾線程的目標是支持所有的分布式方法，基于 MCCL 為底座和自身 Custom Allreduce，已經支持 TP/PP/DP/CP/EP，通過 Mooncake 的方式支持 PD 分離。

在短短幾個月內，摩爾線程取得了大量工程和生態成果。截至 5 月 12 日，其已向 SGLang 官方提交了47 個PR（合并入主線41 個），完成了從環境構建到分布式推理的全鏈路打通，MUSA 已經正式成為 SGLang 官方原生支持的后端之一。

未來，摩爾線程計劃對更多國產開源模型提供支持。通過深度的軟硬件協同優化，國產 GPU 在 SGLang 這一先進推理框架上具備了生產力價值，跟上了當前 DeepSeek、多模態長文本等最前沿的 AI 技術演進。

開源「全明星」見證

看見號召力

當然，國產算力的適配與優化，需要開源生態所有成員的貢獻。

前幾日「SGLang x MUSA Meetup」技術沙龍上，從 LLM 推理框架最炙手可熱的 SGLang，到底層算子編程語言 Triton 與 TileLang，再到分布式推理「卷王」項目 Mooncake，幾乎你能在 2026 年大模型推理技術棧上點到名的關鍵開源項目，都派出了核心維護者來到現場。

其中包括：

SGLang 核心開發成員 Xiaoyu Zhang（BBuf），來自全球最活躍的開源 LLM 推理框架之一；
北京智源人工智能研究院 AI 編譯器研究員肖航，帶來基于 Triton/TileLang 的 FlagOS 生態；
TileLang Maintainer 唐正舉，DeepSeek V3.2 與 V4 核心算子背后的 DSL 項目核心成員；
Mooncake Contributor 馬騰，分布式推理基礎設施 Mooncake 的核心開發者之一。

把這些名字放在一起看，會更有意思。SGLang 管推理框架，Triton 和 TileLang 往下深入到算子與編譯，Mooncake 則補上大規模分布式推理的基礎設施。它們并不是同一個項目，但幾乎拼出了當前大模型推理棧最關鍵的一張地圖。

而這一次，地圖上的人都來了，且討論的重點之一，正是國產 AI 算力。

SGLang 核心開發者 BBuf：推理框架的新底牌

SGLang 是當前最流行的開源 LLM 推理框架之一，DeepSeek V3 的 EP 與 PD 分離方案就出自該社區。

BBuf 介紹了 SGLang 近期的關鍵進展，包括支撐 DeepSeek-V4 等模型的 Prefill-Decode 分離架構與分層緩存機制，以及 Zero?overhead Speculative Decoding 帶來的推測解碼效率提升。目前在算子層，原有的 sgl?kernel 包已逐步遷移至全新的 Jit?kernel 體系，基于 TVM?FFI 實現按需編譯，提升了開發與發版效率。同時，SGLang 積極引入 Vibe Coding 實踐，利用 AI Agent 自動完成了超 60 項性能分析與調優任務。

2026 Q2 路線圖里，摩爾線程 MUSA 已經與 GB200/GB300、AMD、TPU、Intel 一同列入官方硬件支持矩陣，未來雙方將深化原生算子支持，共同推動頂級推理框架與國產算力底座的「原生」級融合。

智源 AI 編譯器研究員肖航：讓 Triton 在 MUSA 上跑通跑快

BAAI 智源研究院 AI 編譯器研究員肖航老師帶來了 FlagOS 生態的最新進展。

FlagOS 基于 Triton 構建，其核心是算子庫 FlagGems 與統一編譯器 FlagTree，目標是「一套算子，多家芯片」。目前，FlagGEMs 算子庫已涵蓋超 497 個算子，并依托 FlagTree 編譯器與 Triton-TLE 語言擴展，實現了跨芯片的高性能算子生成。

在 FlagOS 上，通過融化、量化等方式，FusedMoE 和 FP8 GEMM 等算子性能加速了四倍；FlagTune 把調優結果做成了可下載的社區資產。

在 MUSA 平臺上，FlagOS 與摩爾線程聯調，通過環境變量啟用 MUSA 的 TMA 向量加速引擎。在 DeepSeek-V4 的 Day0 適配中，通過摩爾線程專用的張量加速引擎與 FlagOSTune 調優方案，TTFT 時延降低 56.7%，吞吐量提升 65.7%。這種跨芯片的統一抽象與優化機制，正為摩爾線程等國產 GPU 構建起更加豐富、高效的算力應用生態。

TileLang 維護者唐正舉：Tile 抽象兼顧少代碼與高性能

唐正舉老師介紹道：作為 Tile 級領域特定編程語言（DSL），TileLang 在化解算子硬件依賴與性能調優上具有核心優勢。開發者能以極簡代碼實現極致性能。

簡單來說，約 50 行代碼，開發者能夠構建出性能比肩 FlashAttention 專家級實現的 Kernel；在 Attention-Sinks 等算子上，加速比超過 20 倍。為了覆蓋不同層次的用戶，TileLang 設計了 Beginner、Developer、Expert 三種編程模式，從快速上手到深度調優都有對應的入口。

開源不到一年，TileLang 已積累超過 6000 顆 Star。此次與摩爾線程 MUSA 生態的深度聯調，目標是為其全功能 GPU 構建一套完整的高性能算子庫。Tile-AI 社區接下來還將在分布式算子編程、自動調度等方向持續推進。

Mooncake 貢獻者馬騰：推理解耦時代的基礎

馬騰老師介紹了 Mooncake 與 SGLang 深度結合的技術路線。

傳輸引擎層面，Mooncake 充分利用零拷貝 RDMA 與多協議支持，在高吞吐與超低延遲之間找到平衡；KV Cache Store 則把 GPU 顯存、DRAM、SSD 等異構存儲統一池化，讓長上下文推理的成本大幅下降。

在彈性 EP 架構中，Mooncake 支持故障節點的動態摘除與 Expert 映射調整，集群容錯能力顯著提升；在 RL 權重更新場景下，通過 P2P 傳輸，同步時間從 53 秒壓縮到了 7.2 秒。

目前，摩爾線程已作為 Mooncake 項目的核心 Maintainer 之一，深度參與多節點通信協議等關鍵特性的共建。從傳輸引擎到異構存儲池化，再到彈性容錯，這一系列工程創新正在把 Mooncake 推向現代 AI 生產與部署軟件棧的核心位置。

結語

從單純的主動推理框架適配，到與開源社區開發者共同推進底層能力建設，摩爾線程如今更像是在參與搭一張桌子，而不只是申請一張入場券。

這兩年，「大模型在國產卡上訓練推理」的新聞層出不窮，但單點硬件適配的速度還遠遠跟不上 AI 技術演進的步伐。真正稀缺的，從來不是跑通一個 demo，而是建立一個能獲得大模型開源社區內深度認可、持續參與的穩定研發生態

尤其是在 DeepSeek V4 的節點上，摩爾線程與社區的深度共建顯得尤為重要。

主流開源項目愿意把你寫進 Roadmap、寫進 CI 矩陣、寫進 Maintainer 名單。SGLang 官方支持列表里有 MUSA，FlagOS 與 TileLang 倉庫里有 MUSA 的適配，Mooncake 的 Maintainer 團隊里有摩爾的工程師。每一條單獨拎出來或許都不算大新聞，合在一起就是另一回事：全球最活躍的幾個開源推理項目，都已經把摩爾線程視作生態共建的穩定一極。

國產 GPU 的故事，常常被簡化成「對標英偉達」，架構、算力和制程是直觀的指標。而隨著大模型真正跑起來，進入生產部署環節，我們可以看到：開源社區的活躍度和影響力，正在成為硬實力的證明。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.