<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      國產GPU組了個開源局,把SGLang等核心開發者都搖來了!

      0
      分享至

      金磊 發自 凹非寺
      量子位 | 公眾號 QbitAI

      沒有大廠高管站臺,一屋子卻擠滿了開源圈的熟面孔。

      隨便往臺下掃一眼,就能對上好幾個GitHub上的明星ID

      • 有目前大模型推理框架頂流SGLang的核心開發者BBuf(Xiaoyu Zhang);
      • 有主導下一代算子編程生態TileLang的維護者唐正舉
      • 有操刀KVCache解耦與傳輸神器Mooncake的核心貢獻者馬騰
      • 有來自智源人工智能研究院、圍繞Triton/FlagOS死磕AI編譯器的肖航
      • 還有像R0CKSTAR這樣在GitHub上異常活躍的硬核開發者。



      這場看似是開源圈極客們的面基會,卻著實是有點反差在身上的——

      活動的攢局者,是國產GPU玩家,摩爾線程

      這事確實有點意思。

      因為過去提到國產GPU,外界最容易想到的關鍵詞,往往還是硬件參數、顯存容量、算力指標、生態替代、模型能不能跑起來。

      但這場SGLang × MUSA Meetup真正拋出的問題已經變了:

      怎么讓國產GPU真正進入大模型推理的主流開源工程鏈路?

      說得更直接一點,就是讓SGLang、Triton/FlagOS、TileLang、Mooncake、KVCache、P/D分離、分布式通信、CI/CD、upstream PR這些東西,能夠圍著國產GPU一起轉起來。

      有一說一,在整體聽下來之后,有一個非常直觀的感受。

      那就是國產GPU的競爭,已經不只是芯片參數之爭,轉而開始邁向生態坐標之爭

      為什么這么說?我們繼續往下看。

      國產GPU開始“擴圈”了

      先看這場Meetup本身。

      它的主題很明確:SGLang × MUSA。

      SGLang是當下大模型推理serving領域關注度很高的開源框架,面向LLM和多模態模型,核心目標是低延遲、高吞吐,覆蓋從單卡到大規模分布式集群的部署場景。

      這類框架之所以重要,是因為今天的大模型落地,早就不是“模型訓練好了,放上去跑”這么簡單。

      真正進入生產環境后,系統要處理的是一整套復雜問題。

      例如prefill和decode怎么拆,KVCache怎么復用,長上下文怎么省錢,多輪對話怎么降TTFT,大規模集群怎么調度,新模型發布后怎么day-0 support,出了性能gap怎么定位到具體kernel。

      第一個上臺的是SGLang核心開發者BBuf


      △SGLang核心開發者BBuf

      這個在GitHub上擁有27k星的開源推理框架,現在已經是全球開發者部署大模型的首選。

      他帶來的SGLang 2026 Q2 Roadmap,每一條都踩在行業的痛點上:

      • 針對DeepSeek V4的全鏈路優化,包括W4A16量化、MegaMoE加速和稀疏注意力支持;
      • jit_kernel全面替代傳統的sgl-kernel,用TVM-FFI把編譯速度提升了數倍,再也不用等幾個小時的wheel包;
      • Vibe Coding全面落地,用AI agent自動分析profiler、定位性能瓶頸、提交PR,5月前已經完成了超過60個優化任務;
      • 多模態能力全面升級,支持LTX2、Wan、混元視頻等最新模型,性能比其他框架最高快5倍。

      最讓人印象深刻的是他展示的一組數據。

      SGLang通過P/D分離架構,在12個H100節點上跑出了52.3k輸入token/s/node、22.3k輸出token/s/node的成績,比DeepSeek官方API還便宜5倍,這個結果已經被全球10多個團隊復現。

      緊接著上臺的摩爾線程ContributorR0CKSTAR,帶來了全場最硬核的工程實踐分享。


      △摩爾線程工程師R0CKSTAR

      他用一句話總結了過去半年的工作:

      SGLang on MUSA已經完成了從環境構建到CI測試的全鏈路打通。

      這意味著什么?

      現在你只要克隆SGLang的官方倉庫,安裝sgl-kernel和sglang,就能在摩爾線程MTT S5000顯卡上直接運行幾乎所有主流大模型。

      DeepSeek、通義千問3.5、GLM-4.5、FLUX、Wan這些熱門模型,都已經完成了深度優化。

      他特別提到了MUSA的三層CUDA兼容棧。

      過去適配一個推理框架要改幾千行代碼,現在只要在開頭加一行import torchada,99%的CUDA代碼就能直接運行。這個看似簡單的改動,解決了國產GPU生態的一大痛點。

      據了解,截至5月12日,摩爾線程在SGLang主線累計提交47個PR,其中41個已合入,完成了從環境構建到分布式推理的全鏈路打通。

      智源的肖航則帶來了DeepSeek V4在MUSA上的Day0 適配成果。


      △智源AI編譯器研究員

      通過FlagOS的Triton算子優化和摩爾線程的SQMMA張量加速引擎,他們把DeepSeek V4的首token延遲降低了56.7%,吞吐量提升了23%。

      對此,肖航表示:

      我們沒有做什么黑魔法,就是把兩個最關鍵的算子優化到了極致。

      FP8 矩陣乘算子平均加速8.85倍,稀疏注意力算子平均加速6.01倍,這兩個占了推理時間80%的算子一優化,端到端性能自然就上去了。

      TileLang維護者唐正舉的分享,則讓所有人看到了下一代算子編程的未來。


      △TileLang維護者唐正舉

      這個2025年2月才開源的項目,短短一年多就收獲了6k星和133位貢獻者,連DeepSeek V4的核心kernel都是用TileLang寫的,正如唐正舉所說:

      用TileLang寫FlashAttention,只要50行Python代碼,性能和專家手寫的CUDA一模一樣。

      并且從他在現場展示的對比圖來看,同樣的GEMM算子,TileLang用15行代碼達到了CUTLASS的性能,代碼量減少了90%。

      最后上臺的阿里云馬騰,帶來了Mooncake項目的最新進展。


      △Mooncake Contributor 馬騰

      這個專注于KVCache解耦的項目,現在已經是SGLang、vLLM等主流推理框架的標配。

      他展示的一組較為吸睛的數據:

      通過RDMA P2P權重更新,Kimi K2 1T模型的權重同步時間從53秒降到了7.2秒,加速了7.37倍;EPD三級解耦架構讓多模態模型的首token延遲降低了6-8倍;HiCache + Mooncake后端讓多輪對話的緩存命中率超過90%。

      至此,這場Meetup的拼圖基本完整——

      SGLang是推理框架主鏈路,MUSA是國產GPU底層平臺,FlagOS/Triton解決關鍵算子優化,TileLang降低高性能kernel編程門檻,Mooncake補上KVCache和生產部署。

      這,便是一條較為完整的工程鏈路。

      為什么摩爾線程能把他們搖來?

      這個問題的答案不能只歸結為辦了一場活動。

      開源圈很現實,大家愿意來,核心原因不是誰會講故事,是這件事真的和他們正在做的工程問題有關。

      首先看MUSA本身的設計初心。

      摩爾線程CTO張鈺勃在開場中解釋,MUSA是Meta-computing Unified System Architecture。


      △摩爾線程CTO張鈺勃

      Meta-computing指向通用計算,摩爾線程希望GPU盡量擁抱通用計算,而不是給未來可計算的領域設限;Unified則意味著摩爾線程產品希望遵循同一套統一標準,避免不同產品線使用不同指令集和架構,導致軟件生態無法積累。

      更關鍵的一句話是,MUSA不希望開發者為了使用MUSA而重新學習一套東西。

      這句話看似樸素,其實直指國產GPU生態的痛點。

      開發者最怕什么?

      不是新硬件本身,是為了新硬件,學習一整套新API,重寫一堆代碼,改完還進不了上游,社區一更新又要重新補丁。

      如果一個國產GPU生態要求開發者從頭學一遍,那它面對的便是巨大的遷移阻力。

      所以MUSA的路線,是盡量貼近開發者已經熟悉的GPU編程方式、API接口和使用習慣。底層實現可以不同,但上層體驗盡可能一致。

      三層CUDA兼容棧的意義就在這里。

      torch_musa負責把PyTorch和MUSA的基礎能力接起來;torchada負責讓CUDA-first生態繼續工作;mthreads-ml-py負責把設備管理、拓撲、顯存、MTLink、P2P等信息暴露給上層框架。

      用一句更通俗的話說,摩爾線程在盡量把原來的路修到自己門口。

      這直接影響到開源社區協作的可行性。

      因為上游項目最看重的是低侵入、可維護、可復用。如果一個適配方案需要大面積改動主線代碼,后續每次rebase都痛苦,上游很難接受。

      反過來,如果適配可以通過更透明的方式完成,PR就更容易被review,也更容易持續跟隨社區迭代。

      這就是從“我自己維護一個分支”到“我進入主線”的區別。

      再看生態結合。

      SGLang × MUSA,是推理主鏈路打通。

      摩爾線程從去年開始把SGLang作為重點接入和貢獻的開源項目,經過大半年努力,MUSA后端近期已經合入SGLang主線。后續不只是跟隨feature,也希望在框架層面貢獻更多能力。

      這件事的意義在于,國產GPU不再只是某個框架的外部適配對象,已經開始成為主線生態的一部分。



      FlagOS × MUSA,是關鍵算子和新模型適配。

      大模型推理的性能競爭,越來越多發生在kernel、編譯器、調度、低精度和通信層。DeepSeek V4 day-0適配這樣的工作,本質上考驗的是從模型發布到工程落地之間的反應速度。能不能第一時間跑通,能不能快速調優,能不能在真實shape上找到更好的配置,決定了生態跟不跟得上。



      Mooncake × MUSA,是推理解耦和生產部署。

      KVCache的價值在Agent、多輪對話、長上下文時代被進一步放大。Mooncake與MUSA的結合,不只是讓某個緩存后端能跑在國產GPU上,更是在探索跨實例KVCache共享、彈性擴縮容、緩存復用、原地升級這類生產級問題。



      TileLang × MUSA,則是下一代算子生態的提前布局。

      如果未來更多模型和硬件都需要定制kernel,算子編程不能永遠停留在少數專家手里。TileLang這類DSL的價值,是把高性能kernel編程變成更多開發者能上手的工程工具。



      這四條線合在一起,才是摩爾線程能組局的底氣。

      它把自己放進了大模型推理的真實工程網絡里,包括框架、算子、緩存、通信、部署、CI/CD、upstream等等。

      而這,也是國產 GPU 生態真正要補的課。

      國產GPU的生態位,正在走向協作

      如果把這場Meetup從更宏大的算力發展角度來看,它的價值或許遠超技術分享本身。

      過去幾年,國產GPU的生態困境是比較明顯的。

      許多廠商習慣了閉門造車,自己從頭寫一套深度學習框架,自己攢一套算子庫,結果因為不符合主流開發者的習慣,鮮有人問津。

      又或者,有的廠商只是拉一個私有Fork做適配,從來不向開源上游提交代碼,導致主流框架一更新,自己的適配版本就成了無人維護的孤品。

      而現在,摩爾線程給出了一個完全不同的答案:

      全面融入全球開源生態,去和世界上最聰明的一批人一起做事。

      在這場活動中,我們頻繁聽到幾個詞:Day-0 Support、Upstream PR、CI/CD。

      這說明國產GPU的生態位正在發生質變。摩爾線程不再只滿足于做一個被動的適配者,它要的是主動出擊,成為核心代碼的“貢獻者”,甚至是未來架構的“共建者”。

      他們不僅僅是丟一個單點的Patch過去,而是把一整套包含環境構建、PR提交、CI自動化測試、Release發布、文檔維護在內的工程閉環,深深地嵌入到了SGLang等頂級項目的血脈中。

      這種可持續的Upstream模式,才是真正掌握生態話語權的方式。

      這場開源局還證明了一件事,國產GPU已經走上了大模型推理開源生態的公共牌桌。

      在這個牌桌上,已經坐著風頭正勁的SGLang,坐著死磕底層編譯的Triton/FlagOS,坐著重塑算子生態的TileLang,坐著主導解耦架構的Mooncake。

      而現在,國產GPU,也可以拉開椅子,從容地坐下來,和這群明星玩家們一起打好大模型時代最關鍵的這把牌。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      滬上阿姨“陪睡門”曝光,反轉震驚全網!

      滬上阿姨“陪睡門”曝光,反轉震驚全網!

      財經三分鐘pro
      2026-05-14 15:09:58
      老婆升職后立馬離婚改嫁領導,三天后前岳母來電:快來醫院交50萬

      老婆升職后立馬離婚改嫁領導,三天后前岳母來電:快來醫院交50萬

      千秋文化
      2026-05-11 20:33:49
      西伯利亞:吃不完的鹿肉,收不完的糧;砍不完的森林,挖不完的礦

      西伯利亞:吃不完的鹿肉,收不完的糧;砍不完的森林,挖不完的礦

      抽象派大師
      2026-05-12 20:12:00
      突發特訊!外交部通告:強烈譴責巴方有關行徑,引全球高度關注

      突發特訊!外交部通告:強烈譴責巴方有關行徑,引全球高度關注

      混沌錄
      2026-05-14 16:09:09
      午盤|瘋狂!A股大跳水!發生什么了?

      午盤|瘋狂!A股大跳水!發生什么了?

      龍行天下虎
      2026-05-14 11:54:07
      美國本次訪華人員包括國務卿魯比奧

      美國本次訪華人員包括國務卿魯比奧

      名人茍或
      2026-05-13 19:13:24
      日本U17女足4-0澳洲!5戰全勝進亞洲杯決賽 靜候中國VS朝鮮勝者

      日本U17女足4-0澳洲!5戰全勝進亞洲杯決賽 靜候中國VS朝鮮勝者

      我愛英超
      2026-05-14 16:56:33
      王少杰痛哭離隊,2000萬買斷費曝光!廣東男籃新五核心名單

      王少杰痛哭離隊,2000萬買斷費曝光!廣東男籃新五核心名單

      隱于山海
      2026-05-14 12:40:36
      一個地方官員看追覓“崩老頭”

      一個地方官員看追覓“崩老頭”

      無忌財談
      2026-05-13 20:32:36
      克宮:莫斯科和北京將同時宣布普京訪問中國的日期

      克宮:莫斯科和北京將同時宣布普京訪問中國的日期

      俄羅斯衛星通訊社
      2026-05-13 14:59:45
      3-2逆轉中亞勁旅,中國男足2連勝,比韓國凈勝球少屈居第二

      3-2逆轉中亞勁旅,中國男足2連勝,比韓國凈勝球少屈居第二

      側身凌空斬
      2026-05-13 21:30:47
      赫魯曉夫政變全過程!朱可夫在會議中掏出手槍,當眾把貝利亞扣押

      赫魯曉夫政變全過程!朱可夫在會議中掏出手槍,當眾把貝利亞扣押

      云霄紀史觀
      2026-05-09 03:25:07
      4只皮皮蝦事件后續:出租車司機被開除,顧客堅持認為司機收了錢

      4只皮皮蝦事件后續:出租車司機被開除,顧客堅持認為司機收了錢

      映射生活的身影
      2026-05-13 16:55:14
      《主角》她戲內土到掉渣,戲外漂亮可愛,憑一場吃饃戲就圈粉無數

      《主角》她戲內土到掉渣,戲外漂亮可愛,憑一場吃饃戲就圈粉無數

      露珠聊影視
      2026-05-14 11:54:28
      紀委已明確!公職人員“8小時外”的社交篇 , 這4種行為絕不能碰

      紀委已明確!公職人員“8小時外”的社交篇 , 這4種行為絕不能碰

      細說職場
      2026-05-13 14:18:41
      17歲高中生做出AI神器:看一下視網膜,就能識別自閉癥和多動癥

      17歲高中生做出AI神器:看一下視網膜,就能識別自閉癥和多動癥

      DeepTech深科技
      2026-05-14 13:13:08
      通車首日就翻車!這座讓臺灣等了40年的大橋,竟成了誰的生日派對

      通車首日就翻車!這座讓臺灣等了40年的大橋,竟成了誰的生日派對

      菁菁子衿
      2026-05-14 10:03:53
      浙江宣傳評世界杯轉播權之爭:與其花費巨資追捧海外賽事,不如投入本土足球

      浙江宣傳評世界杯轉播權之爭:與其花費巨資追捧海外賽事,不如投入本土足球

      澎湃新聞
      2026-05-08 12:24:10
      警方通報河北無極一男子持刀殺害女子 當地商戶:事發地為火鍋店,幾天前關門停業

      警方通報河北無極一男子持刀殺害女子 當地商戶:事發地為火鍋店,幾天前關門停業

      紅星新聞
      2026-05-14 14:47:17
      清華大學一全日制博士研究生被學校退學,學校公布原因,值得重視

      清華大學一全日制博士研究生被學校退學,學校公布原因,值得重視

      凱旋學長
      2026-05-14 15:58:08
      2026-05-14 18:36:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12623文章數 176462關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      媒體:中美元首會談超2小時15分鐘 兩國關系有新定位

      頭條要聞

      媒體:中美元首會談超2小時15分鐘 兩國關系有新定位

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      習近平同美國總統特朗普會談

      汽車要聞

      新時代傳統豪華是什么樣? 上汽奧迪E7X給出了自己的答案

      態度原創

      家居
      數碼
      房產
      親子
      手機

      家居要聞

      精神奢享 對話塔尖需求

      數碼要聞

      酷冷至尊預熱冰神B360 TV一體式水冷散熱器:6"長方形大屏

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      親子要聞

      恒河猴實驗給出答案:沒人回應的孩子,生存底線到底是什么?

      手機要聞

      華為Pura 90 Pro系列首周7日銷量曝光:超20萬臺,同比增70%

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色综合精品| 波多野结衣乱码中文字幕| 亚洲av无码乱码在线观看野外| 最新中文字幕国产精品| 国精品无码一区二区三区左线| 中文字幕乱码中文乱码51精品| 亚洲午夜无码毛片av久久京东热 | 午夜福利激情| 男女无遮挡猛进猛出免费观看视频 | 中文字幕日韩区二区三区| 尤物一区| 日韩大片高清播放器| 成年午夜精品久久精品| 四虎影视库国产精品一区| 国产69精品久久久久777| 国产毛片精品av一区二区| 国产日韩av一区| 777天堂麻豆爱综合视频| 狂野欧美性猛XXXX乱大交| 无码人妻一区二区三区免费N鬼沢 国产精品午夜av福利 | 久久精品夜色噜噜亚洲aa| 亚洲91视频| 免费夜色污私人影院在线观看| 在线观看亚洲欧美日本专区 | 久久99国内精品自在现线| 中文字幕不卡欧美日韩| 中文字幕亚洲日韩无线码| 欧美中文字幕人妻系列| 国产中文字幕在线一区| 激情伊人五月天久久综合| 国产精品国产三级国产an| 欧美xxxxhd高清| 337P日本欧洲亚洲大胆在线| 风韵丰满熟妇啪啪区老熟熟女 | 91成人社区| 韩国精品一区二区三区四区| 91在线国内在线播放老师| 中文幕无线码中文字蜜桃| 伊人亚洲综合| 国产美熟女乱又伦AV果冻传媒| 国产精品一区二区三区性色|