<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      FlagOS完成DeepSeekV4八款芯片Day0 適配,實現三重技術突破

      0
      分享至

      DeepSeek今日發布了DeepSeek-V4-Pro 1.6T 旗艦模型(1.86萬億參數)及DeepSeek-V4-Flash 284B 高效模型(2840億)。由智源研究院牽頭研發的眾智FlagOS第一時間對兩個“巨無霸”模型進行全量適配,已經完成 DeepSeek-V4-Flash在8款以上 AI 芯片上的全量適配與推理部署,包括海光、沐曦、華為昇騰、摩爾線程(FP8)、昆侖芯、平頭哥真武、天數、英偉達(FP8)等芯片。FlagOS 同時正在推進 DeepSeek-V4-Pro 模型在多個芯片的遷移適配,后續即將開源。

      首先完成在八款芯片適配的DeepSeek-V4-Flash 是深度求索推出的 V4 系列兩大模型之一,采用混合專家(MoE)架構,總參數量 284B,激活參數僅 13B,支持 100 萬 token上下文長度。該模型在架構上引入了混合注意力機制(結合壓縮稀疏注意力CSA與高度壓縮注意力HCA,大幅提升長上下文效率)、流形約束超連接(mHC,增強跨層 信號傳播穩定性)以及Muon優化器(加速收斂、提升訓練穩定性)。預訓練數據超過32Ttoken,后訓練采用兩階段范式——先通過SFT和GRPO強化學習獨立培養領域專家,再通過在線策略蒸餾將多領域能力統一整合到單一模型中。在最大推理力度模式(Flash-Max)下,給予更大思考預算使其推理能力可接近Pro版本水平;受限于參數規模,在純知識類任務和最復雜的Agent工作流上略遜于 Pro。 整體性能參考如下官方評測結果:



      圍繞DeepSeek-V4-Flash多芯適配,此次FlagOS系統軟件技術棧突破了三大關鍵技術:FlagGems全算子替代(實現多芯片統一適配)為o-group采用獨立張量并行策略解鎖更多低顯存場景、以及“FP4+FP8混合精度”的原生權重到 FP8/BF16 的精度路徑轉換。當下國內出貨的AI芯片,都沒有FP4的支持。英偉達也只有在Blackwell及之后的高端芯片才支持FP4。這三項關鍵技術,使得DeepSeekV4能夠在當前各種廠商的主流AI芯片上穩定運行,而非僅限于支持 FP4 和大顯存的少數高端AI加速卡。

      三大技術突破:為什么對支持多種AI芯片十分重要

      突破一:FlagGems 提供支持8種以上芯片的全算子替代——真正意義上的跨芯方案

      本次DeepSeek-V4-Flash的適配,FlagGems 實現了模型推理鏈路中全部算子的替代。這意味著什么?

      徹底脫離 CUDA 算子依賴:DeepSeek-V4-Flash的 MoE 專家調度、Attention 計算、RMSNorm、TopK 路由等全部核心計算模塊,均由 FlagGems 基于 Triton/Triton-TLE語言重新實現,不調用任何 cuDNN/cuBLAS 等NVIDIA私有庫。

      無需芯片廠商逐一適配:傳統模式下,每款新模型上線,芯片廠商需要投入工程團隊做算子適配。現在通過FlagGems+FlagTree編譯器的組合,新模型的算子可以直接編譯到多款芯片后端,芯片廠商不需要做任何額外工作。

      新算子即時可用:DeepSeek-V4-Flash引入的新計算模式(如 o-group 相關的分組路由機制),FlagGems 已經實現了對應的新算子,并通過 FlagTree 編譯器統一編譯到所有支持的芯片后端。

      FlagGems 作為全球最大的 Triton 單一算子庫,已擁有超過400 個大模型常用算子,并已正式進入 PyTorch 基金會生態合作項目。在 40 個主流模型上,推理任務算子覆蓋度達到 90%~100%,完整支持 DeepSeek-V4-Flash的全部計算需求。

      突破二:為o-group采用獨立并行策略——解除張量并行最多單機8卡限制

      DeepSeek-V4-Flash為了進一步降低計算開銷采用了分組輸出投影技術(Grouped Output Projection),配置為o-group=8,這導致在傳統的張量并行時候,最多切8份。而當前一些主流國產芯片的單卡顯存為 32GB 或 64GB,尤其在BF16格式情況下,需要張量并行大于8份才能放的下。為了解除這個限制,FlagOS專門針對o-groups進行了單獨張量并行策略設計和實現,確保o-groups切分不超過8份的前提下,能夠讓模型其他部分還采用經典的張量并行策略,并且實現超過8份的切分。通過不同的張量并行策略組合,能夠實現多于8臺設備的張量并行運行。

      FlagOS 團隊對o-group張量并行改動有:

      獨立的并行策略:獨立于已有的張量并行通信組之外,為o-group單獨構建所需要的張量并行通信組,確保其他模型結構張量并行切分超過8的情況下,o-group的張量并行在8以內。

      參數轉換調整:對o-group相關的參數,也進行了對應單獨的張量并行切分處理,以確保在新的獨立張量并行策略下,也能夠被正確加載。

      覆蓋面擴展:這一優化能夠將 DeepSeek-V4-Flash在單獨采用張量并行策略下,將可運行芯片范圍從"僅限單機80GB以上顯存的個別高端卡"擴展到"多機64GB/32GB的更多主流國產芯片",包括海光、沐曦、天數智芯等廠商的主力產品線。

      突破三:從“FP4+FP8混合精度” 到 BF16的精度轉換——打通主流芯片的計算路徑

      DeepSeek-V4-Flash模型發布時首次采用 FP4+FP8混合精度,該精度只有在Blackwell及之后的英偉達最新硬件上才有支持,但當前所有國內非英偉達 AI 芯片都未能支持,只有摩爾線程原生支持了FP8,其余依然以BF16為主。

      FlagOS 完成了從 FP4 到 BF16 的完整精度轉換:

      權重反量化:將 FP4 量化權重轉換為 BF16 格式。這不是簡單的類型轉換,而是需要根據 DeepSeek 的量化方案進行逆量化計算,確保數值精度。

      計算路徑重建:FP4 和 BF16 在底層計算上有本質差異——FP4 的動態范圍更窄,累加精度、溢出處理策略均不同。FlagOS 對推理鏈路中的 GEMM、Attention、MoE 路由等關鍵計算節點逐一適配了 BF16 路徑。

      精度對齊驗證:經過標準評測集驗證,BF16 版本與 FP4 原生版本在核心能力指標上保持對齊,確保精度轉換不引入業務層面的效果損失。

      本次,FlagOS推出了FP8和BF16兩種適配版本,讓DeepSeek-V4-Flash不再是"只有最新 NVIDIA 卡才能跑"的模型,而是真正可以部署在 FP8 及 BF16 生態的主流國產芯片上。

      FlagGems開源高性能新算子 全面支持 DeepSeek-V4-Flash

      本次新發布的DeepSeek-V4-Flash共有大約67個算子,FlagGems已全量支持。新支持了Act Quant、hc_split_sinkhorn、FP8 MatMul、Sparse Attention、Hadamard Transform等5個新算子,實現了對DeepSeek-V4-Flash的全面支持,也為跨芯適配打下重要基礎。

      FlagGems 支持 DeepSeek-V4-Flash 新算子的性能對比

      為了支持更多AI芯片的使用,FlagOS對DeepSeek-V4-Flash中使用的新算子使用Triton語言進行重新實現,基于FlagTree統一編譯器,性能全部超過原生性能。



      C++Wrapper技術是FlagOS技術社區專門為提升基于Triton語言的算子內核調用效率而打造的技術。目前已經支持了該技術的芯片包括華為昇騰、寒武紀、摩爾線程、平頭哥真武、及英偉達等。使用了C++ Wrapper技術,在普通的Transformers框架下,可以顯著提升使用了Triton算子的模型的端到端效率,實現跨芯普適、和高效推理的雙重目標。通過端到端效果評測(NV H20,DeepSeek-V4-Flash FP8),C++ Wrapper + Triton 比 TileLang 快11%,比 Python Wrapper 版快 39%。



      開發者極致體驗:"發布即多芯" + "極簡部署"

      1. 核心能力與原生版本對齊

      經 GPQA_Diamond、AIME等權威評測集驗證,FlagOS 適配后的 DeepSeek-V4-Flash,在語言理解、復雜推理、代碼生成、數學計算等核心能力上,與 CUDA 原生版本對齊,可放心應用于金融、教育、政企服務、代碼開發等場景,無需擔心適配導致業務效果折損。

      評測數據:



      注:本測試結果僅用于對遷移前(Nvidia-Origin)和遷移后(-FlagOS)版本的互相對齊驗證,并不代表 DeepSeek 模型的官方性能,DeepSeek 模型的官方性能以 DeepSeek 官方公布數據為準。

      2. 極簡部署:開箱即用,底層優化無感知

      FlagOS將核心算子庫、編譯器等技術組件前置內置到 DeepSeek-V4-Flash代碼框架中,開發者加載模型時,底層優化代碼自動生效,無需手動添加任何 FlagOS 初始化代碼。同時,基于 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-Flash-FlagOS 模型版本,標準化 Docker 鏡像 + 一鍵加速命令,解決了開發者最頭疼的環境配置、效果對齊、性能優化等問題。

      FlagOS 2.0 技術底座:從大模型到智能體時代的全棧升級

      DeepSeek-V4-Flash的三重突破,依托的是 FlagOS 2.0 統一多芯片系統軟件棧的全鏈路能力。從算子層、編譯層、框架層到工具層,全鏈路為大模型跨芯適配提供技術支撐,將原本數周的適配周期縮短至數天,真正實現極速落地。



      FlagOS:面向多種 AI 芯片的系統軟件棧

      1. 高性能算子庫 FlagGems:核心算子深度適配,釋放硬件算力

      FlagGems 作為 FlagOS核心的高性能通用大模型算子庫,基于 Triton 語言實現,針對 DeepSeek-V4-Flash推理鏈路的核心算子進行了深度適配與優化,包括 MoE 專家調度、Attention 計算、RMSNorm 等關鍵計算模塊,同時原生支持 NVIDIA、摩爾線程、沐曦、清微智能、天數等接近 20 家 AI 芯片。

      2. 統一 AI 編譯器 FlagTree:一次編寫,多芯編譯

      FlagTree 是 FlagOS 面向多 AI 芯片后端的統一編譯器,基于 Triton 深度定制,可將 DeepSeek-V4-Flash的核心算子編譯為英偉達、摩爾線程等十多種不同 AI 芯片后端可識別的指令,徹底解決不同芯片編譯器生態割裂的問題,大幅降低算子跨芯片適配的開發成本。

      3. 模型跨芯遷移發布工具 FlagRelease:半自動實現模型跨芯遷移與版本發布

      依托 FlagOS 全棧技術能力,FlagRelease 已完成 DeepSeek-V4-Flash在多種芯片上的模型遷移、精度對齊與版本發布,覆蓋 HuggingFace、魔搭等開源社區平臺。開發者可直接下載使用,無需自行遷移。截至本文發布,FlagRelease 已發布覆蓋 10+ 家芯片廠商、12+ 款硬件、70+ 個開源模型實例的跨芯適配版本。

      4. 統一多芯片接入插件 vLLM-plugin-FL:無縫兼容原生使用習慣

      vLLM-plugin-FL是 FlagOS 為 vLLM 推理服務框架打造的專屬插件,基于 FlagOS 統一多芯片后端開發,在完全不改變 vLLM 原生接口與用戶使用習慣的前提下,實現多芯片推理部署。目前 vLLM-plugin-FL 已經支持了英偉達、摩爾線程、海光、沐曦、平頭哥真武、天數智芯、昆侖芯、華為等多家芯片。

      開源共建:FlagOS持續做開發者的“跨芯適配后盾”

      當下,"異構算力協同、大模型普惠落地"已成為全球開源開發者社區的核心熱點,打破硬件生態隔離、讓大模型在不同算力平臺高效低成本運行,是無數開發者的核心訴求。FlagOS 從誕生之初就將開源開放、眾智共建刻入技術基因,始終以開發者為中心,通過全棧開源的統一系統軟件棧,把復雜的"M×N"硬件適配問題降維為"M+N",做每一位開發者最可靠的跨芯適配后盾。

      目前,FlagOS 已形成完整的開源技術體系,所有核心組件均已開源在 GitHub,同時開放了數十款最新的主流基礎大模型、十多款 AI 芯片的適配方案與最佳實踐,開發者可自由獲取、深度定制: 四大核心技術庫:FlagGems通用大模型算子庫、FlagTree 統一 AI 編譯器、FlagScale 訓練推理并行框架、FlagCX 統一通信庫,覆蓋算子開發、編譯優化、并行計算、跨芯片通信全鏈路; 三大開源工具平臺:FlagRelease大模型自動遷移發版平臺、KernelGen 算子自動生成工具、FlagPerf 多芯片評測工具,提供從模型適配、性能評測到工程落地的一站式工具鏈; 全場景擴展生態:vLLM-plugin-FL、Megatron-LM-FL、TransformerEngine-FL 等框架增強組件,以及 FlagOS-Robo 具身智能工具包,覆蓋大模型訓練、推理、應用全場景。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特斯拉FSD入華倒計時:中國智駕的鯰魚,已經游進池塘了

      特斯拉FSD入華倒計時:中國智駕的鯰魚,已經游進池塘了

      新浪財經
      2026-05-10 23:49:22
      乘客拒付40元高速費 00后車主又把其拉回起點:可以雙輸 但不能單贏

      乘客拒付40元高速費 00后車主又把其拉回起點:可以雙輸 但不能單贏

      中國能源網
      2026-05-11 15:05:05
      南京審計大學:將依據調查結果,依規依紀依法嚴肅處置

      南京審計大學:將依據調查結果,依規依紀依法嚴肅處置

      澎湃新聞
      2026-05-12 18:00:09
      狂轟64分17板11助!奎因這兩戰殺紅眼:廣東下賽季該提前續約他

      狂轟64分17板11助!奎因這兩戰殺紅眼:廣東下賽季該提前續約他

      籃球快餐車
      2026-05-12 22:23:50
      上海人的10條規矩,外地人看完沉默了

      上海人的10條規矩,外地人看完沉默了

      朗威談星座
      2026-05-12 17:23:14
      光明網評論員:擺渡車,不該是景區的錢袋子

      光明網評論員:擺渡車,不該是景區的錢袋子

      澎湃新聞
      2026-05-12 22:24:15
      朱丹自曝痛到當場求饒!要求立即終止,稱“不要錢也要結束”

      朱丹自曝痛到當場求饒!要求立即終止,稱“不要錢也要結束”

      魯中晨報
      2026-05-11 15:42:15
      中國“最荒涼”的985大學,建在村里,周圍都是深山,上學如流放

      中國“最荒涼”的985大學,建在村里,周圍都是深山,上學如流放

      明德閱讀
      2026-05-11 18:28:24
      港獨、罵中國人,如今卻還想來內地撈金,這3位香港明星令人作嘔

      港獨、罵中國人,如今卻還想來內地撈金,這3位香港明星令人作嘔

      傲傲講歷史
      2026-04-19 01:20:08
      “給你媽5000,給我媽1000就夠了!”丈夫:娶到你是我最大的福氣

      “給你媽5000,給我媽1000就夠了!”丈夫:娶到你是我最大的福氣

      一絲不茍的法律人
      2026-05-12 22:02:34
      特朗普登機前,兩黨議員聯手發難,通告白宮,不許和中方達成協議

      特朗普登機前,兩黨議員聯手發難,通告白宮,不許和中方達成協議

      鍋鍋愛歷史
      2026-05-12 22:03:31
      回顧:緬北女魔頭魏榕嗜好!經常“活剝驢耳”,3個閨蜜喜歡觀刑

      回顧:緬北女魔頭魏榕嗜好!經常“活剝驢耳”,3個閨蜜喜歡觀刑

      飛云如水
      2024-11-13 06:54:13
      4.5億歐元!拉莫斯笑了,將收購塞維利亞,已達成協議只待官宣

      4.5億歐元!拉莫斯笑了,將收購塞維利亞,已達成協議只待官宣

      奧拜爾
      2026-05-12 19:37:17
      大連一燒烤店內女子用鐵簽給狗擼串,還讓它坐在卡座上,市監局介入后店鋪停業整頓,店主:已銷毀全部鐵簽,向所有顧客致歉

      大連一燒烤店內女子用鐵簽給狗擼串,還讓它坐在卡座上,市監局介入后店鋪停業整頓,店主:已銷毀全部鐵簽,向所有顧客致歉

      大風新聞
      2026-05-12 10:08:22
      NBA季后賽明天5月13日賽程:天王山大戰!馬刺PK森林狼沖擊賽點

      NBA季后賽明天5月13日賽程:天王山大戰!馬刺PK森林狼沖擊賽點

      薇說體育
      2026-05-12 17:42:45
      發生5.1級地震!

      發生5.1級地震!

      應急360
      2026-05-12 17:52:40
      全球軍隊研究印巴507空戰,發現最震撼細節,難怪印度不想打了

      全球軍隊研究印巴507空戰,發現最震撼細節,難怪印度不想打了

      琴音似君語
      2026-05-10 17:56:21
      特朗普還沒訪華,中方提的要求,美方一口回絕,美媒有個不好預感

      特朗普還沒訪華,中方提的要求,美方一口回絕,美媒有個不好預感

      村里一枝花人
      2026-05-12 20:51:55
      回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

      回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

      素衣讀史
      2026-03-31 15:11:31
      山楂是天然血管清道夫,中年常喝這3款茶,血管干凈不堵塞

      山楂是天然血管清道夫,中年常喝這3款茶,血管干凈不堵塞

      開心美食白科
      2026-05-12 22:26:05
      2026-05-12 23:03:00
      前沿在線 incentive-icons
      前沿在線
      前沿在線官方賬號,關注AI、機器人、智能車等前沿領域;
      205文章數 1235關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      新電動車到手不足一月頻繁自動鎖死 老人被摔傷五六次

      頭條要聞

      新電動車到手不足一月頻繁自動鎖死 老人被摔傷五六次

      體育要聞

      總是掉鏈子的“倒霉蛋”,闖進了歐戰決賽

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      黃仁勛真是被白宮徹底封殺了

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      家居
      本地
      數碼
      教育
      公開課

      家居要聞

      極簡主義下的居住場域與空間

      本地新聞

      用蘇繡的方式,打開江西婺源

      數碼要聞

      華為全家桶來了!手機+平板+手表

      教育要聞

      想進深圳體制內的中小學校?看完這3092人名單,我勸你先考研

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 又大又硬又爽免费视频| 国产小视频在线观看| 国产精品自在拍首页视频8| 欧美成a人片在线观看久| 亚洲在线一区二区三区四区| 精品亚洲欧美高清不卡高清| 色综久久综合桃花网| 色妞ww精品视频7777| 夜鲁鲁鲁夜夜综合视频| 国产人妖网站| 久久久国产不卡一区二区| 国精一二二产品无人区免费应用| 久久久精品2019中文字幕之3| 婷婷四虎东京热无码群交双飞视频 | 国产午夜一区视频在线观看| 日本东京热一区二区三区| 少妇自拍偷拍| 岛国AV在线| 日本不卡三区| 欧美AⅤ| 精品国产91久久久久久亚瑟| 亚洲欧美日韩天堂在线观看| 饥渴的熟妇张开腿呻吟视频| 岛国最新亚洲伦理成人| 无套内射视频爽| 色情电影网址| 亚洲成人精品一区二区中| 激情影院内射美女| 久久96热在精品国产高清| 偷拍激情视频一区二区三区| 亚非秘?一区二区三区四区| 亚洲毛多水多男女| 久久青草精品38国产免费| 国产成人精品三上悠亚久久| 美女污污网站| 人妻网站成熟人妻VA网站| 国产熟女口爆| 成人国产一区二区三区精品| 无码中文字幕乱码一区| 久久精品国产精品一区二区| 午夜成人性爽爽免费视频|