網易首頁 > 網易號 > 正文申請入駐

比DeepSeek更快？科大訊飛研究院院長：我們在國產算力上完成模型訓練

2026-04-30 13:45:06　來源: 時代在線網

廣東舉報

分享至

本文來源：時代周報作者：朱成呈閆曉寒

“目前國內只有訊飛一家真正在全國產算力上完成全棧模型的訓練。”4月29日，科大訊飛（002230.SZ）研究院院長劉聰在2025年度及2026年一季度業績說明會上表示。

此前，DeepSeek-V4在技術報告中表示，在英偉達GPU和華為昇騰NPU兩個平臺上均驗證了細粒度 EP（專家并行）方案。根據DeepSeek官網，下半年昇騰950超節點批量上市有望繼續推動DeepSeek-V4 Pro降價。

IDC咨詢認為，全球大模型市場逐漸分化為兩大陣營：以OpenAI、Google、Anthropic為代表的 “閉源高端+海外算力”陣營，聚焦極致性能與生態壁壘；以DeepSeek為代表的 “開源普惠 + 中國算力” 陣營，主打高性價比與安全可控。這種分化將為全球企業提供更多選擇，同時推動AI產業全球化競爭進入新階段。

值得注意的是，科大訊飛在算力國產化進程上，似乎走得比DeepSeek更快。劉聰表示，DSA稀疏注意力與MTP（多token預測）結合的長文本高效訓練，目前只有科大訊飛能夠在國產算力上完成。

業績層面，科大訊飛2025年實現營收271.05億元，同比增長16.12%；歸母凈利潤8.39億元，同比增長49.85%。進入2026年，一季度營收52.74億元，同比增長13.23%；歸母凈利潤仍虧損1.7億元，但較上年同期的1.93億元虧損有所收窄。

全國產算力訓練難度大

相比推理環節，模型訓練對底層算力體系的要求更為嚴苛：不僅涉及更高的計算復雜度，還對算子覆蓋與精度、工程調度效率，以及萬卡級集群的互聯穩定性提出系統性挑戰。

“訓練是‘學習’過程，需高精度、大算力及頻繁參數更新；推理是‘應用’過程，側重低延遲、高吞吐和能效比。”GKURC產經智庫首席分析師丁少將向時代周報記者表示，共同挑戰是從英偉達生態遷移成本高，需重構代碼并解決長期穩定性問題。

目前，行業中更常見的路徑仍是“英偉達訓練 + 國產芯片推理”的折中方案。在訓練階段依賴成熟生態保證效率，在推理側以國產芯片壓低Token成本。

從市場結構看，這種分工尚未被打破。IDC數據顯示，2025年中國AI加速卡出貨量約400萬塊，其中英偉達占據約55%的份額，仍居主導地位；國內廠商合計約165萬塊，占比約41%。具體來看，華為昇騰出貨約81.2萬塊，位列第二，阿里平頭哥約26.5萬塊，位列第四。

硬件差距直接體現在訓練難度上。以昇騰910B與英偉達H200為例，前者顯存容量約64GB，明顯低于后者的141GB；帶寬方面，910B約1.6TB/s，也低于H200的4.8TB/s。

劉聰指出，這些差異導致在新模型訓練過程中遇到很大困難，有的是由于算子差異和模型分布式策略，造成訓練推理精度一致性對齊的難題；有的是一致性對齊但訓練效率很低導致難以訓練，例如在智能體強化學習訓練階段的采樣推理操作效率，因為910B的通信機制設計導致顯著低于H200。

在這一背景下，全棧國產化訓練更接近一項系統工程，而非簡單替換芯片。

事實上，科大訊飛與華為昇騰的合作可追溯至2023年。當年，華為徐直軍在1024全球開發者節宣布，科大訊飛聯合華為正式發布基于昇騰生態的“飛星一號”平臺，嘗試打通從底層算力到大模型再到應用開發的完整鏈路。科大訊飛董事長劉慶峰也表示，在華為派出專門工作組在訊飛成立專班工作優化的背景下，華為GPU可對標英偉達A100。

但這一路徑并非沒有代價。由于底層生態尚未成熟，訊飛早期模型效果一度受到影響。劉慶峰在2023年曾表示，“假如我們現在不是用國產平臺，而是用已經成型的英偉達平臺，那么發布的星火3.0的效果可能還會更好，但這一步非走不可。”

時間成本是更現實的約束。劉慶峰在最新業績說明會上表示，當國際主流算法出來之后，如在英偉達卡上直接就可以做，但在國產卡上需要額外解決算子庫效率優化等一系列問題，需要額外3-6個月的適配周期。

但反過來看，適配的過程也在積累壁壘。長期的適配與調優，科大訊飛發現并解決了許多底層bug，劉慶峰認為，這種能力已開始轉化為商業競爭力。在央國企招投標中，其星火大模型獲得了較高市場份額。

昇騰950帶動國產大模型爆發？

隨著訓練側逐步向國產算力遷移，頭部互聯網公司也開始轉向。

除了科大訊飛，近期開放測試的美團新一代基礎大模型LongCat-2.0-Preview，其訓練推理或全程依托國產算力集群完成。據知情人士向時代周報記者透露，美團本次訓練階段動用的算力卡數量在5萬至6萬之間，這也是迄今為止，在國產算力上完成的規模最大的大模型訓練任務。該人士表示，這是對國產算力生態成熟度的一次有效驗證。

模型側的變化，與硬件迭代形成同步。

2026年3月，華為發布昇騰950PR芯片。據介紹，其單卡算力較英偉達對華特供版H20提升約2.87倍，但與更高端的H200仍存在差距。此外，華為計劃于2026年第四季度推出Atlas 950 SuperPoD超節點，單集群規模達到8192卡，試圖在集群級能力上縮小差距。

在推理端，昇騰950的優化更為直接。根據華為計算官方微信公眾號消息，昇騰950通過融合kernel 和多流并行技術降低Attention計算和訪存開銷，大幅提升推理性能，結合多種量化算法，實現了高吞吐、低時延的DeepSeek-V4模型推理部署。

對模型廠商而言，硬件代際變化意味著策略空間的擴大。科大訊飛方面表示，當前已經與華為團隊針對950芯片進行深度對接，在昇騰950平臺上聯合攻堅更高效模型結構、混合Attention機制、智能體強化學習等關鍵技術。

因為950系列相對于910系列的顯存、帶寬算力等方面都有較大提升，科大訊飛預計，當前的算法遷移過去之后可以很大加速訓練流程。公司有望在今年1024開發者節上，基于昇騰950平臺發布對標國際主流先進水平的旗艦模型。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.