本文來源:時代周報 作者:朱成呈 閆曉寒
“目前國內只有訊飛一家真正在全國產算力上完成全棧模型的訓練。”4月29日,科大訊飛(002230.SZ)研究院院長劉聰在2025年度及2026年一季度業績說明會上表示。
此前,DeepSeek-V4在技術報告中表示,在英偉達GPU和華為昇騰NPU兩個平臺上均驗證了細粒度 EP(專家并行)方案。根據DeepSeek官網,下半年昇騰950超節點批量上市有望繼續推動DeepSeek-V4 Pro降價。
IDC咨詢認為,全球大模型市場逐漸分化為兩大陣營:以OpenAI、Google、Anthropic為代表的 “閉源高端+海外算力”陣營,聚焦極致性能與生態壁壘;以DeepSeek為代表的 “開源普惠 + 中國算力” 陣營,主打高性價比與安全可控。這種分化將為全球企業提供更多選擇,同時推動AI產業全球化競爭進入新階段。
值得注意的是,科大訊飛在算力國產化進程上,似乎走得比DeepSeek更快。劉聰表示,DSA稀疏注意力與MTP(多token預測)結合的長文本高效訓練,目前只有科大訊飛能夠在國產算力上完成。
業績層面,科大訊飛2025年實現營收271.05億元,同比增長16.12%;歸母凈利潤8.39億元,同比增長49.85%。進入2026年,一季度營收52.74億元,同比增長13.23%;歸母凈利潤仍虧損1.7億元,但較上年同期的1.93億元虧損有所收窄。
全國產算力訓練難度大
相比推理環節,模型訓練對底層算力體系的要求更為嚴苛:不僅涉及更高的計算復雜度,還對算子覆蓋與精度、工程調度效率,以及萬卡級集群的互聯穩定性提出系統性挑戰。
“訓練是‘學習’過程,需高精度、大算力及頻繁參數更新;推理是‘應用’過程,側重低延遲、高吞吐和能效比。”GKURC產經智庫首席分析師丁少將向時代周報記者表示,共同挑戰是從英偉達生態遷移成本高,需重構代碼并解決長期穩定性問題。
目前,行業中更常見的路徑仍是“英偉達訓練 + 國產芯片推理”的折中方案。在訓練階段依賴成熟生態保證效率,在推理側以國產芯片壓低Token成本。
從市場結構看,這種分工尚未被打破。IDC數據顯示,2025年中國AI加速卡出貨量約400萬塊,其中英偉達占據約55%的份額,仍居主導地位;國內廠商合計約165萬塊,占比約41%。具體來看,華為昇騰出貨約81.2萬塊,位列第二,阿里平頭哥約26.5萬塊,位列第四。
硬件差距直接體現在訓練難度上。以昇騰910B與英偉達H200為例,前者顯存容量約64GB,明顯低于后者的141GB;帶寬方面,910B約1.6TB/s,也低于H200的4.8TB/s。
劉聰指出,這些差異導致在新模型訓練過程中遇到很大困難,有的是由于算子差異和模型分布式策略,造成訓練推理精度一致性對齊的難題;有的是一致性對齊但訓練效率很低導致難以訓練,例如在智能體強化學習訓練階段的采樣推理操作效率,因為910B的通信機制設計導致顯著低于H200。
在這一背景下,全棧國產化訓練更接近一項系統工程,而非簡單替換芯片。
事實上,科大訊飛與華為昇騰的合作可追溯至2023年。當年,華為徐直軍在1024全球開發者節宣布,科大訊飛聯合華為正式發布基于昇騰生態的“飛星一號”平臺,嘗試打通從底層算力到大模型再到應用開發的完整鏈路。科大訊飛董事長劉慶峰也表示,在華為派出專門工作組在訊飛成立專班工作優化的背景下,華為GPU可對標英偉達A100。
但這一路徑并非沒有代價。由于底層生態尚未成熟,訊飛早期模型效果一度受到影響。劉慶峰在2023年曾表示,“假如我們現在不是用國產平臺,而是用已經成型的英偉達平臺,那么發布的星火3.0的效果可能還會更好,但這一步非走不可。”
時間成本是更現實的約束。劉慶峰在最新業績說明會上表示,當國際主流算法出來之后,如在英偉達卡上直接就可以做,但在國產卡上需要額外解決算子庫效率優化等一系列問題,需要額外3-6個月的適配周期。
但反過來看,適配的過程也在積累壁壘。長期的適配與調優,科大訊飛發現并解決了許多底層bug,劉慶峰認為,這種能力已開始轉化為商業競爭力。在央國企招投標中,其星火大模型獲得了較高市場份額。
昇騰950帶動國產大模型爆發?
隨著訓練側逐步向國產算力遷移,頭部互聯網公司也開始轉向。
除了科大訊飛,近期開放測試的美團新一代基礎大模型LongCat-2.0-Preview,其訓練推理或全程依托國產算力集群完成。據知情人士向時代周報記者透露,美團本次訓練階段動用的算力卡數量在5萬至6萬之間,這也是迄今為止,在國產算力上完成的規模最大的大模型訓練任務。該人士表示,這是對國產算力生態成熟度的一次有效驗證。
模型側的變化,與硬件迭代形成同步。
2026年3月,華為發布昇騰950PR芯片。據介紹,其單卡算力較英偉達對華特供版H20提升約2.87倍,但與更高端的H200仍存在差距。此外,華為計劃于2026年第四季度推出Atlas 950 SuperPoD超節點,單集群規模達到8192卡,試圖在集群級能力上縮小差距。
在推理端,昇騰950的優化更為直接。根據華為計算官方微信公眾號消息,昇騰950通過融合kernel 和多流并行技術降低Attention計算和訪存開銷,大幅提升推理性能,結合多種量化算法,實現了高吞吐、低時延的DeepSeek-V4模型推理部署。
對模型廠商而言,硬件代際變化意味著策略空間的擴大。科大訊飛方面表示,當前已經與華為團隊針對950芯片進行深度對接,在昇騰950平臺上聯合攻堅更高效模型結構、混合Attention機制、智能體強化學習等關鍵技術。
因為950系列相對于910系列的顯存、帶寬算力等方面都有較大提升,科大訊飛預計,當前的算法遷移過去之后可以很大加速訓練流程。公司有望在今年1024開發者節上,基于昇騰950平臺發布對標國際主流先進水平的旗艦模型。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.