允中 發自 凹非寺
量子位 | 公眾號 QbitAI
AI芯片,正在機房里猛猛吃灰。
海外高端GPU供不應求、又貴又難買;
國產芯片產能好不容易上來了,結果是「能用但不好用」,生態不全、適配難、推理優化門檻高,大量國產卡就這么空轉著,電費照燒,卻產不出一顆能用的Token。
企業想用AI,偏偏卡在了最不該卡的環節,算力。
所有人都在比誰的模型參數更大,但真正決定AI能不能落地的,其實是另一件沒那么性感的事:一顆Token,能不能被穩定、便宜、規模化地生產出來。
死磕這件事的,是一支從中國超級計算體系里走出來的年輕團隊,是石科技
![]()
△AI生成
這家公司成立于2021年,由技術出身清華,有國家級算力中心工程經驗的核心科研團隊聯合組建,是國內最早將超算智算并行優化的技術進行產業化的團隊之一。
名字取自“實事求是,甘為基石”,寄托著創始團隊對算力基礎設施地位的深刻認知。其創始人兼董事長閆博文,出生于1993年,畢業于清華大學,是清華計算機系博士后。
這家公司瞄準的是通過自主研發的并行優化技術,將高性能計算(HPC)與人工智能計算深度融合,專治各種異構算力資源調度的“疑難雜癥”。
在他們看來,現在的AI行業根本不需要再多一個算力轉租平臺,要打破國產算力空轉的僵局,必須徹底跳出傳統租賃的淺層模式。
是石科技給出的解法直擊本質:
緊扣“Token標準化、國產化、效率提升”這三件事,直接重構算力變現路徑,重磅打造國產TOKEN調優工廠。
大模型也有了算力“電網”:插上插頭,算力秒變Token產能
是石科技TOKEN工廠的第一層技術底座,來自異構算力的全域整合與深度國產化適配。
區別于行業常見的單一算力資源模式,是石科技搭建了全域異構算力資源池,全面兼容NVIDIA GPU、國產AI芯片(包括昇騰、昆侖芯、天數、太初、瀚博半導體等),以及云廠商算力、邊緣算力等多源渠道。
通過智能調度與彈性擴縮容技術,實現算力資源的統一納管、智能分配與動態擴容,讓企業不再受困于“算力采購難、資源碎片化”。
![]()
△AI生成
打個比方,這就像一張“全域智能電網”。
過去每家工廠只能用自己的發電機(單一算力),買不到柴油就停產,發電機壞了就癱瘓。
是石科技則類似于搭建了一張覆蓋全國的算力網絡,把各地的風電、水電、火電、太陽能電(各種算力)全部接入統一電網。
企業需要用電時,只需“插上插頭”,電網就會自動調度、分配與你需求最匹配的電給你,你完全不用關心電是從哪個具體的電網節點送過來的。
更關鍵的是,是石科技團隊完成了主流國產AI芯片的深度適配與專項優化,打通了框架適配、算子兼容、通信優化、性能調優全鏈路
![]()
△AI生成
在這張電網的“變電與穩壓”作用下,原本閑置、難調通的國產算力,在這里能被高效轉化為穩定、可用、低成本的標準化Token推理產能
通過不斷提升算力利用效率,以及充分利用閑時的算力,或者根據客戶需求定制專屬算力資源,國產Token就可以真正變成可商用的產能優勢。
對此,一位長期從事AI基礎設施的工程師評價說:
過去我們買了國產卡,總要花幾個月去調驅動、改框架、修bug。是石科技把這條路鋪好了。國產卡不再是“擺設”,而是真正能跑生產的引擎。
把芯片性能榨干到極限:吞吐暴漲50%,Token成本硬砍40%
如果說算力池化是底座,那么推理優化就是TOKEN工廠的核心技術壁壘。
是石科技團隊深耕高性能計算領域多年,在嚴格恪守企業級SLA服務標準的前提下,從算子、內存、調度、解碼等全維度進行技術革新。
CUDA Kernel算子級優化、PagedAttention內存優化、Continuous Batching連續批處理、混合精度推理……這些技術被系統性地部署在TOKEN工廠的生產線上。
配合FlashAttention、推測解碼、KV Cache精細化管理、模型并行(TP/PP)等前沿加速方案,GPU等國產芯片的資源利用率大幅提升,Token吞吐總量顯著增加,單位Token生產成本大幅下降。
更重要的是,傳統推理中常見的延遲抖動、TTFT與TPOT波動等問題得到了有效控制——
Token生成變得高效、穩定、高品質。實測數據顯示,在同等算力條件下,是石科技的推理優化方案可將吞吐量提升30%-50%,單位Token成本降低40%。
![]()
△AI生成
治好“宕機焦慮”:99.9%高可用,把推理做成不斷電流水線
規模化的Token生產,不能建立在脆弱的單點算力之上。
是石科技構建了一套多Provider互補與容災體系:
- 資源互補:流量峰值時自動彈性擴容;
- 技術互補:接入特定模型和技術能力(如超低延遲、多模態);
- 區域互補:跨地域部署,降低延遲,滿足各行業合規要求。
自動Fallback故障切換機制,搭配“自有集群承載主要流量、合作伙伴集群兜底容災”的流量分配模式,徹底規避單點算力故障導致的業務中斷風險。
![]()
△AI生成
99.9%的高可用性服務保障,讓Token的規模化生產、調度、輸出全程穩定可控。
想象一下飛機引擎的“多冗余設計”,即便一臺引擎失效,其他引擎能夠自動補位,飛機照常飛行。
是石科技相當于給AI推理服務裝了三套引擎——包括自己的引擎、合作伙伴的引擎、備用引擎。
哪怕其中一套突然熄火,系統會在0.1秒內自動切換到另一套,用戶完全感知不到。
從技術上看,這已經不是漸進式的改良,而是從“算力資源”到“優質Token產能”的價值躍遷。
當前,國產AI算力替代進程持續提速。
標準化、可量產、低成本的Token產能,已成為AI產業落地的核心生產資料。
是石科技的目標已經明確:
建成中國最大、技術最先進、服務最完善的國產TOKEN調優工廠。
讓千行百業降低AI落地門檻,讓國產算力生態真正實現規模化、高質量發展,推動中國AI產業邁入工業化、標準化的全新階段。
當行業還在追逐單一模型的精度時,是石科技選擇了一條更有挑戰但更具長期價值的道路——
做夯實AI推理底座的工廠,做可進化、可復用、可普惠的Token生產力平臺。
這條路投入更大、周期更長、協調更復雜。
但一旦走通,它改變的將不只是某一家企業的推理成本,而是整個適合中國AI產業高效發展的國產算力生態。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.