![]()
新智元報道
![]()
【新智元導讀】120B模型飆到2000 token/秒,CFO更放話已在跑GPT-5.5!Cerebras 560億美元IPO首日暴漲68%,但SemiAnalysis萬字拆解直指死穴。
SemiAnalysis,硅谷最硬核的芯片分析機構,4月份光是AI工具的訂閱費就燒到了年化1000萬美元。
其中80%花在同一個地方,Anthropic的Opus 4.6 fast模式。
它比標準模式貴6倍,但token輸出速度快2.5倍!
![]()
然后Opus 4.7來了。更聰明,跑分全面碾壓上一代,但工程師集體拒絕升級。
理由只有一個,4.7沒有fast模式。
他們寧可用更笨的模型,也要更快的token!
![]()
而這個趨勢的最大受益者,是一家剛剛以560億美元估值登陸納斯達克的芯片公司,Cerebras。
2000 token/秒,怎么來的
OpenAI今年2月甩出了GPT-5.3-Codex-Spark。
名字掛著GPT-5.3的招牌,但底層是一個從完整版GPT-5.3 Codex蒸餾出來的小模型,參數量只有原版的十分之一,120B。
雖然是用智能換來的,但速度確實夸張到離譜——2000 token/秒。
作為對比,Anthropic最快的Opus 4.6 fast大約70-100 token/秒,GPT-5系列在英偉達GPU上是大約130 token/秒。
而Codex-Spark一腳油門踩到了一個數量級開外。
![]()
讓它跑這么快的,正是Cerebras的WSE-3,一塊餐盤大小的晶圓級芯片。
這件事直接引爆了一筆246億美元的合同,也把Cerebras一路推進了納斯達克。5月14日首日暴漲68%,2026年至今最大科技IPO。
但Cerebras CFO Bob Komin說,這還只是開胃菜。
IPO前夜,他在采訪中亮了一張沒人預料到的牌——
我們服務所有模型,對模型大小沒有限制。今天,我們正在跑萬億參數的模型。我們正在跑OpenAI內部的GPT-5.4和GPT-5.5。
如果這是真的,Cerebras就不只是一個「小模型快跑」的玩家了,IPO當天的瘋狂漲幅立刻站得住腳。
![]()
但SemiAnalysis偏偏在同一周甩出了一篇兩萬字的技術拆解報告,直接把這個故事撕開了一道口子。
Cerebras公開云上,最大的生產模型是GPT-OSS,總參數120B;預覽模型最大355B。曾經上過的Llama 70B和405B,后來也被悄悄下了架。
2025年最火,但體量也更大的開源模型(比如DeepSeek),從頭到尾就沒出現在Cerebras Cloud上。
![]()
CFO口中的那個數字,目前只存在于「OpenAI內部」,外界無法驗證。
要搞清楚這中間的裂縫有多大,得先看看這塊晶圓到底是怎么回事。
一整塊硅的賭注
半導體行業干了50年的事情就是切硅片。
一整塊晶圓刻出幾十顆芯片,切割,封裝,各干各的。英偉達的B300已經把單顆芯片撐到了858平方毫米,基本上是光刻的極限了。
相比之下,Cerebras卻反其道而行——它不切。
整塊晶圓就是一顆芯片。
46,225平方毫米,比英偉達的GPU大58倍,大約一個餐盤的尺寸。上面集成了4萬億個晶體管、90萬個計算核心,和44GB的SRAM內存。
![]()
重點來了,SRAM。
GPU用的是HBM(高帶寬內存),容量大但速度相對慢。一塊B300配了288GB的HBM,帶寬在TB/秒級別。
WSE-3只有44GB的SRAM,但內存帶寬高達21PB/秒。
![]()
![]()
Cerebras速度碾壓的秘密就在這里。
SRAM帶寬大到解碼時幾乎可以把全部計算核心喂飽。GPU的計算核心只能餓著等內存。
而推理的瓶頸,正是解碼。
模型一個token一個token往外吐的時候,每吐一個就要把全部權重從內存里讀一遍。帶寬越高,讀得越快,token出得越快。
![]()
SemiAnalysis做了一個很直觀的對比。
同樣只給一個用戶生成token的場景下,GPU能實際利用的算力只有理論峰值的零頭。WSE-3理論上可以把全部15.6 PFLOPS的FP16算力吃滿。
差距不是百分之幾十,而是數量級的。
![]()
用他們的原話形容,這就像是公交車和F1的區別。
GPU是公交車,一次拉很多人但每個人都慢。WSE-3是F1賽車,一次只拉一個人但飛快。
想用賽車的客戶,甚至愿意付6倍價格來買速度。Opus 4.6 fast已經證明了這一點。
但這輛「車」有一個致命問題——它的「油箱」只有44升。
![]()
對于小模型來說,WSE-3的44GB SRAM綽綽有余,但放到今天的大模型面前根本不夠看。
DeepSeek V4有1.6萬億參數,即使用最激進的壓縮方式(FP8量化),光權重就要490GB。一塊WSE-3裝不下,要切成至少12塊塞進12塊晶圓。
分布就要通信,而這也是Cerebras最致命的短板。
每塊WSE-3對外帶寬只有150GB/秒。
英偉達一塊Blackwell GPU通過NVLink5能跑到900GB/秒,是Cerebras的6倍。被英偉達收購的Groq更夸張,單顆LPU3就有9.6Tb/秒,8倍。
![]()
帶寬加不了。這是物理層面的死結。
WSE-3的制造方式決定了一切。整塊晶圓用同一套模板反復曝光,12列7行,84個完全相同的die拼成一顆芯片。
想加高速通信端口(SerDes),就得在每個die里都加。但84個die里只有邊緣的能接到外面,中間的全是擺設,純粹浪費硅面積。
更要命的是,SerDes是模擬電路,面積大,還會干擾旁邊的數字邏輯。在die中間放SerDes,等于在自家的高速公路上挖坑。
![]()
所以Cerebras被困在了一個島嶼上。島上的高速公路四通八達,但通往外界的橋只有一座單車道。
如此一來,Cerebras跑大模型只剩一條路,把模型按層切開,每塊晶圓放幾層,晶圓之間只傳中間計算結果(比完整的模型權重小得多)。
但流水線越長,延遲越高。
SemiAnalysis算了一筆賬,12塊晶圓跑DeepSeek V4,光是層間傳輸的固定延遲就要疊加12次,緩存數據的搬運時間高達數毫秒。
![]()
![]()
所以CFO在CNBC上說的那番話,至少目前更像是路線圖上的故事。
但在120B以下這個區間,Cerebras交出的成績單沒什么好挑的。
代價是什么呢
知名評測機構Artificial Analysis用Llama 4 Maverick做過實測,Cerebras 2400 token/秒,英偉達Blackwell 1040 token/秒,直接碾了一倍多。
AI編程工具Devin背后的Cognition已經把Cerebras接進了產品,快速模式下1000 token/秒。Notion、LiveKit、GSK等也已經在用。
![]()
但代價是,公開云跑得動的上限就是GPT-OSS級別,最大上下文只有128K。
根據SemiAnalysis從Claude Code、Cursor等工具中采集的43.2萬條真實請求,其中有將近50%都超過了128K。
而Agent時代的上下文只會越來越長,128K很快就是瓶頸。
![]()
速度快,但模型小、上下文短、選擇少。這就是開發者今天拿到手的Cerebras。
但這里藏著一個很多人還沒注意到的細節,足以改變整個競爭格局。
Cerebras與OpenAI的協議里寫著一條排他條款,合同期內不得向「特定OpenAI競爭對手」出售產品。
CEO Feldman沒有點名,但所有人都知道指的是誰,Anthropic。
12%股權、10億美元貸款、246億美元訂單鎖定。Cerebras已經被牢牢綁在了OpenAI的戰車上。
推理戰爭,OpenAI剛剛換了一把槍
如今,AI軍備競賽的主戰場已經變了。
訓練只做一次,推理每天做數十億次。
2026年三分之二的AI算力消耗在推理上,到2027年預計達到80%。
根據OpenAI的計劃,AWS的Trainium負責理解用戶輸入,Cerebras負責生成輸出token,GPU負責訓練和長上下文,三套硬件各管一段。這套組合拳只為一件事,成本打下來,速度拉上去。
![]()
對比之下,Opus 4.6 fast的速度已經從100 token/秒退化到了70 token/秒,Cerebras也在合同里把它鎖在了門外。
那么問題來了,Anthropic的極速推理方案在哪里?
參考資料:
https://x.com/dee_bosa/status/2055351401472020949?s=20
https://newsletter.semianalysis.com/p/cerebras-faster-tokens-please
編輯:摩西
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.