![]()
來源:新智元
【導讀】Transformer統治地位懸了!一款SubQ模型帶著SAA架構橫空出世,1200萬上下文成本僅Opus的5%,計算量暴減千倍。
Transformer,王座不保?!
今天,一款AI模型SubQ橫空出世,震撼了全世界。
這是全球首個基于完全亞二次方稀疏注意力架構(SSA)的模型,上下文高達1200萬Token。
![]()
SubQ的核心優勢在于,其SSA架構會根據內容「動態選擇」關注點,不會盲目計算所有Token間的關聯。
相較于Transformer,它的計算量直接暴減1000倍。
實驗結果顯示,100萬token上下文,SubQ要比FlashAttention快52倍,成本不到Claude Opus的5%。
![]()
而打造出這款架構的背后這家公司,叫Subquadratic,坐標邁阿密,全公司僅13人。
AI大佬Bindu Reddy辣評道,「若這一切都是真的,Anthropic和OpenAI的估值直接歸0」!
![]()
還有人表示,這才是LLM接下來真正Scaling的方式。
![]()
Transformer「原罪」,九年未解
2017年,谷歌那篇「Attention is All You Need」奠定了Transformer架構的統治地位。
此后九年,從GPT到Claude到Gemini,所有前沿大模型都建立在同一個基礎上:密集注意力機制。
![]()
長期以來,Transformer的工作方式非常暴力,即每個token都要和序列中所有其他token做一次比較。
這種機制讓它深陷「二次方復雜度」的泥潭,上下文每增加一倍,計算成本飆升四倍。
這意味著,輸入越長,模型越貴、越慢、越容易崩。
這就解釋了幾乎所有LLM的上下文卡在100萬token左右,不是技術做不到更長,是做到了也用不起。
這一次,SubQ的誕生,從根本上改變了這個等式。
![]()
SSA架構出世
不要「更快」只要「更少」
SubQ的核心突破叫做SSA——亞二次方稀疏注意力(Subquadratic Sparse Attention)。
它的思路出奇地簡單,不再讓每個token和所有token做比較。
既然訓練好的模型中,絕大多數注意力權重都接近零0,那為什么還要算它們?
SSA的做法是,對每一個query,基于「內容」選擇序列中真正值得關注的位置,然后只在這些位置上精確計算注意力。
它只計算那些真正有意義的交互,跳過其余99%以上的無用計算。
![]()
以下是SSA的三大關鍵特性——
線性擴展
計算量隨選中的位置數量增長,而不是隨整個序列長度增長。上下文翻倍,成本只翻倍,不再是翻四倍。
內容依賴路由
模型根據語義決定看哪里,而不是根據位置。關鍵信息在序列第3個token還是第1100萬個token,都能被找到。
精確檢索
不像循環模型那樣把信息壓縮成固定狀態,SSA保留了從任意位置精確取回信息的能力。
說白了,SSA不是「把密集注意力算得更快」,而是「讓模型做更少的注意力計算」。
![]()
減少的計算量,直接轉化為速度。
速度狂飆52.5倍,成本不到Opus 5%
SubQ放出的數據,每一條都在暴擊:
在100萬token長度上,SSA比標準密集注意力+FlashAttention-2快52.2倍。
![]()
在12.8萬token上快7.2倍,25.6萬token快13.2倍,51.2萬token快23倍。
顯而易見,上下文越長,優勢越碾壓。
這正是SSA線性擴展的直接體現——密集注意力越長越慢,SSA越長越劃算。
![]()
再來看算力消耗,在100萬token下,注意力FLOP減少了62.5倍。在1200萬token下,這個數字飆升到接近1000倍。
![]()
至于成本,Subquadratic給了一個非常直觀的對比——
在RULER 128K基準測試上,SubQ花費8美元,Opus為2600美元,直接拉出了300倍的成本差距。
最關鍵的是,這些速度和成本優勢,并沒有以犧牲準確率為代價。
RULER 128K基準測試: SubQ拿下95%,Opus 4.6是94.8%;
![]()
SWE-Bench Verified(代碼工程): SubQ得分81.8,超過Opus 4.6的80.8。
MRCR v2(長上下文檢索): SubQ拿到65.9%,雖然低于Opus 4.6的78%,但遠超GPT 5.4(39%)和Gemini 3.1 Pro(23%)。
![]()
這組數字放在一起看,細思極恐——
一家種子輪公司,用不到Opus 5%的成本,在多項核心基準測試上打平甚至超過了Anthropic和OpenAI的旗艦模型。
![]()
一個提示詞,SubQ即可處理1200萬Token的超長信息:
無論是整個代碼庫、數月的 PR 記錄,還是長期運行的 AI 智能體狀態,全都游刃有余,而且成本僅需原來的五分之一。
![]()
不得不說,若這一切成真,這將是Transformer問世以來最重要的架構級突破。
13人初創公司,要顛覆Transformer
Subquadratic成立于2024年,拿下2900萬美元種子輪,估值5億美元。
它有兩位聯合創始人:CEO Justin Dangel,CTO Alexander Whedon。
![]()
研究團隊11人,全部是博士,來自Meta、谷歌、牛津大學、劍橋大學、Adobe。
值得一提的是,這家公司之前叫Aldea,做的是語音模型,后來轉型到了注意力架構研究。
這一次,產品線三條同時上線:
SubQ API:12M token全量上下文接口
SubQ Code:命令行編碼Agent,整個代碼庫一次性塞進去
SubQ Search:深度研究工具,初期免費
全網炸鍋:是終結者,還是AI版Theranos?
SubQ發布后數小時內,AI社區就分裂成了兩個陣營。
AI大佬Dan McAteer一句話,概括了所有人的心態:
SubQ要么是Transformer以來最大的突破……
要么就是AI界的Theranos。
![]()
支持者一方陣容不小。
有人表示,這是2026年最瘋狂的AI發布之一。
Subquadratic可能找到了奧特曼所言的另一個架構的重大突破。
![]()
![]()
![]()
但懷疑派也毫不留情,有人直言這就是一個「騙子公司」,尤其是看完創始人領英介紹后。
![]()
![]()
OpenAI前研究員Will Depue更是連發多條,第一時間指出,「SubQ幾乎可以確定是基于Kimi或DeepSeek的稀疏注意力微調」。
![]()
![]()
![]()
AI圈見過太多「發布即巔峰」的故事,發布會上的PPT和真實世界的部署之間,隔著一整條死亡谷。
但話說回來,也正因為這個賭注太大,整個行業才不敢不認真對待。
答案,也許只有等技術報告公開、獨立benchmark復現之后,才會真正揭曉。
參考資料:
https://x.com/alex_whedon/status/2051663268704636937?s=20
https://subq.ai/how-ssa-makes-long-context-practical
https://x.com/daniel_mac8/status/2051710659822305661?s=20
為偉大思想而生!
AI+時代,互聯網思想(wanging0123),
第一必讀自媒體
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.