公眾號(hào)記得加星標(biāo)??,第一時(shí)間看推送不會(huì)錯(cuò)過(guò)。
Tenstorrent 周二宣布其 Galaxy Blackhole AI 計(jì)算平臺(tái)正式上線。
這家初創(chuàng)公司的每個(gè) 6U 系統(tǒng)都裝滿了 32 個(gè)我們?nèi)ツ昵锾煸u(píng)測(cè)過(guò)的 Blackhole 加速器。這些芯片通過(guò) 100 Tbps 的總帶寬,以密集的以太網(wǎng)網(wǎng)狀結(jié)構(gòu)互連。
Tenstorrent 表示,每臺(tái) Galaxy 系統(tǒng)都配備了 1 TB 的 GDDR6 內(nèi)存、16 TB/s 的內(nèi)存帶寬和 23 petaFLOPS 的密集 FP8 性能,而這套系統(tǒng)售價(jià)僅為 110,000 美元。
換個(gè)角度來(lái)看,Nvidia 的八路 DGX 顯卡雖然速度更快、容量更大,但價(jià)格卻是它的三到五倍。
然而,Tenstorrent 的網(wǎng)狀網(wǎng)絡(luò)并不局限于單個(gè)節(jié)點(diǎn)。與 Google 的 TPU 或 Amazon 的 Trainium2 集群類(lèi)似,它可以通過(guò)添加更多系統(tǒng)并調(diào)整張量并行和流水線并行的比例來(lái)擴(kuò)展,從而支持更大的模型、更高的吞吐量或更具交互性的用戶體驗(yàn)。
Tenstorrent 的基礎(chǔ) Galaxy Supercluster 售價(jià) 44 萬(wàn)美元,配備四個(gè) Blackhole 系統(tǒng),但其架構(gòu)最多可支持 32 個(gè)節(jié)點(diǎn)和一千多個(gè)芯片。
Tenstorrent 的高級(jí)研究員 Jasmina Vasiljevic 告訴我們,自我們首次接觸這套硬件以來(lái),軟件棧已經(jīng)有了顯著的改進(jìn)。當(dāng)時(shí),模型支持非常有限,而且即使支持,也尚未針對(duì)硬件進(jìn)行優(yōu)化。這種不匹配導(dǎo)致我們?cè)跍y(cè)試中普遍存在性能擴(kuò)展性差的問(wèn)題。
據(jù)稱(chēng)情況已有所改變,并且不僅投入了大量精力將新模型移植到該硬件上,而且還提高了性能,盡管就在幾個(gè)月前,該芯片的性能實(shí)際上還降低了。
至少對(duì)于 DeepSeek V3 而言,Tenstorrent 聲稱(chēng)其四節(jié)點(diǎn) Blackhole Galaxy 超集群可以在不到四秒的時(shí)間內(nèi)處理 100,000 個(gè)tokens提示(相當(dāng)于 166 頁(yè)文本)。
與此同時(shí),據(jù)稱(chēng)該系統(tǒng)每秒每個(gè)用戶最多可生成 300 個(gè)tokens,并且他們預(yù)計(jì)在不久的將來(lái)通過(guò)軟件改進(jìn)將這一數(shù)字提高到 350。
需要注意的是,Tenstorrent并未明確說(shuō)明這些測(cè)試中使用的批處理大小,而批處理大小是評(píng)估AI系統(tǒng)在生產(chǎn)環(huán)境中擴(kuò)展能力的重要指標(biāo)。對(duì)于單個(gè)用戶而言,每秒處理350個(gè)tokens遠(yuǎn)不如將性能擴(kuò)展到每秒32個(gè)或64個(gè)tokens時(shí)那樣令人印象深刻。
Tenstorrent 表示,根據(jù)吞吐量和交互需求,該平臺(tái)能夠有效地從 8 個(gè)批處理擴(kuò)展到 64 個(gè)批處理。
除了大型語(yǔ)言模型外,Tenstorrent 還將 Galaxy Blackhole 定位為理想的視頻生成平臺(tái)。這家初創(chuàng)公司表示,在一個(gè)四節(jié)點(diǎn)超級(jí)集群上,它可以比實(shí)時(shí)速度更快地生成 720p 視頻。
Vasiljevic 告訴我們,像 Moonshot AI 的 Kimi K2 這樣的其他前沿模型正在開(kāi)發(fā)中,她的團(tuán)隊(duì)已經(jīng)開(kāi)發(fā)了一個(gè)基于 Python 的編程接口,用于編寫(xiě)優(yōu)化的內(nèi)核,以便不斷將新模型引入該平臺(tái)。
“Hugging Face 90% 的模型都只在 Tenstorrent 上運(yùn)行,”該公司在一份聲明中寫(xiě)道。這是一個(gè)很高的評(píng)價(jià),我們期待對(duì)其進(jìn)行驗(yàn)證。
如果您想先試用再購(gòu)買(mǎi),Tenstorrent 的硬件已被多家大型數(shù)據(jù)中心、托管服務(wù)和新云服務(wù)提供商采用,包括 Cirrascale、Equinix 和日本的 ai&。我們預(yù)計(jì)這家芯片初創(chuàng)公司將在 5 月 1 日的 TT-Deploy 活動(dòng)上分享更多信息。
AI加速器的性能越來(lái)越取決于持續(xù)吞吐量
深入芯片層面,Tenstorrent 的 Blackhole 架構(gòu)旨在提升各種 AI 工作負(fù)載的推理性能,而非專(zhuān)注于單一模型類(lèi)型。單個(gè) Tenstorrent Galaxy 系統(tǒng)集成了 32 個(gè) Blackhole ASIC(基于 RISC-V微架構(gòu)),該公司表示,該系統(tǒng)可提供高達(dá) 23 PFLOPS 的 Block FP8 AI 計(jì)算能力,使其穩(wěn)居新興的密集推理基礎(chǔ)設(shè)施之列,并針對(duì)生產(chǎn)級(jí) AI 環(huán)境進(jìn)行了優(yōu)化。
單憑計(jì)算能力本身并不能使系統(tǒng)在當(dāng)今市場(chǎng)上脫穎而出,因?yàn)楦鲝S商的加速器性能都在快速提升。更關(guān)鍵的問(wèn)題是,這種性能能否在實(shí)際工作負(fù)載條件下保持穩(wěn)定,尤其是在運(yùn)行具有高用戶并發(fā)需求的大型模型時(shí)。
Tenstorrent 的公告體現(xiàn)了這種戰(zhàn)略重點(diǎn)的轉(zhuǎn)變。該公司不再僅僅關(guān)注峰值浮點(diǎn)運(yùn)算能力 (FLOPS),而是強(qiáng)調(diào)在諸如大型上下文語(yǔ)言模型和實(shí)時(shí)媒體生成等工作負(fù)載中保持穩(wěn)定的推理吞吐量。從部署角度來(lái)看,持續(xù)的吞吐量和可預(yù)測(cè)的延遲才是最終決定系統(tǒng)利用率和服務(wù)可靠性的關(guān)鍵指標(biāo)。
Blackhole平臺(tái)的一項(xiàng)技術(shù)創(chuàng)新之處在于其對(duì)內(nèi)存帶寬和本地?cái)?shù)據(jù)訪問(wèn)效率的重視。每個(gè)Galaxy系統(tǒng)集成了6.2GB的片上SRAM,可提供約2.9PB/s的帶寬,并搭配1TB的外部GDDR6內(nèi)存,總帶寬約為16TB/s。
這種內(nèi)存層次結(jié)構(gòu)旨在最大限度地減少數(shù)據(jù)移動(dòng)延遲,而數(shù)據(jù)移動(dòng)延遲已成為大型模型推理的主要瓶頸之一。隨著模型規(guī)模的增大和上下文窗口的擴(kuò)展,將數(shù)據(jù)保持在靠近計(jì)算引擎的位置,對(duì)性能的影響可能比算術(shù)吞吐量的增量提升更大。
這種設(shè)計(jì)理念反映了更廣泛的行業(yè)趨勢(shì)。現(xiàn)代人工智能加速器的性能越來(lái)越取決于內(nèi)存子系統(tǒng)的性能,而不僅僅是計(jì)算密度。在許多生產(chǎn)環(huán)境中,內(nèi)存帶寬決定了系統(tǒng)向計(jì)算單元提供數(shù)據(jù)的效率,直接影響吞吐量、利用率和能效。Tenstorrent 的架構(gòu)顯然是為了應(yīng)對(duì)這種動(dòng)態(tài)變化而優(yōu)化的。
Tenstorrent的高速網(wǎng)絡(luò)旨在實(shí)現(xiàn)更好的跨集群擴(kuò)展性
從運(yùn)行角度來(lái)看,在現(xiàn)代人工智能部署中,網(wǎng)絡(luò)帶寬的重要性正變得與計(jì)算性能不相上下。大型模型越來(lái)越多地運(yùn)行在分布式集群而非單一系統(tǒng)上,因此互連效率成為決定可擴(kuò)展性和持續(xù)性能的關(guān)鍵因素。低延遲、高帶寬的網(wǎng)絡(luò)可以減少同步開(kāi)銷(xiāo),并有助于在集群擴(kuò)展時(shí)保持可預(yù)測(cè)的性能。
同樣重要的是該平臺(tái)的網(wǎng)絡(luò)架構(gòu)。單個(gè) Galaxy Blackhole 系統(tǒng)最多支持 56 個(gè) 800 千兆以太網(wǎng)端口,從而實(shí)現(xiàn)多系統(tǒng)部署中節(jié)點(diǎn)間的高帶寬通信。這種橫向擴(kuò)展的網(wǎng)絡(luò)模型是 Tenstorrent “網(wǎng)絡(luò)化 AI” 架構(gòu)的核心。該公司并沒(méi)有主要依賴(lài)專(zhuān)有的加速器架構(gòu)來(lái)實(shí)現(xiàn)系統(tǒng)擴(kuò)展,而是強(qiáng)調(diào)使用以太網(wǎng)將加速器連接成分布式集群。
相比之下,如今許多高性能人工智能平臺(tái)都采用了專(zhuān)用互連技術(shù),例如英偉達(dá)的NVLink,以在緊密耦合的系統(tǒng)內(nèi)實(shí)現(xiàn)極高的帶寬和極低的延遲。這種方法已被證明適用于大規(guī)模訓(xùn)練和推理工作負(fù)載,在這些工作負(fù)載中,加速器需要頻繁且高效地通信。
Tenstorrent 采取了不同的策略,其 Galaxy 平臺(tái)強(qiáng)調(diào)基于高速以太網(wǎng)的網(wǎng)絡(luò)連接,用于連接不同系統(tǒng)間的加速器,這體現(xiàn)了一種優(yōu)先考慮使用標(biāo)準(zhǔn)基礎(chǔ)設(shè)施進(jìn)行靈活橫向擴(kuò)展部署的設(shè)計(jì)理念。簡(jiǎn)而言之,Tenstorrent 的互連策略并非著眼于極致速度,而是在人工智能集群不斷增長(zhǎng)的過(guò)程中,權(quán)衡專(zhuān)有的、高度集成的性能與可擴(kuò)展、可互操作的基礎(chǔ)設(shè)施之間的架構(gòu)差異。
Tenstorrent Galaxy Blackhole AI AI 視頻生成性能聲明
在該公司宣稱(chēng)的眾多性能中,實(shí)時(shí)AI視頻生成功能最受關(guān)注。該工作負(fù)載展現(xiàn)了平臺(tái)在對(duì)延遲高度敏感的環(huán)境下提供快速響應(yīng)推理的能力,突顯了加速器吞吐量、內(nèi)存帶寬和網(wǎng)絡(luò)可擴(kuò)展性的綜合影響。從技術(shù)角度來(lái)看,該示例說(shuō)明了系統(tǒng)級(jí)架構(gòu)如何影響用戶體驗(yàn)。實(shí)時(shí)響應(yīng)能力不僅取決于計(jì)算速度,還取決于內(nèi)存和加速器之間高效的數(shù)據(jù)流,以及分布式系統(tǒng)間的快速通信。
Tenstorrent 的視頻生成結(jié)果表明,其平臺(tái)性能大幅提升,與運(yùn)行 Wan 2.2 和 Grok Imagine Video 等模型的基于 Nvidia GPU 的配置相比,生成速度明顯更快,同時(shí)也展現(xiàn)了其分布式架構(gòu)的響應(yīng)速度和效率。
Tenstorrent的競(jìng)爭(zhēng)定位和最終結(jié)果
Tenstorrent 的 Galaxy 發(fā)布正值 AI 加速器市場(chǎng)快速發(fā)展之際,性能領(lǐng)先地位的衡量標(biāo)準(zhǔn)已不再局限于芯片層面,而是越來(lái)越側(cè)重于系統(tǒng)層面。英偉達(dá)依然是高性能 AI 基礎(chǔ)設(shè)施領(lǐng)域的領(lǐng)軍企業(yè),而 AMD 和越來(lái)越多的新興廠商則持續(xù)拓展其在企業(yè)級(jí)和超大規(guī)模環(huán)境中的市場(chǎng)份額。
在競(jìng)爭(zhēng)激烈的市場(chǎng)環(huán)境中,差異化取決于加速器、內(nèi)存和網(wǎng)絡(luò)組件的協(xié)同工作效率。能夠在規(guī)模化生產(chǎn)環(huán)境中提供可預(yù)測(cè)性能,同時(shí)有效控制功耗和基礎(chǔ)設(shè)施成本的平臺(tái),最有可能在未來(lái)的生產(chǎn)部署中獲得青睞。Tenstorrent 的 Blackhole 加速器和 Galaxy 平臺(tái)顯然正是基于這一目標(biāo)而設(shè)計(jì)的。
Tenstorrent 的最新公告也凸顯了人工智能系統(tǒng)評(píng)估方式的重大轉(zhuǎn)變。加速器性能仍然至關(guān)重要,但它與內(nèi)存帶寬、網(wǎng)絡(luò)吞吐量和系統(tǒng)可擴(kuò)展性之間的聯(lián)系日益緊密。這些因素正迅速成為衡量生產(chǎn)級(jí)人工智能基礎(chǔ)設(shè)施的關(guān)鍵指標(biāo)。
在下一階段的人工智能部署中,能夠取得成功的公司可能并非僅僅擁有速度最快的芯片,而是那些能夠在計(jì)算、內(nèi)存和網(wǎng)絡(luò)基礎(chǔ)設(shè)施方面實(shí)現(xiàn)均衡性能,并能從單臺(tái)服務(wù)器高效擴(kuò)展到分布式集群的公司。Tenstorrent 正將 Blackhole 及其Galaxy 平臺(tái)定位于這種新興的人工智能基礎(chǔ)設(shè)施模式之中。Tenstorrent 的方案似乎與當(dāng)前的市場(chǎng)需求高度契合,但最終,公司的成功將取決于嚴(yán)格的執(zhí)行力、大規(guī)模性能驗(yàn)證、構(gòu)建強(qiáng)大的軟件生態(tài)系統(tǒng)以及推動(dòng)客戶采用。
(來(lái)源:編譯自forbes)
*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。
今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4391內(nèi)容,歡迎關(guān)注。
加星標(biāo)??第一時(shí)間看推送
求推薦
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.