基于NVIDIA BlueField DPU加速的 F5 BIG-IP Next for Kubernetes 實(shí)現(xiàn)更高Token吞吐、更低單Token成本,并支持安全的多租戶AI基礎(chǔ)設(shè)施,助力智能體時(shí)代下的AI工廠轉(zhuǎn)型。
西雅圖-全球領(lǐng)先的應(yīng)用交付和API安全解決方案提供商F5(NASDAQ: FFIV)日前宣布,進(jìn)一步擴(kuò)展與NVIDIA的深度合作,旨在加速并優(yōu)化AI推理基礎(chǔ)設(shè)施。
此次升級(jí)整合了F5 BIG-IP Next for Kubernetes與 NVIDIA BlueField-3 DPU,構(gòu)建出具備智能化與遙測(cè)感知能力的基礎(chǔ)設(shè)施層。在提升GPU利用率的同時(shí),該解決方案能夠顯著提升GPU利用率及Token吞吐量、降低時(shí)延,并支持在大規(guī)模環(huán)境下構(gòu)建安全的多租戶AI平臺(tái)。
在AI系統(tǒng)中,Token是衡量AI輸出的基本單位,即在推理過程中生成和處理的詞語、符號(hào)或數(shù)據(jù)片段。Token產(chǎn)出的規(guī)模與速度,直接決定了用戶體驗(yàn)、基礎(chǔ)設(shè)施效率以及單加速器的收益能力。
隨著企業(yè)與GPU即服務(wù)(GPUaaS)提供商加速推動(dòng)AI商業(yè)化,并從實(shí)驗(yàn)階段邁向規(guī)模化創(chuàng)收,基礎(chǔ)設(shè)施效率正成為關(guān)鍵衡量指標(biāo)。當(dāng)前,行業(yè)衡量標(biāo)準(zhǔn)正從單純的GPU部署規(guī)模,轉(zhuǎn)向更精細(xì)化的Token經(jīng)濟(jì)指標(biāo),包括Token吞吐量、首個(gè)Token時(shí)間(TTFT)、單Token成本以及單GPU收入等。F5與NVIDIA的聯(lián)合解決方案,正是圍繞這些核心指標(biāo)進(jìn)行優(yōu)化設(shè)計(jì),助力客戶實(shí)現(xiàn)AI投資回報(bào)最大化。
通過智能化 AI 基礎(chǔ)設(shè)施優(yōu)化 Token 經(jīng)濟(jì)性
從以應(yīng)用為中心的推理轉(zhuǎn)向由智能體驅(qū)動(dòng)的AI工作流,迫切需要新的架構(gòu)設(shè)計(jì),以提升token吞吐效率并降低成本。F5 BIG-IP Next for Kubernetes現(xiàn)已深度集成NVIDIA NIM 統(tǒng)計(jì)數(shù)據(jù)、Dynamo運(yùn)行時(shí)信號(hào)以及GPU遙測(cè)信息,實(shí)現(xiàn)在推理執(zhí)行前即可進(jìn)行感知推理狀態(tài)的流量調(diào)度決策。通過實(shí)時(shí)將工作負(fù)載匹配至最合適的加速器資源,該解決方案在提升持續(xù)利用率的同時(shí),有效降低推理時(shí)延與重復(fù)計(jì)算。
F5首席產(chǎn)品官Kunal Anand表示,“AI基礎(chǔ)設(shè)施已不再只是獲取GPU資源或擴(kuò)大部署規(guī)模,而是演進(jìn)為如何最大化單塊加速器所產(chǎn)生的經(jīng)濟(jì)價(jià)值。通過與NVIDIA的合作,我們助力AI工廠將Token產(chǎn)出轉(zhuǎn)化為可量化的業(yè)務(wù)指標(biāo)。BIG-IP Next for Kubernetes提供所需的智能調(diào)度與治理能力,幫助企業(yè)提升GPU產(chǎn)出效率、降低單Token成本,并更自信地?cái)U(kuò)展共享型AI平臺(tái)。”
經(jīng)驗(yàn)證的基礎(chǔ)設(shè)施效率提升:結(jié)構(gòu)性躍遷
性能數(shù)據(jù)充分印證了這一點(diǎn)。在The Tolly Group的驗(yàn)證測(cè)試中,基于NVIDIA BlueField-3 DPU加速的F5 BIG-IP Next for Kubernetes,實(shí)現(xiàn)了最高達(dá)40%的Token吞吐提升、首個(gè)Token時(shí)間加快61%,以及整體請(qǐng)求時(shí)延降低34%。
這并非漸進(jìn)式優(yōu)化,而是架構(gòu)層面的效率躍遷。通過將網(wǎng)絡(luò)處理、TLS/加密、AI感知負(fù)載均衡及流量管理等任務(wù)卸載至NVIDIA BlueField-3 DPU,BIG-IP Next for Kubernetes能夠有效釋放主機(jī)CPU資源,并讓GPU專注于其核心職責(zé),即在大規(guī)模場(chǎng)景下執(zhí)行持續(xù)、高吞吐的AI推理計(jì)算。這一架構(gòu)實(shí)現(xiàn)了GPU利用率顯著提升、排隊(duì)延遲減少,以及Token產(chǎn)出能力增強(qiáng),從而在固定基礎(chǔ)設(shè)施規(guī)模下實(shí)現(xiàn)更低的單Token成本。更為關(guān)鍵的是,這一系列性能提升無需對(duì)模型本身進(jìn)行任何修改,可直接應(yīng)用于現(xiàn)有AI工廠基礎(chǔ)設(shè)施。對(duì)于在Token經(jīng)濟(jì)學(xué)賽道展開競(jìng)爭(zhēng)的企業(yè)及NeoCloud服務(wù)提供商而言,這意味著從限制AI產(chǎn)出的基礎(chǔ)設(shè)施,邁向加速AI產(chǎn)出的關(guān)鍵轉(zhuǎn)變。
NVIDIA網(wǎng)絡(luò)業(yè)務(wù)高級(jí)副總裁Kevin Deierling表示,“NVIDIA加速計(jì)算基礎(chǔ)設(shè)施與F5具備AI的應(yīng)用交付與安全平臺(tái)相結(jié)合,能夠顯著提升AI工廠的Token 經(jīng)濟(jì)效益,并在無需修改模型的前提下,實(shí)現(xiàn)可擴(kuò)展且具備成本效率的推理能力。F5與NVIDIA正攜手助力企業(yè)以更高效、更經(jīng)濟(jì)的方式擴(kuò)展AI工廠推理能力。”
面向智能體驅(qū)動(dòng)AI與多租戶平臺(tái)構(gòu)建
現(xiàn)代AI工作負(fù)載正日益呈現(xiàn)出智能體驅(qū)動(dòng)、持久化與上下文感知。這類新型負(fù)載對(duì)流量調(diào)度提出了更高要求,傳統(tǒng)負(fù)載均衡已難以勝任。F5 BIG-IP Next for Kubernetes增強(qiáng)版現(xiàn)已支持以下核心能力:
·面向智能體AI工作流的推理感知路由。
·集成NVIDIA DOCA Platform Framework(DPF),簡(jiǎn)化NVIDIA BlueField DPU的部署與全生命周期管理。
·基于EVPN-VXLAN與動(dòng)態(tài)VRF的網(wǎng)絡(luò)級(jí)多租戶隔離能力。
·在Kubernetes AI環(huán)境中內(nèi)建安全能力、Token治理與可觀測(cè)性。
這些能力賦能企業(yè)與NeoCloud服務(wù)提供商能夠在共享 GPU 基礎(chǔ)設(shè)施的同時(shí),實(shí)現(xiàn)跨業(yè)務(wù)單元或外部客戶的安全隔離,在保障性能隔離性的前提下,維持可預(yù)測(cè)的服務(wù)水平。
面向AI工廠經(jīng)濟(jì)學(xué)的控制平面
F5與NVIDIA為企業(yè)提供經(jīng)過驗(yàn)證的工具與最佳實(shí)踐,助力優(yōu)化推理架構(gòu)。基于上述能力升級(jí),F(xiàn)5 BIG-IP Next for Kubernetes正在演進(jìn)為AI工廠經(jīng)濟(jì)學(xué)的戰(zhàn)略級(jí)控制平面,實(shí)現(xiàn)治理Token消耗、優(yōu)化流量路徑,并最大限度地提升基礎(chǔ)設(shè)施的投資回報(bào)率(ROI)。
基于此,企業(yè)無需再通過過度資源預(yù)留來彌補(bǔ)效率損耗,而是能夠從現(xiàn)有已部署GPU資源中釋放更高的經(jīng)濟(jì)價(jià)值。由此帶來一系列關(guān)鍵業(yè)務(wù)收益,包括:?jiǎn)蜧PU收入提升、運(yùn)維成本降低,并能構(gòu)建起支撐持續(xù)增長的可擴(kuò)展AI服務(wù)。通過深度融合NVIDIA的基礎(chǔ)設(shè)施遙測(cè)與DPU加速能力,以及F5在流量智能與安全領(lǐng)域的核心優(yōu)勢(shì),雙方正助力企業(yè)將AI工廠從計(jì)算資源平臺(tái)轉(zhuǎn)化為高效、可變現(xiàn)的業(yè)務(wù)平臺(tái),從而為智能體時(shí)代做好充分準(zhǔn)備。
附加資源
· 博客文章:AI工廠需要智能化基礎(chǔ)設(shè)施:The Tolly Group最新測(cè)試結(jié)果深度解析
·技術(shù)報(bào)告:The Tolly Group獨(dú)立測(cè)試報(bào)告:F5 BIG-IP Next for Kubernetes性能驗(yàn)證全記錄
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.