公眾號記得加星標(biāo)??,第一時間看推送不會錯過。
在設(shè)計用于實現(xiàn)高速、高效性能的AI處理器時,芯片架構(gòu)師必須應(yīng)對多種因素,其中最重要的挑戰(zhàn)之一是快速演進的AI模型。
《Semiconductor Engineering》邀請了多位業(yè)內(nèi)專家參與討論,包括:來自Arm的邊緣AI產(chǎn)品管理總監(jiān)Ronan Naughton;來自Cadence的Tensilica DSP產(chǎn)品管理集團總監(jiān)Amol Borkar與AI IP產(chǎn)品營銷總監(jiān)Jason Lawley;來自Expedera的首席科學(xué)家兼聯(lián)合創(chuàng)始人Sharad Chole;來自Mixel的市場總監(jiān)Justin Endo;來自Quadric的首席營銷官Steve Roddy;來自Rambus的院士兼杰出發(fā)明家Dr. Steven Woo;來自Siemens EDA的IC驗證與EDA AI產(chǎn)品負責(zé)人Sathishkumar Balasubramanian;以及來自Synopsys的首席產(chǎn)品經(jīng)理Gordon Cooper。以下為討論摘錄。
Q1:目前在邊緣端使用的 Agent(智能體)有哪些不同類型?
Woo: 如今大多數(shù)邊緣智能體可以歸類為感知、推理,以及在機器人案例中的規(guī)劃與行動。這些任務(wù)通常在同一設(shè)備上共同運行,關(guān)鍵不僅在于推理,還在于系統(tǒng)觀察、決策和響應(yīng)的速度。這迫使設(shè)計者重新思考內(nèi)存層級、互連和安全邊界。智能體實際上是整個系統(tǒng)的協(xié)同工作,而不僅僅是框圖上的一個神經(jīng)網(wǎng)絡(luò)。
Chole: 讓我們定義一下為什么 Agentic AI(智能體 AI)與生成式 AI 不同。首先也是最重要的,是自主權(quán)的概念。生成式 AI 是由提示詞觸發(fā),然后生成響應(yīng)。Agentic AI 在高級任務(wù)中具有更多的自主權(quán)。你給它們高級任務(wù),它們負責(zé)編排、規(guī)劃并想出如何執(zhí)行。其次,它們可以訪問某種形式的內(nèi)存。并非所有智能體都有內(nèi)存訪問權(quán),但通常可以訪問提供用戶指令的內(nèi)存——或者類似于 CLAUDE.md 文件,它們擁有工具調(diào)用權(quán)限。所以它們不是被動的。這不像給你一個提示詞,然后你只能做這么多。它們是主動的。這意味著它們可以查詢系統(tǒng)中的當(dāng)前日期、天氣,以及你最近是否點擊了某張照片。它們可以訪問你為其啟用的 API 調(diào)用或工具調(diào)用。我并不是說它們有權(quán)訪問你的根文件系統(tǒng),但它們確實可以訪問很多我們作為人類在筆記本電腦或自己系統(tǒng)上會做的事情。這對于任何與編碼相關(guān)的實踐都非常有用,因為它們可以編譯、運行測試等等。這一切都源于工具調(diào)用。之后,它們是思考機器,而不只是生成某些東西。它們在端到端地規(guī)劃、思考和運行,或者在進行迭代。當(dāng)工具調(diào)用發(fā)生時,它們會獲得反饋,并根據(jù)反饋再次思考需要執(zhí)行的計劃。這使智能體區(qū)別于生成式 AI,你可以將其視為一種多輪交互,但這些輪次是通過工具實現(xiàn)的,而不是通過人工干預(yù)。基本上,由于這個原因,整體處理會變得復(fù)雜。它不再局限于“嘿,我給你這張圖片,你需要據(jù)此生成一張不同的圖片”。如果我這樣限定問題,我的輸入和輸出 Token(標(biāo)記)是受限的。但智能體的情況并非總是如此,它們不一定是受限的。雖然會有最大 Token 限制,但不一定總是固定為某個常數(shù)。這帶來了一些挑戰(zhàn),尤其是你能給它什么任務(wù)?你可以將元素更改為更小的尺寸,可以限制任務(wù)或工具使用者的復(fù)雜性。但即便如此,任務(wù)的復(fù)雜性仍將決定完成任務(wù)所需的處理量。
Naughton:關(guān)于私有智能體,我們看到的情況是,我個人托管的 LLM(大語言模型)可以訪問我的私有媒體,還有我的日歷。因此,例如,我可以讓我的私有 LLM 運行計劃內(nèi)或自動化的任務(wù),本質(zhì)上作為我的行政助理并為我完成一些工作。但我們也看到邊緣設(shè)備上編碼智能體的興起,我可以向邊緣編碼智能體并行部署多個任務(wù),它可以自主工作并在隨后向我反饋結(jié)果。這是兩種常見的個人邊緣側(cè)智能體用例。在移動端,我們也看到新工具出現(xiàn),可以進行快速的應(yīng)用導(dǎo)航。我可能給它一個指令,它可能會打開兩三個應(yīng)用來完成該指令。
Q2:當(dāng)模型變化不可避免時,架構(gòu)師如何開始項目并做出決策?
Woo:性能和功耗效率日益受到存儲系統(tǒng)設(shè)計和數(shù)據(jù)移動的支配。架構(gòu)師需要了解目標(biāo)用例,并對占用硅片面積的功能進行嚴(yán)格篩選,因為每個額外的功能都會消耗 PPA(性能、功耗、面積)并增加復(fù)雜性,你最終都要為此付出代價。芯片設(shè)計者需要優(yōu)先考慮數(shù)據(jù)移動進行設(shè)計,因為這是決定性能和功耗效率勝負的關(guān)鍵。額外的復(fù)雜性還來自于整合正確的 RAS(可靠性、可用性、可服務(wù)性)解決方案,以實現(xiàn)高可靠性和可用性,確保操作可預(yù)測且值得信賴。
Roddy:鑒于不知道未來的嵌入式智能體會采取什么形式,以及它在計算或通信方面可能需要什么樣的馬力,這要求架構(gòu)師在系統(tǒng)中投入盡可能多的通用性和靈活性。以你下一輛車可能配備的功能為例,比如嵌入式車輛健康智能體。我什么時候該去保養(yǎng)車?現(xiàn)在,你通過人類的觀察來判斷,思考你的駕駛習(xí)慣。如果你和配偶或孩子共用一輛車,誰在什么時候、什么地方開車?如果智能體足夠聰明,知道誰開得最多呢?它執(zhí)行所有的預(yù)測性維護,監(jiān)控所有系統(tǒng),了解時令,了解天氣,了解即將到來的周末。Stephen 和他的家人喜歡每個周末去滑雪。輪胎磨禿了,雪天路況會很差,也許我們該去換新輪胎。智能體可以了解各種上下文信息。同樣的一輛車,如果停在車庫里,老奶奶只在周日開車去教堂,由于駕駛方式不同,其需求也會大不相同。這種東西未來會出現(xiàn)嗎?它會適應(yīng)周圍的情況,并與車主或駕駛員溝通,從駕駛員的交互中學(xué)習(xí)嗎?它開始監(jiān)控不同的事物,或推薦不同的事物,測試未來可能發(fā)生的不同情況。處理這類事情需要在計算架構(gòu)中具備什么樣的通用性?
Lawley:對我來說,這些智能體回歸到了多模態(tài) AI。正如 Steve 所說,你的車?yán)镉兄悄荏w在做這些事,但你的智能體真的能拿起電話打給某人(人類參與其中)并與之交談嗎?所以現(xiàn)在它正在使用音頻技術(shù)進行噪聲抑制,正在進行語言識別,正在使用語言模型為你預(yù)約。然后它回來告訴你:“嘿,你的車已經(jīng)約好了。”我預(yù)見到智能體的整個世界將從根本上改變我們與計算交互的方式,尤其是邊緣計算。
Roddy:接著你的話,你因為參加活動從灣區(qū)開車到了南加州,現(xiàn)在車出了問題。現(xiàn)在它必須在當(dāng)?shù)卣乙粋€服務(wù)部門。它能查出你因為買了延長保修期而擁有服務(wù)合同嗎?你的經(jīng)銷商在哪?或者,根據(jù)你喜歡用 Yelp 且偏好五星級評價的習(xí)慣,它會推薦哪些獨立維修店?它將足夠聰明,弄清楚如何指引你并節(jié)省這類事情的時間。這是目前的車輛做不到的。目前的車輛只會在儀表盤上亮起一個燈,顯示油壓低。僅此而已,它不會為你解決那個狀況。
Lawley:從架構(gòu)師的角度來看,我們知道的一點是,模型的靈活性非常重要。未來會有不同的浮點表示。這些智能體可能需要依賴許多不同的模型,因此讓你的計算能力和構(gòu)建的系統(tǒng)具有足夠的靈活性來處理各種不同的模型類型,對架構(gòu)師來說至關(guān)重要。
Cooper:我同意。你提到了多模態(tài)的需求。對于我們這些定義下一代 NPU 的人來說,我們正在加速那些你與系統(tǒng)中的主機處理器相結(jié)合的東西。從 NPU 的角度來看,這里存在系統(tǒng)級的問題。問題在于你能多靈活地處理這些不斷涌現(xiàn)的多模態(tài)模型——無論是 VLA(視覺-語言-行動)、VLM(視覺-語言模型),還是其他模型。對于我們這些制造 NPU 的人來說,這是邊緣端的挑戰(zhàn)。
Chole:我想從部署的角度來回答這個問題。當(dāng)我們運行智能體工作負載時,它們是長期運行的,這就要求它們需要在后臺運行。這成為了優(yōu)先級。它們必須在后臺運行。當(dāng)事物在后臺運行時,我們要確保它盡可能優(yōu)化。因此,對 MoE(混合專家模型)的支持變得非常重要,因為我們沒有批處理(batching)。MoE 模型變得至關(guān)重要。這些不一定是大型模型。即使對于小型模型,MoE 也很關(guān)鍵,因為邊緣端沒有批處理。對 KV(鍵值)緩存量化技術(shù)(如 turbo content)的支持也變得必不可少,因為我們不想一直浪費帶寬去加載巨大的 KV 緩存,即便使用稀疏注意機制,這些智能體最終也會產(chǎn)生巨大的 KV 緩存。這也會很有趣,是一種節(jié)省 2 到 3 倍帶寬的方法。此外,運行時部署需要支持像前綴緩存(prefix caching)這樣的內(nèi)存技術(shù)。你還需要能夠進行工具調(diào)用。所以我們基本上是將服務(wù)器級的技術(shù)——即當(dāng)前數(shù)據(jù)中心推理提供商所支持的功能——引入邊緣,并試圖讓智能體在最小的占用空間下發(fā)揮最強大的功能。這是我從部署角度的看法。如果你問我模型將如何演進——我希望是零演進。如果你問我在邊緣運行的智能體在任何意義上是否比在數(shù)據(jù)中心運行更好,我仍然不完全清楚。遺憾的是,如果你擁有聯(lián)網(wǎng)設(shè)備,除了隱私原因外,我仍然不推薦在邊緣運行。
Q3:你目前在邊緣 AI 或智能體邊緣 AI 領(lǐng)域看到的最有趣的驅(qū)動應(yīng)用是什么?
Woo:一些最引人注目的應(yīng)用存在于有時間限制的系統(tǒng)中,如工業(yè)自動化、機器人和汽車感測。這些系統(tǒng)使用智能體行為實時適應(yīng)不斷變化的輸入,而不不僅僅是分類它們所看到的東西。從硬件角度看,挑戰(zhàn)在于處理持續(xù)數(shù)據(jù)流的同時保持低延遲。這種結(jié)合正迫使存儲帶寬、功耗效率和系統(tǒng)級集成進行創(chuàng)新。
Lawley:它無處不在。每個人都在把模型用于天底下的任何事情,所以很難指明某一個特定的東西。它是你在邊緣能想到的一切,而且人們可能會在那些我們從未想過的領(lǐng)域提出新點子。
Roddy:我們看到很多制造商和系統(tǒng)公司在思考 LLM(尤其是 SLM,小語言模型)如何改變?nèi)藱C界面,無論是你與汽車的交互方式,還是技術(shù)人員與工廠設(shè)備的交互方式,或者是你與廚房微波爐的交互方式。如果微波爐沒有按鈕,你只需對著它說話,這能降低成本嗎?因為你不需要觸摸面板,不需要那些會損壞的東西,所以它能降低微波爐的成本嗎?工廠設(shè)備上的麥克風(fēng)、揚聲器和顯示面板是否意味著你不再需要塞在大型設(shè)備側(cè)板里的 600 頁手冊了。想想節(jié)省的手冊打印成本,或者手冊丟失的問題。現(xiàn)在你買車時,不再會得到一本寫滿所有錯誤代碼的 600 頁的書。現(xiàn)在不需要了。你只需和車輛交談,它就會告訴你發(fā)生了什么。因此,物理構(gòu)建方式的變化可以降低成本并提高用戶滿意度,而這很大程度上是因為你可以在邊緣放置一個 300 億參數(shù)的模型。它不一定非要是智能體,但它確實是一種截然不同的交互方式。
Balasubramanian:在智能體端,我看到不少個人健康助手出現(xiàn),它們會采取行動,而不僅僅是感測。隨著我們的談話,還有更多應(yīng)用正在構(gòu)建中。西門子所做的一件事是與 Meta 在 Ray-Ban 上合作,我們正在為工廠車間配備 Ray-Ban Meta 眼鏡。這是人類配合邊緣 AI 處理的完美案例。你基本上讓人們在工廠車間走動,隨著你走到某個特定區(qū)域,眼鏡中會出現(xiàn)一個儀表盤,顯示每臺機器的狀態(tài):一切正常、出錯了,或者需要維護。對于這個案例,我不清楚處理發(fā)生的具體細節(jié)。它仍然連接到中央樞紐嗎?極有可能是這樣,或者也可能在邊緣。這些是我們看到的工業(yè)案例,你在其中推理、感測并獲取信息。當(dāng)你問“我該如何行動?”時,那將是下一個大趨勢。這是一個有趣的時代,有很多有趣的應(yīng)用正在發(fā)生。我體驗過很多筆記記錄器,其挑戰(zhàn)在于電源供應(yīng)。隨著你做得更多,功耗效率變得更加重要。
Cooper:我們擁有這種感知 AI,人們現(xiàn)在真正開始意識到,“噢,我有一個真實的用例,”或者,“我有一個例子,我可以把生成式 AI 加入其中。”在汽車領(lǐng)域,它可能在座艙內(nèi),理論上你能夠指著窗外問:“那是哪棟建筑?”通過多模態(tài),它可以回答:“我看到你指的地方了,我能看到外面,我知道我的地理位置,我理解你的提示詞。”所有這些多模態(tài)能力都在向前推進。還有關(guān)于具身 AI(Physical AI)和機器人的整套構(gòu)想——汽車、無人機和人形機器人。英偉達對此非常看好。我不認為每個人都接受家里有一個人形機器人幫我們疊衣服,但他們非常有信心。看到機器人技術(shù)將走向何方,這確實是一個有趣的應(yīng)用。
Q4:我們以前見過像現(xiàn)在 AI 這樣的變化速度嗎?
Balasubramanian:不,在我的經(jīng)驗中沒見過。我有 25 年以上的經(jīng)驗,但在過去的 20 年里,我從未見過如此巨大的變化。每周都有新客戶冒出來,新的設(shè)計項目針對新應(yīng)用啟動,我們正在努力跟上他們的步伐。
Lawley:如果你看歷史,英特爾帶著 x86 上線,還有與仙童(Fairchild)的競賽。那是一個非常有創(chuàng)造力的時代。但這比半導(dǎo)體競賽要廣泛得多。每個人都知道它。我的孩子知道,我的妻子知道,我的父母也知道。
Chole:機器人技術(shù)和自主性將極大地推高邊界。我們將看到 PetaOPS(每秒千萬億次運算)引擎。我們以世界模型(world models)開始了這段對話。這非常有趣,因為這些模型必須在這些自主平臺上運行,而且它們在視覺和 Token 方面都有巨大的處理需求。所以,這也許就是一年后我們將討論的話題。
Woo:AI 的變化速度與我們在現(xiàn)代半導(dǎo)體設(shè)計中看到的任何情況都不同。AI 正在壓縮整個技術(shù)棧的時間表,硬件立即感受到了這種壓力。隨著新功能的上市,需求不斷被改寫,模型演進如此之快,以至于僅僅一年前的假設(shè)可能已不再成立。這正迫使系統(tǒng)設(shè)計采用整體方法,從一開始就將計算、存儲、安全和 I/O 與軟件需求統(tǒng)籌規(guī)劃。這是我們思考未來芯片構(gòu)建方式的根本性轉(zhuǎn)變。
Naughton:這是呈指數(shù)級的。現(xiàn)在的不同之處在于,這不再僅僅是炒作。我們看到了顯著的生產(chǎn)力提升工具、個人生活方式提升工具,以及 AI 領(lǐng)域的創(chuàng)新和發(fā)現(xiàn)。也許這有點偏離了邊緣 AI 的范疇,但當(dāng)然,我首先提到的那些確實在改善人們的生活。但隨之而來的是風(fēng)險,我們都必須意識到這些風(fēng)險,并采取慎重的步驟,以確保我們實現(xiàn)的這些生產(chǎn)力增強和生活方式擴展是與相關(guān)潛在風(fēng)險相權(quán)衡的。
https://semiengineering.com/designing-chips-in-the-context-of-rapidly-evolving-ai/
(來源:semiengineering )
*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個人觀點,半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達一種不同的觀點,不代表半導(dǎo)體行業(yè)觀察對該觀點贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。
今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4397內(nèi)容,歡迎關(guān)注。
加星標(biāo)??第一時間看推送
求推薦
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.