AI芯片設(shè)計，越來越難

2026-05-05 11:38:11　來源: 半導(dǎo)體行業(yè)觀察

上海舉報

分享至

公眾號記得加星標(biāo)??，第一時間看推送不會錯過。

在設(shè)計用于實現(xiàn)高速、高效性能的AI處理器時，芯片架構(gòu)師必須應(yīng)對多種因素，其中最重要的挑戰(zhàn)之一是快速演進的AI模型。

《Semiconductor Engineering》邀請了多位業(yè)內(nèi)專家參與討論，包括：來自Arm的邊緣AI產(chǎn)品管理總監(jiān)Ronan Naughton；來自Cadence的Tensilica DSP產(chǎn)品管理集團總監(jiān)Amol Borkar與AI IP產(chǎn)品營銷總監(jiān)Jason Lawley；來自Expedera的首席科學(xué)家兼聯(lián)合創(chuàng)始人Sharad Chole；來自Mixel的市場總監(jiān)Justin Endo；來自Quadric的首席營銷官Steve Roddy；來自Rambus的院士兼杰出發(fā)明家Dr. Steven Woo；來自Siemens EDA的IC驗證與EDA AI產(chǎn)品負責(zé)人Sathishkumar Balasubramanian；以及來自Synopsys的首席產(chǎn)品經(jīng)理Gordon Cooper。以下為討論摘錄。

Q1：目前在邊緣端使用的 Agent（智能體）有哪些不同類型？

Woo：如今大多數(shù)邊緣智能體可以歸類為感知、推理，以及在機器人案例中的規(guī)劃與行動。這些任務(wù)通常在同一設(shè)備上共同運行，關(guān)鍵不僅在于推理，還在于系統(tǒng)觀察、決策和響應(yīng)的速度。這迫使設(shè)計者重新思考內(nèi)存層級、互連和安全邊界。智能體實際上是整個系統(tǒng)的協(xié)同工作，而不僅僅是框圖上的一個神經(jīng)網(wǎng)絡(luò)。

Chole：讓我們定義一下為什么 Agentic AI（智能體 AI）與生成式 AI 不同。首先也是最重要的，是自主權(quán)的概念。生成式 AI 是由提示詞觸發(fā)，然后生成響應(yīng)。Agentic AI 在高級任務(wù)中具有更多的自主權(quán)。你給它們高級任務(wù)，它們負責(zé)編排、規(guī)劃并想出如何執(zhí)行。其次，它們可以訪問某種形式的內(nèi)存。并非所有智能體都有內(nèi)存訪問權(quán)，但通常可以訪問提供用戶指令的內(nèi)存——或者類似于 CLAUDE.md 文件，它們擁有工具調(diào)用權(quán)限。所以它們不是被動的。這不像給你一個提示詞，然后你只能做這么多。它們是主動的。這意味著它們可以查詢系統(tǒng)中的當(dāng)前日期、天氣，以及你最近是否點擊了某張照片。它們可以訪問你為其啟用的 API 調(diào)用或工具調(diào)用。我并不是說它們有權(quán)訪問你的根文件系統(tǒng)，但它們確實可以訪問很多我們作為人類在筆記本電腦或自己系統(tǒng)上會做的事情。這對于任何與編碼相關(guān)的實踐都非常有用，因為它們可以編譯、運行測試等等。這一切都源于工具調(diào)用。之后，它們是思考機器，而不只是生成某些東西。它們在端到端地規(guī)劃、思考和運行，或者在進行迭代。當(dāng)工具調(diào)用發(fā)生時，它們會獲得反饋，并根據(jù)反饋再次思考需要執(zhí)行的計劃。這使智能體區(qū)別于生成式 AI，你可以將其視為一種多輪交互，但這些輪次是通過工具實現(xiàn)的，而不是通過人工干預(yù)。基本上，由于這個原因，整體處理會變得復(fù)雜。它不再局限于“嘿，我給你這張圖片，你需要據(jù)此生成一張不同的圖片”。如果我這樣限定問題，我的輸入和輸出 Token（標(biāo)記）是受限的。但智能體的情況并非總是如此，它們不一定是受限的。雖然會有最大 Token 限制，但不一定總是固定為某個常數(shù)。這帶來了一些挑戰(zhàn)，尤其是你能給它什么任務(wù)？你可以將元素更改為更小的尺寸，可以限制任務(wù)或工具使用者的復(fù)雜性。但即便如此，任務(wù)的復(fù)雜性仍將決定完成任務(wù)所需的處理量。

Naughton：關(guān)于私有智能體，我們看到的情況是，我個人托管的 LLM（大語言模型）可以訪問我的私有媒體，還有我的日歷。因此，例如，我可以讓我的私有 LLM 運行計劃內(nèi)或自動化的任務(wù)，本質(zhì)上作為我的行政助理并為我完成一些工作。但我們也看到邊緣設(shè)備上編碼智能體的興起，我可以向邊緣編碼智能體并行部署多個任務(wù)，它可以自主工作并在隨后向我反饋結(jié)果。這是兩種常見的個人邊緣側(cè)智能體用例。在移動端，我們也看到新工具出現(xiàn)，可以進行快速的應(yīng)用導(dǎo)航。我可能給它一個指令，它可能會打開兩三個應(yīng)用來完成該指令。

Q2：當(dāng)模型變化不可避免時，架構(gòu)師如何開始項目并做出決策？

Woo：性能和功耗效率日益受到存儲系統(tǒng)設(shè)計和數(shù)據(jù)移動的支配。架構(gòu)師需要了解目標(biāo)用例，并對占用硅片面積的功能進行嚴(yán)格篩選，因為每個額外的功能都會消耗 PPA（性能、功耗、面積）并增加復(fù)雜性，你最終都要為此付出代價。芯片設(shè)計者需要優(yōu)先考慮數(shù)據(jù)移動進行設(shè)計，因為這是決定性能和功耗效率勝負的關(guān)鍵。額外的復(fù)雜性還來自于整合正確的 RAS（可靠性、可用性、可服務(wù)性）解決方案，以實現(xiàn)高可靠性和可用性，確保操作可預(yù)測且值得信賴。

Roddy：鑒于不知道未來的嵌入式智能體會采取什么形式，以及它在計算或通信方面可能需要什么樣的馬力，這要求架構(gòu)師在系統(tǒng)中投入盡可能多的通用性和靈活性。以你下一輛車可能配備的功能為例，比如嵌入式車輛健康智能體。我什么時候該去保養(yǎng)車？現(xiàn)在，你通過人類的觀察來判斷，思考你的駕駛習(xí)慣。如果你和配偶或孩子共用一輛車，誰在什么時候、什么地方開車？如果智能體足夠聰明，知道誰開得最多呢？它執(zhí)行所有的預(yù)測性維護，監(jiān)控所有系統(tǒng)，了解時令，了解天氣，了解即將到來的周末。Stephen 和他的家人喜歡每個周末去滑雪。輪胎磨禿了，雪天路況會很差，也許我們該去換新輪胎。智能體可以了解各種上下文信息。同樣的一輛車，如果停在車庫里，老奶奶只在周日開車去教堂，由于駕駛方式不同，其需求也會大不相同。這種東西未來會出現(xiàn)嗎？它會適應(yīng)周圍的情況，并與車主或駕駛員溝通，從駕駛員的交互中學(xué)習(xí)嗎？它開始監(jiān)控不同的事物，或推薦不同的事物，測試未來可能發(fā)生的不同情況。處理這類事情需要在計算架構(gòu)中具備什么樣的通用性？

Lawley：對我來說，這些智能體回歸到了多模態(tài) AI。正如 Steve 所說，你的車?yán)镉兄悄荏w在做這些事，但你的智能體真的能拿起電話打給某人（人類參與其中）并與之交談嗎？所以現(xiàn)在它正在使用音頻技術(shù)進行噪聲抑制，正在進行語言識別，正在使用語言模型為你預(yù)約。然后它回來告訴你：“嘿，你的車已經(jīng)約好了。”我預(yù)見到智能體的整個世界將從根本上改變我們與計算交互的方式，尤其是邊緣計算。

Roddy：接著你的話，你因為參加活動從灣區(qū)開車到了南加州，現(xiàn)在車出了問題。現(xiàn)在它必須在當(dāng)?shù)卣乙粋€服務(wù)部門。它能查出你因為買了延長保修期而擁有服務(wù)合同嗎？你的經(jīng)銷商在哪？或者，根據(jù)你喜歡用 Yelp 且偏好五星級評價的習(xí)慣，它會推薦哪些獨立維修店？它將足夠聰明，弄清楚如何指引你并節(jié)省這類事情的時間。這是目前的車輛做不到的。目前的車輛只會在儀表盤上亮起一個燈，顯示油壓低。僅此而已，它不會為你解決那個狀況。

Lawley：從架構(gòu)師的角度來看，我們知道的一點是，模型的靈活性非常重要。未來會有不同的浮點表示。這些智能體可能需要依賴許多不同的模型，因此讓你的計算能力和構(gòu)建的系統(tǒng)具有足夠的靈活性來處理各種不同的模型類型，對架構(gòu)師來說至關(guān)重要。

Cooper：我同意。你提到了多模態(tài)的需求。對于我們這些定義下一代 NPU 的人來說，我們正在加速那些你與系統(tǒng)中的主機處理器相結(jié)合的東西。從 NPU 的角度來看，這里存在系統(tǒng)級的問題。問題在于你能多靈活地處理這些不斷涌現(xiàn)的多模態(tài)模型——無論是 VLA（視覺-語言-行動）、VLM（視覺-語言模型），還是其他模型。對于我們這些制造 NPU 的人來說，這是邊緣端的挑戰(zhàn)。

Chole：我想從部署的角度來回答這個問題。當(dāng)我們運行智能體工作負載時，它們是長期運行的，這就要求它們需要在后臺運行。這成為了優(yōu)先級。它們必須在后臺運行。當(dāng)事物在后臺運行時，我們要確保它盡可能優(yōu)化。因此，對 MoE（混合專家模型）的支持變得非常重要，因為我們沒有批處理（batching）。MoE 模型變得至關(guān)重要。這些不一定是大型模型。即使對于小型模型，MoE 也很關(guān)鍵，因為邊緣端沒有批處理。對 KV（鍵值）緩存量化技術(shù)（如 turbo content）的支持也變得必不可少，因為我們不想一直浪費帶寬去加載巨大的 KV 緩存，即便使用稀疏注意機制，這些智能體最終也會產(chǎn)生巨大的 KV 緩存。這也會很有趣，是一種節(jié)省 2 到 3 倍帶寬的方法。此外，運行時部署需要支持像前綴緩存（prefix caching）這樣的內(nèi)存技術(shù)。你還需要能夠進行工具調(diào)用。所以我們基本上是將服務(wù)器級的技術(shù)——即當(dāng)前數(shù)據(jù)中心推理提供商所支持的功能——引入邊緣，并試圖讓智能體在最小的占用空間下發(fā)揮最強大的功能。這是我從部署角度的看法。如果你問我模型將如何演進——我希望是零演進。如果你問我在邊緣運行的智能體在任何意義上是否比在數(shù)據(jù)中心運行更好，我仍然不完全清楚。遺憾的是，如果你擁有聯(lián)網(wǎng)設(shè)備，除了隱私原因外，我仍然不推薦在邊緣運行。

Q3：你目前在邊緣 AI 或智能體邊緣 AI 領(lǐng)域看到的最有趣的驅(qū)動應(yīng)用是什么？

Woo：一些最引人注目的應(yīng)用存在于有時間限制的系統(tǒng)中，如工業(yè)自動化、機器人和汽車感測。這些系統(tǒng)使用智能體行為實時適應(yīng)不斷變化的輸入，而不不僅僅是分類它們所看到的東西。從硬件角度看，挑戰(zhàn)在于處理持續(xù)數(shù)據(jù)流的同時保持低延遲。這種結(jié)合正迫使存儲帶寬、功耗效率和系統(tǒng)級集成進行創(chuàng)新。

Lawley：它無處不在。每個人都在把模型用于天底下的任何事情，所以很難指明某一個特定的東西。它是你在邊緣能想到的一切，而且人們可能會在那些我們從未想過的領(lǐng)域提出新點子。

Roddy：我們看到很多制造商和系統(tǒng)公司在思考 LLM（尤其是 SLM，小語言模型）如何改變?nèi)藱C界面，無論是你與汽車的交互方式，還是技術(shù)人員與工廠設(shè)備的交互方式，或者是你與廚房微波爐的交互方式。如果微波爐沒有按鈕，你只需對著它說話，這能降低成本嗎？因為你不需要觸摸面板，不需要那些會損壞的東西，所以它能降低微波爐的成本嗎？工廠設(shè)備上的麥克風(fēng)、揚聲器和顯示面板是否意味著你不再需要塞在大型設(shè)備側(cè)板里的 600 頁手冊了。想想節(jié)省的手冊打印成本，或者手冊丟失的問題。現(xiàn)在你買車時，不再會得到一本寫滿所有錯誤代碼的 600 頁的書。現(xiàn)在不需要了。你只需和車輛交談，它就會告訴你發(fā)生了什么。因此，物理構(gòu)建方式的變化可以降低成本并提高用戶滿意度，而這很大程度上是因為你可以在邊緣放置一個 300 億參數(shù)的模型。它不一定非要是智能體，但它確實是一種截然不同的交互方式。

Balasubramanian：在智能體端，我看到不少個人健康助手出現(xiàn)，它們會采取行動，而不僅僅是感測。隨著我們的談話，還有更多應(yīng)用正在構(gòu)建中。西門子所做的一件事是與 Meta 在 Ray-Ban 上合作，我們正在為工廠車間配備 Ray-Ban Meta 眼鏡。這是人類配合邊緣 AI 處理的完美案例。你基本上讓人們在工廠車間走動，隨著你走到某個特定區(qū)域，眼鏡中會出現(xiàn)一個儀表盤，顯示每臺機器的狀態(tài)：一切正常、出錯了，或者需要維護。對于這個案例，我不清楚處理發(fā)生的具體細節(jié)。它仍然連接到中央樞紐嗎？極有可能是這樣，或者也可能在邊緣。這些是我們看到的工業(yè)案例，你在其中推理、感測并獲取信息。當(dāng)你問“我該如何行動？”時，那將是下一個大趨勢。這是一個有趣的時代，有很多有趣的應(yīng)用正在發(fā)生。我體驗過很多筆記記錄器，其挑戰(zhàn)在于電源供應(yīng)。隨著你做得更多，功耗效率變得更加重要。

Cooper：我們擁有這種感知 AI，人們現(xiàn)在真正開始意識到，“噢，我有一個真實的用例，”或者，“我有一個例子，我可以把生成式 AI 加入其中。”在汽車領(lǐng)域，它可能在座艙內(nèi)，理論上你能夠指著窗外問：“那是哪棟建筑？”通過多模態(tài)，它可以回答：“我看到你指的地方了，我能看到外面，我知道我的地理位置，我理解你的提示詞。”所有這些多模態(tài)能力都在向前推進。還有關(guān)于具身 AI（Physical AI）和機器人的整套構(gòu)想——汽車、無人機和人形機器人。英偉達對此非常看好。我不認為每個人都接受家里有一個人形機器人幫我們疊衣服，但他們非常有信心。看到機器人技術(shù)將走向何方，這確實是一個有趣的應(yīng)用。

Q4：我們以前見過像現(xiàn)在 AI 這樣的變化速度嗎？

Balasubramanian：不，在我的經(jīng)驗中沒見過。我有 25 年以上的經(jīng)驗，但在過去的 20 年里，我從未見過如此巨大的變化。每周都有新客戶冒出來，新的設(shè)計項目針對新應(yīng)用啟動，我們正在努力跟上他們的步伐。

Lawley：如果你看歷史，英特爾帶著 x86 上線，還有與仙童（Fairchild）的競賽。那是一個非常有創(chuàng)造力的時代。但這比半導(dǎo)體競賽要廣泛得多。每個人都知道它。我的孩子知道，我的妻子知道，我的父母也知道。

Chole：機器人技術(shù)和自主性將極大地推高邊界。我們將看到 PetaOPS（每秒千萬億次運算）引擎。我們以世界模型（world models）開始了這段對話。這非常有趣，因為這些模型必須在這些自主平臺上運行，而且它們在視覺和 Token 方面都有巨大的處理需求。所以，這也許就是一年后我們將討論的話題。

Woo：AI 的變化速度與我們在現(xiàn)代半導(dǎo)體設(shè)計中看到的任何情況都不同。AI 正在壓縮整個技術(shù)棧的時間表，硬件立即感受到了這種壓力。隨著新功能的上市，需求不斷被改寫，模型演進如此之快，以至于僅僅一年前的假設(shè)可能已不再成立。這正迫使系統(tǒng)設(shè)計采用整體方法，從一開始就將計算、存儲、安全和 I/O 與軟件需求統(tǒng)籌規(guī)劃。這是我們思考未來芯片構(gòu)建方式的根本性轉(zhuǎn)變。

Naughton：這是呈指數(shù)級的。現(xiàn)在的不同之處在于，這不再僅僅是炒作。我們看到了顯著的生產(chǎn)力提升工具、個人生活方式提升工具，以及 AI 領(lǐng)域的創(chuàng)新和發(fā)現(xiàn)。也許這有點偏離了邊緣 AI 的范疇，但當(dāng)然，我首先提到的那些確實在改善人們的生活。但隨之而來的是風(fēng)險，我們都必須意識到這些風(fēng)險，并采取慎重的步驟，以確保我們實現(xiàn)的這些生產(chǎn)力增強和生活方式擴展是與相關(guān)潛在風(fēng)險相權(quán)衡的。

https://semiengineering.com/designing-chips-in-the-context-of-rapidly-evolving-ai/

（來源：semiengineering ）

*免責(zé)聲明：本文由作者原創(chuàng)。文章內(nèi)容系作者個人觀點，半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達一種不同的觀點，不代表半導(dǎo)體行業(yè)觀察對該觀點贊同或支持，如果有任何異議，歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4397內(nèi)容，歡迎關(guān)注。

加星標(biāo)??第一時間看推送

求推薦

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.