![]()
上行期理所當然的技術決策,到了用商業結果證明合理性的時候。
文丨趙宇
編輯丨龔方毅
“現在馬赫 M100 的業務目標達成度只有 60%。” 北京車展前夕,距離理想自研芯片量產裝車只剩一個月,理想汽車 CTO、系統與計算群組負責人謝炎告訴《晚點 Auto》,“真正的成功,是搭載馬赫 M100 的 L9 智駕能力跑到業界第一,然后車又賣得很好。那樣我們才能非常有底氣地說達到業務目標。”
1982 年,美國計算機科學家 Alan Kay 曾說,“你如果真正認真對待你的軟件,就要自己做硬件。” 基于類似邏輯,理想在 2022 年立項自研芯片,并已為此累計投入數十億元資金。謝炎是理想芯片自研項目的負責人。他 2022 年 7 月經美團創始人王興介紹加入理想。半年后,他晉升為理想 CTO。
提起這個,謝炎在華為和阿里的前同事說他趕上了好時光——當時理想正值業務上行期,公司上下充滿 “想贏” 的干勁。特斯拉證明了自研芯片對提升智駕體驗的幫助,而國內新能源車市場正意氣風發,資本市場也愿意給冒尖的新勢力更多想象空間。
到馬赫 M100 準備上車時,理想經歷了自 ONE 交付以來的首次年度銷量下滑,不僅純電戰略遭遇挫折,增程產品也面臨空前競爭。隨著新勢力們挨個步入成立的第十個年頭,中國新能源車的產品同質化和價格內卷相互促成。像自研芯片這等燒錢決策,如果當時看起來有多么理所當然,今天就要花多大的力氣來證明它的正確。
通常情況下,沒有經驗的公司會從小芯片做起,低成本跑通設計、流片和供應鏈流程。即使是小芯片,失敗一次也要損失數百萬美元;換成先進制程大芯片,除了每個環節更難,流片成本也指數級增加到千萬級美元,失敗一次跟馬斯克又炸掉一枚火箭差不多了。
謝炎剛加入時,理想芯片團隊只有兩名員工,不到一個月就剩一個了。留守的那位問他,“公司已經決定做芯片,但要怎么做?” 謝炎反對做小芯片試水。他告訴我們,理想不是為了證明有能力做芯片而做芯片,應該直接解決最核心的問題:確保首顆自研芯片量產時能超越同期最強的英偉達芯片。
他沒有沿著更主流的 GPGPU 路線追趕英偉達,而是選擇了數據流架構。按照理想的說法,馬赫 M100 單顆有效算力達 1280 TOPS,同時由于數據流架構提供的算法優化空間,其有效算力是英偉達 Thor-U 的 3 倍。
數據流架構由 MIT 的幾位教授在 1970 年代提出。謝炎在美國特拉華大學讀研時接觸到它,認為它比馮·諾依曼架構更接近大規模 AI 計算的需要,過去幾十年一直沒有大規模商用一是因為它的優勢需要足夠大的計算規模才能顯現,二是編程和調試難度也更高。
謝炎相信 AI 改變了一些假設,“我相信 AI 時代會有一套新的計算架構,一直想在汽車上把它試出來”。他告訴我們,GPU 依賴集中式調度和大量數據搬運,規模越大,效率損耗越明顯;數據流架構讓數據驅動計算,理論上能減少等待和搬運,把更多晶體管用于真正的計算。但這也把壓力轉移到軟件棧、編譯器和軟硬協同上。
杜克大學電子與計算機工程系教授陳怡然認為,馬赫 M100 是一次有前景的工程嘗試,但不應簡單地認為數據流架構就是未來發展方向——關鍵在于采用哪種具體的數據流設計,以及它與目標應用和軟件系統的協同效果。由于大部分優化工作轉移到軟件棧,實際效果很大程度上取決于編譯器的成熟度,以及軟硬件協同設計的質量。此外,自動駕駛算法模型演進很快,這種架構必須在 CNN、Transformer 等計算范式間保持足夠的靈活性。
“數據流架構是一個寬泛概念,涵蓋從脈動陣列、內核級數據重用方案到更激進的編譯器調度架構(如 Groq)等多種設計。” 陳怡然教授對《晚點 Auto》解釋,“馬赫 M100 采用了介于傳統 GPU/TPU 與 Groq 純靜態編譯器調度模型之間的技術路線,通過編譯器等軟件更精確地控制芯片內部的數據流動和計算過程,既保持實用的 NPU/SoC 設計,又讓數據搬運、本地緩存、互連通信和同步變得更可控。”
他認為,自動駕駛涉及環境感知、行為預測、路徑規劃等存在大量復雜計算任務的環節,現在還涉及大型 AI 模型推理。“如果軟件系統能有效協調這些數據傳輸和計算,芯片利用率會顯著提高,處理速度更穩定、能耗更低。”
謝炎承認馬赫 M100 上車過程也確實有不少 “坑”:硬件設計復雜度降低,軟件復雜度提高,對傳統編程方式并不友好,第一版智駕模型從更新到完成車端適配用了兩個月。盡管現在已經可以大幅縮短到不到一周,但仍有很大優化空間。接下來,他們還需要通過編譯器等軟件工具來充分釋放芯片的硬件性能潛力。
這件事由一個不大的團隊推進。理想芯片團隊早期長時間只有幾十人,現在約 200 人,仍遠小于外界想象中的完整芯片團隊規模。謝炎說,人多不一定好,人多時很多都是在搞政治斗爭。核心部分自己做,后端、SoC 集成等環節可以借助供應商。在理想上萬人的研發體系里,這個團隊更像一個安靜的角落,盡量不被每月銷量起伏干擾。
“只要我們還沒困難到一點兒錢都沒有,那就保持這個研發強度,把內功練好。重要的是,你相信這件事本身不管在什么時代都重要。” 謝炎說。
以下是我們與謝炎的對話,略經編輯。
不認為馬赫 M100 已經成功,現在只達成目標的 60%
晚點:回片時間目前有兩種說法,一種是 2025 年初,一種是 2025 年 5 月。
謝炎:2025 年初。我們回片后測試了三個月,到 5 月份,保證它沒什么問題,所有東西都穩定了才說成功。一般剛回片就宣布成功,是為了吸引資本。你不測三個月,根本不能確定里面有沒有問題。
晚點:流片結果和你們的預期完全一致嗎?
謝炎:對。這就是前期工作做得多的好處。你做得越多,回來之后跟你的預期越一致。
晚點:很多公司會在流片成功后很快對外宣布。
謝炎:對,一般都是這么干的。我們把芯片從臺積電背回來,第 12 個小時就點亮了,但我什么都沒說,因為我知道那不代表任何意義。
晚點:當時有擔心過流片回來,但模型在上面跑不了嗎?
謝炎:當然有,所以我們在流片之前做了極其充分的測試。大多數公司不會做到我們那個水平。我們不僅在模擬器上把操作系統跑起來,而且把很多大模型都完整地跑了,保證這個東西最終出來時盡量不出意外情況。很多人覺得我們的測試做得過于充分。
晚點:李想知道馬赫 M100 流片成功后是什么反應?
謝炎:我不記得了。直到今天,我也不認為它已經算是成功,真正的成功是全新一代理想 L9 搭載馬赫 M100 芯片后,智駕能夠跑到業界第一,然后車又賣得很好,我們才能非常有底氣地說達到業務目標。現在只算達到 60%,即使今天的確已經跑起來了。
晚點:智駕業界第一的目標,包括超過特斯拉嗎?
謝炎:我們的最終目標當然包括特斯拉,對標全球最高水平。
![]()
理想汽車馬赫 M100 自研芯片。來源:理想汽車
晚點:你工作經驗非常豐富,見過不同芯片流片。在理想和其他公司,個人感受有什么不一樣?
謝炎:這顆芯片還是挺了不起的。好多公司可能做了很長時間,但只是做一些比較小的芯片。所以你看我們團隊,雖然有些人在業界也工作了十幾、二十幾年,甚至更長時間,但還是挺興奮。
這么短的時間做這么大制程的芯片,在中國不多見。中國有上千家芯片公司,但是做到這個水平的比較少,我們又是第一次做,而且我們是新團隊、新架構,工藝制程又有挑戰。當然臺積電比較成熟、靠譜,我也非常感激他們。
晚點:你前面提到做芯片也希望 “車賣得好”,你們需要對汽車產品的商業成功負責嗎?
謝炎:我們沒法對商業成功負責,只能讓芯片具備足夠競爭力,也就是性價比一定很高,算力發揮的效能一定超越能買到的芯片。如果做不到這些,自研就沒有意義。
晚點:理想是全系車型都要搭載馬赫 M100 嗎?
謝炎:對,至少我們知道的是全系搭載。當你有成本、性能優勢,沒理由不全系搭載。
晚點:全系搭載對技術決策有什么影響?
謝炎:這很重要,我們一開始的目標就是全系搭載,如果內部都不愿意用,那就說明芯片不夠好。反過來講,全系搭載也幫我們計算出大概需要在成本、性能上做到什么程度。包括我們在立項時也計算過,搭載多少輛后能攤平全部研發成本,每塊芯片大概要比外購便宜多少錢。
晚點:是從去年芯片流片成功之后就決定全系搭載嗎?還是說會有一些中間的討論?
謝炎:決策過程不是你想象的那樣,更多是一開始大家約定好要做到什么程度,經過驗證足夠有競爭力才能搭載。所以要一步步驗證,流片回來,能跑起來,初步看到的確如我所說,性能、成本也有優勢,逐步就用了。大部分人還是會打一個問號,因為不參與這件事,也可以理解。當逐步讓他們從看見到相信,決策就落地了。
晚點:哪個指標真正打動了他們?
謝炎:主要還是性能。如果性能好,成本又不錯,比市面上能買到的都好,產品線沒理由不用。
晚點:從芯片跑起來,到真正上車,中間最大的挑戰是什么?
謝炎:第一顆芯片最后要上車,讓模型都能跑起來且性能很好,還需要一些軟件工作。數據流架構芯片最終靠 AI 能夠越來越快,但第一顆芯片還是有很多坑。比如它在硬件上的設計復雜度降低,但軟件復雜度提升,它不是那么適合人類編程,但這也不是不可以做。因為我自己做編譯器,我還是會跟團隊討論怎么讓編程更簡單。
我們第一版模型編出來花了兩個月,后面會是一個月、半個月、一周,編譯器越成熟迭代越快。按照我們以前學習的編譯理論,最優性能永遠可以逼近但不可達到,所以可以不斷優化。現在我們從模型更新到完成車端適配用不到一周了,最終我們希望達到一天之內完成適配。
晚點:不同車型搭載幾顆馬赫 M100 芯片的決策,你參與了嗎?
謝炎:各有各的分工,一般對于分工之外的工作我會了解,但盡量不影響他們決策,因為還有商業和其他考慮。
晚點:一顆芯片從設計到量產,最難的環節是什么?
謝炎:各種困難都有,但最難的是選擇做什么、不做什么。這些選擇來自清晰的產品定義,需要有好的應用場景才能明確目標。在理想,我們能比較清晰地看到需求,這最寶貴。一旦需求定義清晰,技術路線就會清晰,剩下就是匹配資源,看投入產出是否劃算。后面的工作也有難度,但并不是最難的。
技術上,前、后端設計的挑戰確實比較大,好在我們團隊的人都比較靠譜,經驗也比較豐富,像羅老師(理想算力單元部門負責人羅旻)都是干了很多年的人。而且后端團隊也很強,比如我們要把這顆芯片控制在一定面積以內,他們干了很多非常細致的活兒,以至于我們后端供應商的人都覺得太挑戰,他們同時給好幾家公司做芯片,說明我們的要求比美國那些公司高。
自研芯片是加入理想的前提,不做就無法實現產品差異化
晚點:關于自研芯片,你們最初是怎么考慮的?
謝炎:在我 2022 年加入公司前一年,理想就已經開始考慮做芯片,但沒確定要做多大算力、做到什么程度、什么時候交付。這些是我來理想后,經過討論才定下來。
來之前跟李想溝通,我提到一個重要觀點:未來競爭是產品軟硬件一體的競爭,就像手機一樣。手機產業早年有兩種公司,一種是蘋果、華為,有自己的操作系統和芯片,另一種沒有。兩者之間存在巨大差距。我當時和想哥達成一致:如果理想未來以產品為核心競爭力,一定得自研核心軟硬件。
晚點:面試時,你和李想就是這么溝通的?
謝炎:我第一句話就問想哥,理想汽車如果要做成頭部公司,是不是一定要做成蘋果那樣?第二句話問,我們會不會做芯片?所以來這里的前提是我已經有一個預設,因為做操作系統很多年,我覺得不結合芯片也做不出什么花來。
晚點:自研芯片投入很大,李想當時是什么態度?
謝炎:想哥從一開始就無條件支持,因為他也相信這是核心競爭力不可或缺的一部分。
晚點:聽說理想決定做芯片時,管理層為此批了 10 億美元預算,有這回事嗎?
謝炎:他沒有具體批預算,我們立項時有一個預算金額,當時我是按照下限去卡的。我認為做第一顆芯片不要花太多錢。
晚點:我們的意思是,理想芯片自研的整體預算是 10 億美元。
謝炎:芯片自研是逐步迭代的過程,很難用固定預算來衡量。比如蘋果從 A4 開始做,從 A 系列做到 M 系列,從手機、服務器到筆記本都用自研芯片,這些投入沒辦法用單一預算來衡量多還是少。
我們更多是按項目批預算,有了第一個項目就會滾動到第二代、第三代,后續會越來越強。因為背后的邏輯是 AI 算力永遠不夠。現在 AI 還沒真正進入大家的生活,只有 Chatbot、“小龍蝦” 等簡單應用,這只是產業早期的早期,非常像 1970 年代末的計算機。那時大家覺得 640K 內存就夠了,處理器 1M 赫茲都極其高端,一直到 1980 年代中期才出現。更早就是 8088、8086,就是幾百 K,還可能更低一些。
但隨著應用爆發,算力需求遠遠超出預期。不僅是算力大幅提升,而且數量肯定要更多。因為一開始只是極客用,就像喬布斯開始賣給硅谷那些人,后來變成每家每戶、各行各業都要用。我們認為這只是開始,AI 發展沒有回頭路,需求只會越來越強,用量只會越來越多。
晚點:那到底是多少?
謝炎:不能說。
晚點:這么重的投入,李想為什么會支持?
謝炎:他比較相信垂直整合實現差異化這個邏輯。
對于任何產品,真正的差異化就是掌握核心技術鏈條,比別人更快迭代創新。在這個邏輯下,該做什么、不該做什么就很清晰。能幫我們在性能和成本方面實現差異化的,就精準投入;不能的就不做大投入,即使它今天很重要。
每個時代都有核心產品,它不僅自身重要,還能孵化技術并溢出到其他領域。八九十年代是 PC,最近二十年是手機。智能手機技術成熟后,Pad、電視、車載觸摸屏都出來了。如果沒有安卓、高通、蘋果,汽車公司要花多少年才能低成本做出流暢的車內交互體驗?
智能電動車就是這樣的產品,可以圍繞它把端側人工智能做得非常成熟,因為它是當前個人能擁有的最大算力終端設備。一輛車有 7 到 11 顆高分辨率攝像頭,可以孵化機器人和三維世界行動智能體的基礎技術,讓這些技術變得高性能、低成本、小型化。當技術孵化充分時,其他應用就變得容易。如果今天直接做機器人,真的太累了,因為好多東西根本沒成熟,更別說再早幾年。
晚點:2022 年前后,市場上有兩種典型論調:一是英偉達做了 30 年芯片,其中自動駕駛芯片從 Parker 到 Orin 多次迭代,后來者怎么超越?二是余凱說,主機廠年銷量不到一百萬輛就會虧錢。基于這些觀點,大家覺得車企自研智駕芯片難度很大,或者第一代芯片就是交學費的。
謝炎:這個邏輯大體沒問題,但需要拆開分析問題細節才會看到真相。
比如說量不夠,如果是手機芯片的確要很大的量,因為手機芯片很小。但是不要靜態去看汽車的 AI,我們在 2022 年就看到汽車的 AI 計算量將來會變得很大。
不要低估計算量需求,技術還在發展,永遠需要更多計算量。汽車作為全自動化行動的機器人,需要的計算規模很大,對應的芯片面積也很大。以芯片面積算,汽車比手機高很多。現在一顆 Thor-U 要 800 到 1000 美金。當然,具體價格也與采購規模有關系。
此外,高端車可能需要搭載兩顆。所以哪怕不看軟硬件協同價值、產品競爭力價值,只看自研芯片節省的采購成本,我認為可以降一半甚至更多。而且這是持續動態發展的,像汽車這種高智能化產品,芯片的成本占比很高。今天高端車要搭載 1600 到 2000 美元的智駕芯片,未來可能到 2500 甚至 3000 美元,成本降一半的規模相當可觀,所以不需要搭載一百萬輛就足夠覆蓋芯片研發成本。只要能滿足一年銷量,就能覆蓋好幾年芯片研發團隊的費用。
另外自己研究、設計之后的效率比較高。如果今年賣的車都部署自研芯片,我們一年省下來的錢就超過三年研發費用,更別說這顆芯片可能要用兩年,甚至三年。
晚點:特斯拉 2019 年就量產了自研芯片 Hardware 3.0,后來國內廠商陸續跟進。你當時會覺得這是必然趨勢嗎?
謝炎:拿手機做類比挺好。頭部公司體量足夠大,比如手機和汽車,一定會掌握產品里面最核心的部件來保證競爭力。喬布斯說過,不可能我做一個產品,最核心的技術自己沒有控制力。這很危險,因為那意味著別人可以很容易地復制你的產品,而你也無法有效掌握產品技術迭代的節奏。如果最核心部分大家都一樣,都是高通或 Google,就很難做出真正的差異化。
反過來講,如果企業有志于成為最頭部公司,最核心的部件肯定要掌握。當然也不是什么都要做,比如做汽車沒必要做輪胎、鋼板,供應商提供就好。但車里的 AI 算力肯定是不斷發展的,所以我們要做馬赫 M100。
晚點:所以一輛智能電動車最核心的部件就是這顆 AI 芯片?
謝炎:是核心部件之一,因為車本身還有一些可以差異化的部件。決定一個部件是否自研,主要看兩個條件:一是它很重要,能決定用戶體驗差別;二是它能夠差異化,因為技術還在高速發展,沒有進入平臺期。
AI 恰好兩者都具備。當我們把汽車看成機器人,AI 一定是決定性因素,這輛車聰明不聰明肯定能看出來。第二,AI 還在高速發展,所以一定要投入,因為你可以靠自己的掌控力快速和別人拉開差距,而如果靠供應商就只能聽天由命。
我一位同事以前在蘋果。蘋果自研芯片起初用的是 Arm 的 IP 核,想改進某些部分提高效率,但 Arm 說不能改,因為它要滿足所有客戶的需求。Arm 已經是很強的 IP 供應商,但它要成為所有客戶的最大公約數,不會為最強的公司定制產品。即使它愿意定制,時間成本也會很高且效率低。所以蘋果后來只買 Arm 的指令集授權,IP 全是自己設計。現在蘋果核比世界上任何 Arm 核效率都高,因為可以完全適配自己的操作系統和應用需求,提供別人無法提供的性能。
晚點:有點像 Alan Kay(美國計算機科學家) 講到的,“你如果真正認真對待你的軟件,就要自己做硬件。”
謝炎:對,這句話很經典。我最早在英特爾做編譯器、操作系統等底層軟件,它們和處理器等硬件是直接配合的。如果你仔細看底層軟件和處理器架構的設計,它們是圍繞一套統一的架構思想聯合設計起來的。當然,經過幾十年發展,軟件和硬件之間的界限已并非與大多數人理解的那樣涇渭分明。
現在計算機系統的底層邏輯在 1950 年代出現,70 年之后,第一次遇到了真正意義上的巨變——從以符號邏輯為基礎,轉向以概率論和深度神經網絡為基礎。那么,整個計算機架構,包括硬件、軟件和操作系統,都有必要圍繞新的基礎進行大范圍重構,來有效支撐需求的爆發式增長。2022 年我來公司時就和技術團隊說,這是所有計算機系統從業者 70 年一遇的機會。
要掌握自研芯片核心的 For AI 部分,不做小芯片試水
晚點:你加入理想時,自研芯片團隊是什么狀況?
謝炎:當時芯片團隊只有兩個員工,不到一個月就走了一個。剩下那個員工問我 “公司已經決定做芯片,但要怎么做?” 當時蔚小理都在做,而且其他兩家比我們早,團隊的想法是先做顆小芯片試水。
我第一反應是沒必要,因為我們不是為了證明有能力做芯片而做芯片。我們應該直接從這個時代,汽車芯片上最重要的問題入手,那就是 AI 推理計算。不要畏懼沒人、沒經驗。這些都不關鍵,唯一關鍵的就是戰略目標的正確性。
我們最終確定:自研的目標是在量產時超越同期最強大的英偉達芯片。這個決定很重要。真正有意義的就是圍繞這個時代的主題,做一顆足夠強的 AI 芯片。
晚點:你們啟動自研時設定的性能目標是什么?現在達到了嗎?
謝炎:單純證明能做芯片不是我們的目標,畢竟很多公司都可以把英偉達架構或 Google 第一代 TPU 進行某種克隆,有脈動陣列,加處理器,再加 GPU 就能做出來。但這不是我們的選擇。我們不是因為要追求原創,而是要確保這顆芯片能幫助理想在 AI 時代技術領先。
我們當時定義的目標是:一半成本、兩倍性能,也就是四倍效能。實際算力會更高,因為 GPU 當時基本是 20%-30% 的執行效率,這由它的架構天生決定,可能最多優化到 40%,再往上就很難。我們目標是達到 50%-60% 的執行效率。今天看來基本做到了,馬赫 M100 的實際算力是英偉達的 3 倍,成本還比它低。
今天看馬赫 M100 芯片,我們很自豪,這是中國第一款完全原創設計的 AI 芯片,采用了非主流但更適合 AI 的數據流架構。
晚點:四倍效能對標英偉達,當時指的是 Thor 還是 Orin,包括中間還有過 Atlan?
謝炎:我們當時瞄準的目標是 Orin-X,但今天看來,馬赫 M100 的實際算力是 Thor-U 的 3 倍。
![]()
馬赫 M100 的架構示意圖。來源:理想汽車論文 “M100:An Orchestrated Dataflow Architecture Powering General AI Computing”。
晚點:馬赫 M100 芯片當中哪個地方不能被 Trade off(取舍),哪些地方可以?
謝炎:核心中的核心是 for AI 的那部分,要完全掌握在自己手上。有公司去買 NPU 核,那還不如不自研,直接買芯片就好——AI 部分都不掌握,等于做芯片不掌握任何東西。所以 AI 的 NPU 核一定要自己設計,而且得完全知道為什么這樣設計,上面的編譯器、軟件、模型都要能垂直整合。相對來說,CPU 核因為不在 AI 推理計算中占據主導,發展速度也比較平緩,可以不作為前期重點投入的方向。
晚點:這也是你們在 2022 年定下來的?
謝炎:對,非常清晰,從來沒有動搖過。很多人說,為什么理想自己不搞一個 CPU,因為沒必要。
晚點:當初定義芯片時哪些判斷今天看起來挺準的,哪些又導致你們得在軟件上做更好?
謝炎:軟件上肯定需要做一些工作,比如某塊本地內存到底需要多大容量才能發揮最大效能,這需要軟件和模型一起適配。我們大部分判斷是對的,如果說當年還可以做得更好,也許還可以更激進一點。2022 年時我們已經超出所有自動駕駛團隊的判斷,大家都說 Orin-X 已經比較充足了,而我們的設計目標是大家需求上限的 2 倍。即使這樣,今年來看還是偏保守。
晚點:“激進” 指哪些參數?
謝炎:就是我們需要更大效能、更大算力。我非常相信未來需要更大算力,只是以什么成本獲得。如果成本能基本保持不變,肯定是算力越多越好。
更別提我們除了智駕外,還要把 L9 Livis 打造成智能機器人。現在我們好多能力都要算力,而且要的還不少。一輛車有 11 顆 “眼睛”,除了自動駕駛,它還要能夠理解你,幫你干活,甚至未來我們可能會在車內裝個機械臂幫你拎東西。
類似的需求都需要足夠強大的本地算力,因為云端算力會受無線連接的影響。你并不希望你的物理智能體時靈時不靈,也不希望它工作時的響應速度時快時慢。
從這個角度講,算力將是一輛汽車的核心。汽車再往下發展,開得更快沒必要,除非它能飛起來。續航也差不多了,那就需要它更像一個機器人,既當司機又能幫你干活。像想哥說的,幫你接孩子、接朋友。你說幫我洗個車,它自己就去了,還能跟人交流。
晚點:定義芯片時,智駕團隊更了解當前算法和量產節奏,芯片和操作系統團隊則要提前看三四年后的需求。不同團隊對技術演進的判斷不完全一樣,你們怎么平衡這些意見?
謝炎:我們參考了智駕團隊的輸入,但底層技術研發周期長,所以我們還是要強迫自己看得再遠一點,不然三四年后出來的產品可能落伍或者匹配不上新的算法需求。這里是不同團隊看待問題的不同角度。
晚點:當時無論端到端還是 VLA,今天大家談論比較多的智駕術語還沒成為主流。
謝炎:不需要這些術語成為主流,要相信系統需要更多參數來學會人類駕駛習慣。這是肯定的。
晚點:如果能重新來一次,你們會在算力上做到什么水平?包括內存帶寬、PCIe(芯片互連)等。
謝炎:互聯的能力可以做得更高一點。當時覺得單芯片的設計算力已經很高,所以沒有設計 PCIe 支持。但今天看來還是不夠。不過我們也通過操作系統的互聯技術手段,達到了互聯帶寬需求。這也是一個掌握技術全棧后帶來的價值。
晚點:你們確定采用數據流架構時,芯片團隊有多大規模?
謝炎:不多,我們初期有很長時間是二三十人。
晚點:業界有種說法,“一個完整建制的芯片團隊應該在 600 人左右。” 你們現在大概多少人?后續還要增加嗎?
謝炎:我們目前大約 200 人。有時候我覺得人多不一定是好事,人少一點更團結、效率更高。這又不是打群架,人多就好。人數和單位效率在一定規模以上是成反比的。而且我們有模型團隊、操作系統團隊,大家協同起來效率非常高,不是所有東西都要芯片團隊自己干。
晚點:芯片團隊的成員主要來自哪些地方?
謝炎:各個公司都有,也有很多校招。我們沒有針對性地找哪個公司的人,只要能力夠強,我們就招過來。大家形成戰斗力就行,沒必要挖整建制的人,那對其他公司也不好。
晚點:要高薪挖他們嗎?
謝炎:理想的薪酬不低,但這值得,好的人還是值得好的薪酬。更重要的是,我們這里干的事情應該算業界很先進的。在中國很先進,可能在整個世界也不算差。
晚點:你們的薪酬高于行業平均水平?
謝炎:對。
晚點:定義這顆芯片時,各種參數優先級怎么確定?
謝炎:參數不是先定的。定義芯片最重要的是先理解要解決的問題,比如我們要在自動駕駛或 AI 任務上超越業界最領先的廠商。然后是量化的分析任務的計算特征,包括數據吞吐、計算密度等。因為芯片最終是為跑任務服務的,如果沒有深刻理解任務,芯片做出來再去適配會適得其反。
所以,我們一開始花了半年分析計算特征,第二步是理解如何設計數據流架構,最后才是定義所謂的參數,比如總線帶寬、多少個 Tile、多少 TOPS、計算單元互聯帶寬、I/O 接口帶寬、CPU 數量、CPU 和 NPU 之間的交換帶寬等。
我們不像大部分公司那樣,把已經做好的芯片參數拿過來,然后這兒加一點、那兒減一點。一是因為上面說的原因,二是我們用全新架構,不可能拿英偉達的參數來改。
晚點:分析計算特征用了半年,大家一起 Co-Design 也是發生在這半年嗎?
謝炎:時間會更長,Co-Design 分幾個階段。
首先,定義芯片時要大家一起定義,這非常重要。設計過程中可能有新認知,也需要大家一起討論。因為實現功能時你會發現,比如要達到某個帶寬,如果繞線密度太高就需要妥協,少繞一點;反過來講,算法團隊要看能否通過軟件方法彌補。這需要軟件、算法、編譯、硬件團隊大量協同設計。
其次,芯片回來后硬件已經無法修改,所以模型設計要對硬件特性揚長避短。軟件如模型形狀、參數形狀可以匹配硬件特性:硬件在哪些形狀上效率最高,我們就匹配哪些形狀。
所以前期是硬件瞄著模型做,芯片回來后是模型、編譯一起想辦法瞄著硬件做。芯片供應商很難這么緊密協作。如果拆成幾家公司去做,可以做到優秀,但做不到杰出和卓越。
晚點:哪些人會參與討論?
謝炎:很多人參與討論,這也是我們跟其他公司很不一樣的地方。在其他廠商,做芯片的做芯片,做模型的做模型,做軟件的做軟件、做編譯的做編譯,互相之間不通。我們在開始設計時就把這些團隊都拉到一起,因為最終是要為 Workload 服務,讓這顆芯片在跑 AI 計算任務時更快。
所以比較關鍵的有做模型的人、算法的人,有做編譯器、軟件的人,以及硬件架構師。甚至還有后端的人,他們要去看在某個工藝上能不能達到我們要求的計算吞吐、數據搬運延時、帶寬等指標。做產品定義時大家能坐到一起設計,這是我們當時作為一家規模不大公司的好處。
李安琪對本文亦有貢獻
題圖來源:理想汽車
注釋:
[1] 馮·諾依曼架構:由數學家馮·諾依曼在 1945 年提出的計算機架構,被現代絕大多數計算機采用。其核心特點是指令和數據存在同一存儲器中,CPU 按順序執行指令。
[2] 數據流架構:一種計算架構,1970 年代由 MIT 的 Jack B. Dennis、Arvind、高光榮等人提出。其特點是當操作所需的輸入數據準備就緒,操作會自動執行計算。
[3] 內存:計算機用于存儲數據和程序的硬件組件,也稱為主存儲器或隨機存取存儲器。處理器可以快速讀寫內存中的數據,是計算機運行程序和處理數據的重要部件。
[4] 緩存:位于處理器和主內存之間的高速存儲器,用于臨時存儲頻繁訪問的數據和指令,減少處理器等待數據的時間,提高整體性能。
[5] 內存帶寬:單位時間內,內存與處理器之間可以傳輸的數據量,通常以 GB/s 為單位。帶寬越高,數據傳輸速度越快。
[6] 低精度推理:使用較少位數(如 8 位、4 位)表示模型參數和計算,相比傳統 32 位浮點數可顯著降低計算量和內存占用,同時保持相對較好的模型性能。
[7]DDR:Double Data Rate 的縮寫,即雙倍數據速率,是一種內存技術標準。DDR 內存在時鐘信號的上升沿和下降沿都能傳輸數據,相比傳統內存速度更快。
[8]CNN:Convolutional Neural Network 的縮寫,即卷積神經網絡,一種深度學習模型,適合處理圖像數據,通過卷積層提取特征。
[9]Transformer:一種基于注意力機制的神經網絡架構,最初用于自然語言處理,現已廣泛應用于計算機視覺等領域,是 ChatGPT 等大模型的基礎架構。
[10]PCIe:Peripheral Component Interconnect Express 的縮寫,即高速串行計算機擴展總線標準,用于連接主板上的各種硬件組件,如顯卡、存儲設備等。
[11]NPU:Neural Processing Unit 的縮寫,即神經處理單元,專門為人工智能和機器學習計算設計的處理器,相比通用處理器在 AI 任務上更高效。
[12]GPGPU:General-Purpose computing on Graphics Processing Units 的縮寫,即通用圖形處理器計算,指將原本用于圖形渲染的 GPU 用于通用計算任務。
[13]SoC:System on Chip 的縮寫,即片上系統,將完整計算機系統的主要組件集成在單個芯片上,包括處理器、內存、輸入輸出接口等。
[14]ASIC:Application-Specific Integrated Circuit 的縮寫,即專用集成電路,為特定應用而設計的定制芯片,相比通用芯片在特定任務上性能更優、功耗更低。
[15]PU:Processing Unit 的縮寫,即處理單元的通用稱呼,可以指 CPU、GPU、NPU 等各種類型的處理器。
[16]Chiplet:芯粒技術,將原本集成在單個大芯片上的不同功能模塊分解為多個小芯片,再通過先進封裝技術連接,可以提高良率、降低成本。
[17]Hardware 3.0:特斯拉搭載的第三代自動駕駛硬件,包含兩顆自研的 FSD 芯片,專為自動駕駛計算優化設計。
[18]IP:Intellectual Property 的縮寫,在芯片設計中指可重用的設計模塊,如 CPU 核心、內存控制器等,廠商可以購買 IP 來加速芯片開發。
[19]Debug:調試,指在軟件或硬件開發過程中發現、定位和修復錯誤的過程,是確保系統正常運行的環節。
[20]CUDA:Compute Unified Device Architecture 的縮寫,英偉達開發的并行計算平臺和編程模型,允許開發者使用 GPU 做通用計算。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.