![]()
上行期理所當然的技術決策,到了用商業結果證明合理性的時候。
文丨趙宇
編輯丨龔方毅
“超越最好的智駕芯片,數據流架構是唯一的機會”
晚點:數據流架構很早就被提出,為什么到今天才適合用在車端 AI 芯片上?數據流不是全新概念,國內基本沒有其他廠商做,國外有廠商把它應用在數據中心。
謝炎:你說得很對,數據流架構是個非常古老的概念,最早在 1970 年代提出,MIT 的 Jack B. Dennis、Arvind、高光榮教授他們提的,到現在已經幾十年,但工業界落地非常少,最重要的原因是計算規模不夠大。在計算和數據規模較小時,數據流架構的效率優勢很難發揮和體現。
馮·諾依曼架構有個很大的優勢——方便人類編程。它把存儲和 IO 操作都抽象成指令,加上計算指令,以一種中心化的指令序列 step by step 推動計算任務,特別適合人腦在有限的上下文長度下做思考和編排。代價是損失了一定的計算并行度,降低了效率。但這在 AI 計算之前的時代還能忍受。而且過去也發明了亂序發射、超流水線、多級緩存、分支預測等復雜的 CPU 微架構技術來緩解。
數據流架構的優劣勢正好相反,它用數據依賴圖映射的硬件結構,天然高并行度,但提升了人類編程的復雜度,而且調試工作和編譯器的難度也大幅提升。
所以 AI 出現前,數據流架構不成立——雖然概念很好,但落地很難。但當計算規模擴大到一定程度后,馮·諾依曼架構的瓶頸已經越來越明顯。再往后走,數據流架構應該是一種更好的體系架構方式。
晚點:具體講講,數據流架構為什么更適合 AI?
謝炎:這得從 CPU 架構說起。CPU 就像廚房,有切菜、配菜、炒菜等工種,中間有個調度員負責發指令。這種集中式管理容易 Debug 和編程,但調度員負載很重,規模擴大后容易形成瓶頸:可能有人空閑但調度員沒看到,或者有人本可以更早切菜但因為指令沒到而等待。CPU 中有 30%-35% 的晶體管用于任務調度。
GPU 在此基礎上改進,不再設置超大調度員,而是把人員分組并為每組配簡單調度員,減少晶體管占用。但本質問題沒解決:指令沒到就得等待,造成浪費;各組資源不能互用;規模擴大還需要分層調度,有點像計劃經濟,效率很低。系統也不能直接掌握資源匹配情況,中間需要一層又一層規劃人員。
還有數據搬運的物流問題。調度和數據都是集中式的,會形成瓶頸。所以 GPU 里有大量內存(Memory)和緩存(Cache),都是為了支撐中心化調度。規模小時沒問題且容易 Debug,因為全是中心化的;規模變得超大時,瓶頸也會越來越明顯。所以 GPU 需要做多層 Cache 和高 HBM 帶寬來彌補效率不足。
晚點:數據流架構怎么解決這些問題?
謝炎:那些不直接產生價值的晶體管相當于額外開銷,但芯片本質是要完成計算任務,真正起作用的是那些切菜、配菜、炒菜的人。能不能不要中心化?答案是可以,正因中心化代價很高,所以要走向分布式。
不用指令驅動,可以去掉調度員,讓切菜、配菜、炒菜的人直接協作,這樣能提升效率,省掉很多晶體管。但難點是讓大家在沒有調度員的情況下高效工作,這對組織要求很高,所以編譯器很重要。在我們的處理器里,雖然還有程序,但不按原來方式執行,Debug 很難。
但好處是,這樣的架構天然適合 AI,反過來當 AI 能力很強時,AI 也比人更能管理這些超大資源匹配。冥冥之中自有天意。技術沒有好壞,只有匹配不匹配。
因為我們沒有中心化調度,所有執行不是調度員告訴你開始,而是每個人在自己工位上,數據到了就開始,執行完就繼續放到流水線上。
晚點:你當時怎么想到用數據流架構?
謝炎:數據流架構主要開創者之一高光榮教授是我在特拉華大學讀書時的導師。當年我們實驗室名稱是 “計算機體系結構和并行系統實驗室”(CAPSL),重點研究方向之一是使用數據流架構解決大規模并行計算問題。
在當年很多問題的解決過程中,我們看到了數據流架構的獨特優勢。我那時的感覺是:它比馮·諾依曼架構更接近計算本質。但受限于當時計算機應用的需求范圍,這套架構思想主要是在超級計算機和大規模科學計算場景下運用,而一般的 Windows 和 Mac 的通用桌面計算并不能有效發揮其優勢。
深度神經網絡出現并流行后,特別是當下大模型 Scaling Law 推動模型參數和計算規模快速增長,需要更高效地解決大規模并行計算和數據搬運的問題。這讓我們重新看到,圍繞 AI 計算的數據流架構的設計優勢。
晚點:但應該不是立項之初就確定用數據流架構的吧?
謝炎:團隊早期在架構路線上有過深入討論。當時有種思路是做定制化加速器——把特定算法固化在硬件里,效率很高但不可編程;需要靈活性的部分就額外加 GPU。這種方案的好處是起步快,業界不少公司這么做。
但我認為,這本質上是兩套東西的拼接,不是統一架構,而且上限不高——芯片里有一部分跑的時候另一部分就閑置,造成資源浪費。更關鍵的是,AI 算子在快速演進,如果核心計算單元不可編程,很難適應未來算法變化。所以,我們最終選擇可編程的數據流架構,雖然難度更大,但天花板更高,能跟隨 AI 發展持續演進。
晚點:之前大家用英偉達一方面是它的芯片好,另一方面是 CUDA 生態難以割舍。有些工程師說不用 CUDA,工作效率會降低很多,這個問題怎么解決?
謝炎:第一,用英偉達芯片成本很高。如果自研產品定義清晰,雖然工具鏈沒有 CUDA 好用,可能需要工程師多花一兩周做適配,但車能獲得 50% 的成本降低、好幾倍的性能優勢,哪個更重要?這背后更多是產品性價比和經營的考量。
第二,數據流架構本身是 for AI 的,AI 也是 for 數據流架構的。未來這些適配工作都會由 AI 來做。當 AI 足夠強時,CUDA 的生態優勢會降低,因為以前人是編程主力,需要 CUDA 等抽象層做更好的分層、抽象和簡化,其目的是降低人類程序員的編程難度。
而不久以后,或者當前已經開始,編程主體越來越多是 AI,編譯器也可以是 AI,那么 CUDA 這類更多為人類設計的輔助 “拐棍”,重要性會越來越低。AI 甚至可以拋開 “拐棍” 直接快速對硬件編程,獲取更高的性能和效率。
對以推理任務為主的產品公司來說,推理效率的重要性在快速上升,而人類編程通用性的重要性在降低。英偉達已經意識到這一點,所以花兩百億美金去買 Groq。這家公司是 Google 前員工做的,它的產品是非常靜態的數據流架構,完全不支持 CUDA,沒有大家認知的可編程性,但推理效率會遠高于英偉達的 GPGPU 架構。
晚點:數據流不是主流架構,要用這種架構時,芯片團隊和公司內部有沒有爭論?
謝炎:有挺多討論。芯片團隊內部一開始有人因為技術理念不同而離開,這沒有對錯,只是相信和看見的東西不同。當架構思路統一后,大家目標一致,配合很默契,執行起來反而比較順利。
公司內部前期肯定也有一些疑問,畢竟這是全新領域。大家會想:理想沒做過芯片,能做好嗎?我猜想,很多芯片之外的同事疑惑的不是架構的選擇,但更多是能超越市面上最好的芯片這個目標本身是否理性。
這點上,我們花了大量時間對 Workload 和架構設計做量化分析,增強了信心;同時我們也相信,如果和博爾特比短跑,你無法通過直線跑道 —— 也就是 GPGPU 架構 —— 進行超越。不同的路線或手段,比如數據流架構,是唯一的機會。
晚點:這相當于是走 “中國特色社會主義” 道路?
謝炎:對,我們必須選一條不同的道路。如果只是證明能夠替代,那么走前人走過的成熟路線就足夠了,風險更低。但這么做,前人很容易成為我們的天花板。另一方面,如果做不到 “明顯” 更好,做的價值也就大打折扣。
晚點:你當時是這么和李想介紹的嗎?
謝炎:對,一模一樣,我們 2022 年的立項文檔完全就是這個邏輯。
晚點:他聽完后什么反應?
謝炎:不記得了,但肯定沒有認為我們在胡說八道(哈哈)。實際上,他沒有做選擇,因為他知道這件事重要,并且支持我們做芯片。
晚點:李想是業界公認對細節要求很高的 CEO,但芯片應該有很多地方超出他的技術認知。比如技術路線對不對,李想怎么判斷?
謝炎:作為 CEO,他會把大的戰略和商業邏輯判斷好,比如我們每年銷售多少車,每輛車消耗多少芯片和成本,自研可以帶來多少成本和效率上的價值。同時技術路線的邏輯也可以用非常第一性的方法來判斷。
比如,我剛才說的廚房的類比,不需要知道具體技術怎么做。更本質的,這可以類比計劃經濟和市場經濟。計劃經濟在規模小時更容易構建,直接下指令方式也夠高效。當規模非常大時,市場經濟的優勢會越來越大。
晚點:你們前期討論他參與得多嗎?
謝炎:每個節點他都會看。
晚點:不需要每個節點他都點頭?
謝炎:對,因為測試、架構、后端這些都是技術節點。李想還是會抓大放小,關鍵節點看得很細,中間過程沒必要看那么細,否則 CEO 就太累了。
晚點:再比如你要多少人、多少錢、花多長時間。
謝炎:這個還好,他知道我比較克制,不會為了做一件事就先堆十倍人力。我有一個理念,最好的團隊規模是你想要規模的 80%,這樣效率最高。比如你想要 200 人,那 160 人可能更好,人多反而有害。
晚點:你 2022 年入職理想時,李想有一個評價:謝炎是全球操作系統前 10 號選手。
謝炎:沒有,我不敢這么說,我只是做的時間比較長。
晚點:總體上你有豐富的軟件研發經驗,加上是做編譯器出身。業內人士說你在理想做芯片,可以用軟件經驗去優化硬件?
謝炎:對,芯片能力發揮多少,最終軟件起很大作用。無論 2010 年前的英特爾,還是現在的英偉達,軟件工程師人數都比硬件工程師多不少。英偉達的組織架構里,軟件團隊人數是硬件團隊的 2 到 3 倍。這說明同樣的硬件,軟件優化好不好,最終發揮出的能力天差地別。
但更重要的是,計算機的軟件和硬件架構,其實是應該一起設計的。軟件作為一種構建在硬件之上的 “邏輯實體”,它的底層,也就是軟件和硬件的接口設計,會極大影響整個計算機系統的效率。一個優秀的芯片架構設計,同時需要硬件和軟件兩方面的視角。
過去幾十年,人們慢慢忘記了這點重要性,是因為傳統架構應付通用計算已經夠用,并沒有必要在這里做大的創新,也就沒有必要用軟硬件結合的手段來設計。但今天我們看到了 AI 計算的需求在快速爆發,而傳統架構已經接近極限。當我們需要為了更大規模、更高效率的計算重新設計整個計算機的時候,這樣的雙向視角和能力,是一個優秀團隊必須具備的。
芯片能力要轉化為智駕體驗優勢,理想還得趟過很多坑
晚點:芯片上車涉及芯片、基座模型和智駕算法團隊三方協作,會不會有需求沖突的時候?
謝炎:需求倒不太會沖突,因為大家的最終目的是希望在智駕上實現領先。最重要的不是芯片做得好,而是智駕能力強。接下來,我也會花較長時間和智駕團隊一起看,怎么在模型上真正領先。這是非常重要的一場仗,如果智駕都不能領先,怎么能說明芯片領先?
晚點:你之前跟智駕團隊的交流頻率如何?
謝炎:主要會議我都參加,技術討論有些我也參加。
晚點:現在呢?
謝炎:現在因為我有這個職責,所以會更多參與討論,技術路線上也會分享一些具體想法。各家目前的智駕水平在伯仲之間,沒有人太領先,差距非常小。但往后發展有兩個關鍵點:
第一,要大膽投資未來技術。特斯拉的技術路線就迭代過好幾次,最怕覺得 “這一代就夠了”。技術永遠是用新路線解決更難問題,所以要挑戰自己,打破原有認知。所以我們會大量投入研發,不僅是量產技術,還會研究其他可能的技術路線。
第二,更高效的算力非常重要。我們會加強模型和芯片的協作。有更強算力后,能做事的空間就大很多,不會像在小規模的蹺蹺板上,這個高了、那個就低了。當算力大時,可以用通用方法解決很多問題。今天的大語言模型不為任何一個特定行業設計,但由于參數足夠大、數據足夠多,自然就通用起來。
智駕現在還處于專用期,越往后越需要通用能力解決長尾問題。這些問題不可能靠專用小模型解決,肯定需要大模型,而且需要系統具備人類認知,所以需要很大算力。自動駕駛從今天的 70-80 分提升到 100 分,每提升 10 分需要的算力不是簡單乘以 2,可能是乘以 5 或 10。
晚點:所以特斯拉 AI5 芯片大概 2000TOPS 的稀疏算力遠遠沒到盡頭?
謝炎:離真正的 L4 也還不太夠,當然這只是我個人的判斷。
晚點:你們已經在車端用馬赫 M100 替代英偉達,但云端還在用英偉達。云端算力不夠用而且很貴,這個問題怎么解決?
謝炎:英偉達不會因為我們沒用它的車端芯片就不供應云端產品,老黃不是這樣的人。馬斯克也買英偉達的云端產品,車端同樣沒在用,所以該合作還是合作。我們可以用所有云廠商和芯片廠商的產品。國產的都在用,只要好用就行,我們不挑。
晚點:車端模型往后肯定會變得更大,理想會通過更低精度推理的方式提升效率嗎?
謝炎:當然。
晚點:能做到什么水平?
謝炎:Google 首席科學家 Jeff Dean 的觀點我特別認可。他最近兩年一直在講稀疏和低精度,降低精度也是一種廣義的稀疏。這跟硬件設計強相關,如何設計更低精度的推理,不能僅是硬件設計,而是從算法、模型設計上保證,即使精度降下來,算法都能保持足夠性能。這些技術是我們的重點研究方向。
晚點:有可能做到 FP4 嗎?
謝炎:對,4 甚至 2。
晚點:這么低的精度?自動駕駛畢竟要講究安全。
謝炎:這個東西必須跟軟件結合,所以并不是所有地方都用低精度。就像你開車時,視覺焦點之外看個大概就行,其余部分根本不需要高精度。所以在訓練和架構的聯合設計上有很多講究:如何用好低精度,如何用好結構化稀疏和其他稀疏方法,比如 KV 緩存的稀疏化,這里面有很多可供軟硬件聯合設計的地方,不是簡單部署一下硬件就好了。水還挺深,也挺有意思。
晚點:預計馬赫 M100 從什么時候開始支持機器人?
謝炎:這得看我們機器人業務的節奏,不著急。芯片就在那,業務準備好隨時可以用,更重要的是機器人的技術方向。理想做機器人,肯定不會簡單復制別人的方法,那樣沒意義,更重要的是走出一條自己的路,那會決定怎么用我們的芯片。如果機器人業務需要高性能的量產芯片,馬赫 M100 比市面其他芯片都好,又有內部支持,效率會很高。
晚點:機器人團隊還缺少像自動駕駛跑在車上這樣的具體場景,可能機器人團隊還得探索一些場景,才能走到量產。
謝炎:對,產品要定義好。我們機器人團隊也用基座模型。現在想哥定義的分層是:芯片、模型、機器人和自動駕駛,包括其他業務用的大模型都基于基模團隊提供的模型,所以模型訓練都在一起。也就是說,機器人用的基座模型本身就適配我們的自研芯片。
晚點:你在四季度業績會上提到,因為有星環 OS 和馬赫 M100 芯片,理想取消了上一代平臺的 XCU,并因此節省 1000 元單車成本,具體是怎么回事?
謝炎:很簡單,馬赫 M100 有比較強的處理器,里面有 24 個 A78,我們用虛擬化和操作系統技術隔離出一部分給 XCU 用,整個 XCU 控制器就節省掉了。
晚點:除了自動駕駛,馬赫 M100 還有其他應用場景嗎?
謝炎:大家一定要理解,這顆芯片不叫自動駕駛芯片,而是 AI 推理芯片。座艙肯定需要,最終車內需要一個 AI 的計算中心,所有 AI 集中到這里最高效,而且我們也是自研的,有最大的掌控力,這樣效能最高、單位算力成本最低。無論自動駕駛還是座艙里需要的 AI,都放到一起效率才最高。如果這邊擺一個 AI 小計算,那邊擺一個 AI 小計算,而且兩邊架構還不一樣,適配起來都麻煩。
在底盤和以后要推出的機器人上,我們也都會用馬赫 M100。你看特斯拉 FSD 芯片在機器人上也用。媒體經常把 ASIC(Application-Specific Integrated Circuit,專用集成電路)和 PU(Processing Unit,處理單元)搞混,ASIC 是完全固化的芯片,為自動駕駛設計的就只能跑自動駕駛算法,其他算法跑不了,而我們做的是 PU。
晚點:從 2021 年特斯拉開始大規模推送 FSD Beta 版起,智駕行業經歷過多次算法變動,這對理想設計芯片的思路有沖擊嗎?你們做了哪些調整?
謝炎:這就是做 ASIC 和 PU 的差別。做 ASIC 如果應用一變,硬件固化了就是災難。但我們做的是 PU,可編程、有靈活度,只要應用計算大的特征不變,算子的變化都能適配,而且效率都保持得很高。就像 CPU,英特爾和 AMD 的處理器沒有為哪個具體應用做固化,但什么應用都能跑,且效果還不錯。
不過,如果計算特征發生巨大變化,的確有影響。大語言模型興起后,計算特征確實和之前的深度神經網絡有區別,跑大語言模型特別是 Decode 階段計算密度很低,對帶寬要求極高,所以我們做了相應優化,稍微加了一些東西。
晚點:現在大家評價自動駕駛芯片性能時,一看算力、二看帶寬。馬赫 M100 的內存帶寬是 273GB/s,為什么不做得更高一些?
謝炎:只看參數沒意義,最終要看有效算力。例如評價一部手機好不好,內存很重要,但蘋果內存最低,體驗卻最好。所以不能簡單拿參數衡量芯片能力。就像拳擊比賽,獲勝選手是綜合實力強,不是比泰森重、比泰森高就能打贏泰森。
晚點:怎樣才算綜合評價?你之前演講時更多強調跑 CNN 模型或 Transformer 模型的速度。
謝炎:對,盡量用關鍵模型評價,甚至最好直接拿自動駕駛說話。用一個大的自動駕駛端到端或 VLA 模型評價,這最客觀,而不是看參數。
晚點:Orin-X 推出時 Transformer 還不火,所以有人認為,英偉達設計這款芯片時對 Transformer 考慮較少。理想遇到的情況是怎樣的?
謝炎:我們跑 Transformer 模型的效率比英偉達高很多,原因有三點。
第一,Transformer 最重要的注意力計算需要把矩陣轉置后再相乘,英偉達 GPU 架構的二級緩存承載不了,就要放到全局內存,然后反復訪問高帶寬內存做遠距離讀取,所以直接碰到 “內存墻”。我們的數據流架構是數據驅動而非指令驅動,計算單元間傳輸不需要經過全局內存,可以直接傳輸并在過程中轉置,效率最多比他們高 10 倍。
第二,我們做注意力計算很高效,因為數據流架構可以把計算過程流水線化,不只依賴全局內存,不容易遇到 “內存墻”。然后是矩陣乘,就是最后大的計算結束再去跟大的矩陣相乘時,需要給每個計算單元都復制一份矩陣,而我們有全局廣播總線,可以一次把矩陣同時送給所有計算單元。英偉達 GPU 是指令驅動,每個計算單元都要到全局倉庫去找,效率更低。
第三,我們的計算單元里有一些算子可以直接形成數據流。不是每次算完再通知其他模塊來算,而是把多個計算步驟串聯起來連續處理,效率高很多。
這些效率提升來自體系架構設計,不是固化的。如果把所有高效的東西都固化,那參數也會固化,就失去了架構的靈活性優勢。
AI 時代,人的一個重要能力是能夠跳出分布概率思考
晚點:你評價自己是工程師,但加入理想后很快成為 CTO。你怎么看車企 CTO 這個職位?理想 CTO 需要做哪些核心工作?
謝炎:在任何公司的高管里,CTO 定義最模糊。理想 CTO 有對外技術對接的職責,對內主要是在 AI 計算這條線上——從模型、操作系統到芯片,再到封裝等相關技術——保證公司未來有競爭力,在中國一定領先。
這是我投入精力的重點,因為這是理想成為具身智能公司的核心之一,雖然不是唯一,因為車是復雜產品。這條線又分為交付和保證領先兩部分。交付要足夠好,會花一點精力,但更重要的是往前看,因為技術永遠不進則退,所以一定要花時間關注還在地平線上的新技術。
晚點:你現在關注哪些新技術?
謝炎:第一是模型未來的發展,這個我會花精力看,特別是自動駕駛和具身智能模型。第二是芯片架構,我們正在做的是第一代,之后還會繼續迭代。
第三,芯片設計本身挺有意思,像蓋房子一樣,材料和構建方法有無窮想象空間。摩爾定律讓半導體接近極限,要進一步提高性能,業界有很多新方向,包括用光、先進封裝,從二維轉向三維構建等。如何在三維層面構建,以及如何用這些底層材料和搭建方式更好地設計架構,我也會花精力關注。
還有用 AI 賦能芯片設計和編譯器,這也很重要,未來我們必須走在前面,效率一定要足夠高。所以我在推動核心計算團隊用 AI 提升效率,突破原來想象不到的事情,比如直接用 Claude、Codex 等 AI 工具寫算子、用 AI 編譯優化整個鏈條。
晚點:你的工作風格是什么?
謝炎:抓重點。從工程師成長到要構建更大事情時,最重要的是學會分配精力。不能像自己做工程師時每個點都親自處理,要分清哪些點看淺一點,哪些點看深一點。
晚點:在不同節點,你的工作重心分布在什么事上?
謝炎:架構設計我看得比較多,軟件和編譯,軟硬協同也會看,RTL 設計(Register Transfer Level,用硬件描述語言闡釋芯片的邏輯功能)、前端設計、后端設計相對看得較少。關鍵結果可能會看得多一些。我對自己要求是,保證在人工智能技術路線上,不錯過大機會,少踩坑,達到領先并能持續領先。
晚點:在 AI 時代少踩坑,可能嗎?
謝炎:所以要加強研究,很多東西得先知道發展方向。所謂 “踩坑”,核心是沒有一手信息、人云亦云,只看特斯拉、英偉達今天怎么改,但不知道為什么,說它這么改所以我也這么改,這最危險。
不是他怎么改我們就怎么改,而是即使跟他方法一樣,也要搞清楚背后的深層原因,第一性原理是什么,進而倒推有沒有其他更好方法。干一模一樣的事沒什么意義。我們現在做的很多事都和業界不一樣,但這不是投機行為,而是真的從底層分析清楚后的決策,不是押寶。
晚點:你說保證理想在 AI 時代持續領先,范圍指車企還是全行業?
謝炎:首先是車企,這是基本目標。我們不會跟 OpenAI、Claude 去比 Coding,這沒有意義。每家公司有它的使命和領域,我們的使命和優勢更多是在三維世界構建具身智能的全棧能力。
晚點:十年后,你預計具身智能會達到多大規模?
謝炎:汽車現在是中國第一大行業,超過房地產,具身最終肯定比這個市場大。人類需求是無限的,不會嫌生產力少,而是需要更多機器人干各種活。
晚點:理想在往具身和 AI 方向轉型,汽車業務還有多重要?
謝炎:汽車業務對我們挺重要,相當于練兵場,可以提供大量資金、人才、場景,很多技術從里面孵化成熟、成本降低。汽車業務對理想來說肯定是今天最重要的業務,外面說想哥不想做汽車了,不是的。雖然有遠大目標,我們還是立足汽車,今天所有東西還是服務于汽車。
晚點:你加入時理想正處于上升期,到今天遇到挑戰,你的角色也愈發重要。怎么看待理想這幾年的變化?在不同階段,你怎么判斷各類事情的重要性?
謝炎:我基本上沒什么變化,公司在業務上肯定是有上有下,但更重要的是看到一些不變的東西。我來之前就相信汽車是重要的人工智能產品,一定要通過軟硬件結合打穿到芯片、操作系統,才能形成長期競爭力。至于中間的起伏,只要我們還沒困難到一點兒錢都沒有,那就保持這個研發強度,把內功練好,讓大家有這個耐心。
我剛才說芯片團隊 200 人,這跟公司一萬人的研發團隊相比是非常小的比例,他們安安靜靜在一個角落把核心的東西打磨好就行,不要被所謂的銷量高低影響。重要的是,堅定相信正在做的始終是這個時代很重要的事,這一點我們一直沒變過。
而且我相信 AI 時代會有一套新的計算架構,我一直想在汽車上把它試出來。這件事不管怎樣都非常有意義,而且一旦做成,一定能幫助理想建立非常強的壁壘。
晚點:今天團隊可能沒法再安安靜靜,像你就要被推到臺前了。
謝炎:你做出來就好,拿東西說話,而不是靠對外說。
芯片能上車只是起點,我們還有很多想法,芯片還有性能空間可挖,因此有很多事可干。也很幸運處在這個時代,這個時代最重要的是具身智能產品,而汽車是很好的載體。其他東西都不太重要。
當然作為公司高管,銷量我也關心,我們必須讓公司不出岔子。除此之外,不需要關心更多噪音。
晚點:一家自動駕駛創業公司挖人的方式是看比賽成績,誰的分數高就把他挖過來,你呢?
謝炎:我不贊同他的方法。這只能說明某些人打比賽特別熟練,但是更重要的,AI 特別擅長大量數據的平均分布,如果這個人是技能熟練型的,所有認知都在平均分布里,也很容易被 AI 替代。而人最重要的是跳出概率分布的那部分,也就是 AI 從沒見過或者 AI 不會去想的一些事情。
馬斯克當年做火箭,成本要降到以前的 1%。如果 AI 來解這個問題,它一定不會想到回收火箭,甚至包括用 “筷子” 夾的方法。今天的 AI 做不到,因為它從沒見過,很難完全跳出分布概率去想還有別的可能。它更多是在看到的東西里,通過 CoT(Chain of Thought, 思維鏈)一步步找到相對較優的方法。
晚點:你說智能電動車要通過軟硬一體把 AI 能力和智駕做好,才能成為頭部公司,但市場上很多人都已經認識到這一點。會不會產業決勝點其實不是這個?
謝炎:你說智能電動車的決勝點不是智能?
晚點:因為剛才在說分布概率。
謝炎:這是兩件事。一件是你跳出分布概率,讓原來不能做的事變得可做,但有些需求就在那,只是你做不做得到。人類需求沒有分布概率的問題,比如你需要一個機器人幫你干活,這是毫無疑問的,可能每個人都這么希望,而且是非常便宜的價格。
晚點:你剛才說到,現在國內廠商在智駕這塊的能力都在第一梯隊,上下之間區分沒那么大。
謝炎:頭部幾家是這樣。
晚點:有沒有可能一直保持這樣的情況,最后光靠智駕區分不出來哪個車能力強?
謝炎:智駕還是能區分出來的。一個是今天離閉上眼睛、完全放心開還有比較長的距離,但大家已經慢慢相信這件事會發生。還有綜合成本問題,也就是用多大的成本達到這個程度,這會有差異。
另外當自動駕駛實現后,你會希望汽車幫你干更多事。沒有智駕,我們開啟不了這個可能性。
晚點:數據流架構也是跳出分布概率的一種?
謝炎:對。你如果讓 AI 設計,它大概率不會選擇數據流架構。
晚點:也打不過英偉達?
謝炎:對。
晚點:AI 用多以后,會不會影響我們跳出分布概率?
謝炎:會。
晚點:那怎么辦?
謝炎:所以有經驗的人現在還是重要的,不能都交給 AI。現在硅谷為什么裁掉一線工程師?因為他沒有足夠的經驗,跳不出分布概率,只能瞎想。瞎想當然也有價值,經驗有時候也會限制你跳出分布概率。但在有些領域,沒有足夠經驗,你跳出分布概率的想法可能 90% 是錯的,還會耗費大量時間。
晚點:經驗是通過親身實踐得來的,如果 AI 工具很早介入,沒有探索的過程,不夠資深的員工如何變成更好的自己?
謝炎:這的確是一個問題。
晚點:你們現在怎么做?
謝炎:我沒有特別好的方法,還是要容忍一些,不要全是 AI。底層工作 AI 能做時,就給新人機會。不過新人不是重復全部底層工作,而是在上層構建認知,在新環境下學習技能。如果回到六七十年代,很多人能寫匯編語言,但現在能寫 C 語言的都不多,但這并不妨礙大家的生產力更強。
晚點:哪些事情你不允許用 AI 做?
謝炎:沒有不允許,大家放開做。今天不用 AI 比用的風險更高,所以大家盡量用,控制風險就好。
晚點:有經驗的人會看出來質量好壞。
謝炎:對,有經驗的人會提高非常快,沒經驗的人也有機會快速切入一些領域,所以不限制大家。我的想法是推動大家去試,因為不試就不知道 AI 發展到什么程度,試了之后才會有越來越深的體會,而且可以想象它未來能干更多事。
晚點:喬布斯在世時,蘋果搞過封閉戰略會百人會(Top 100),目的是確保公司最高層能清楚地知道最厲害的人在想什么,保密程度非常高。理想有什么管理機制,能夠讓好想法自下而上涌現?
謝炎:這很重要,不要太科層化,比如我會直接跟校招生、一線員工不定期聊,就是聊你今天在想什么。我也會跟大家分享我看到什么、我在想什么。
在資源分配上,我們今年在思考一件事:不要把資源束縛在一個個垂直的井里。如果組織結構一旦形成,人力、計算資源都在一個井里,基層即使有好想法,也不一定能獲取相應資源。
第二,好想法落地往往需要不同的能力,而即使是領導可能也只擁有一部分能力,因此要跨團隊協同。所以,重要的是打破部門墻。
我們正在嘗試另一種方法:有人有好想法之后能直接提出來,然后跳出他的組織架構上會評審,通過后大家就匹配資源,甚至跨部門調集一個虛擬團隊來干,快速組成一個 “篝火” 模式。我們最近也在思考,如何形成制度化的 “篝火”,讓大家可以快速形成一些 idea,快速試錯和響應。
晚點:之前有理想產品高管說,前兩年當一部分高管被調去做流程后,年輕員工很難直接跟 CEO 產生有效交流,最終李想成了產品天花板。怎么避免這種情況?
謝炎:這種情況肯定有,因為一線聽到炮火的人更了解實際情況。他的想法被否掉后,后來發現是對的,這很難避免。但反過來講,有可能他只看到問題的一方面,提的不是正確建議。
所以,既要保證他的創新能跑出來,也要保證真正落地的是高質量建議。很多人都會提建議,但 1000 個建議中真正靠譜的可能只有 20 個。如果只要有 idea 就能獲得資源,公司也會亂套。
晚點:所以你們還在摸索?
謝炎:這應該沒有一個絕對的方法,只有一種情況:你的團隊規模足夠小,足夠緊密,這種方式才會非常奏效。這也是為什么我不希望團隊太大,人少溝通反而更容易,人多了之后你要花費大量精力辨別哪些是噪音,哪些真正有價值。不過團隊小,人員素質要足夠高,大家都得靠譜才行。
晚點:今天你是更集權還是更分權?
謝炎:我比較分權,因為我的工作模式是這樣:很多事我如果發現有問題,就直接跳進去跟工程師一起看。我的時間并不完全固定,而是看哪個時間段的哪件事更重要。如果是大家已經定義好的事,最好有一個直接負責人。假設全由我負責,有可能我自己成為瓶頸。
晚點:直接向你匯報的有多少人?
謝炎:比較多,我現在兼任兩個一級部門負責人,因為一直沒有合適人選。但好處是我們的架構以事為驅動,雖然我兼了兩個一級部門負責人,其他都是一級部門負責人向我匯報,只有那兩個部門是二級部門負責人向我匯報。
那些人圍繞一件事工作,并不需要我每天告訴他們做什么,他們更多是自驅在一件核心事情上,知道自己精力應該往哪放。所以我們的架構更像數據流,不是中心式。
晚點:傳聞你推動了理想的 AI 戰略?
謝炎:不是。戰略肯定是 CEO 想哥推動,我就是實施,包括讓技術方向落地。
晚點:這和你加入理想之后的建議、判斷有關嗎?因為你認為汽車是人工智能、具身智能端側實現的路徑之一。
謝炎:大面上他沒受我影響,或者說我們倆判斷一致。不是我說他就覺得 AI 重要,只要 CEO 看到大趨勢,就都知道 AI 肯定重要。
我無非是推動了跳出分布概率的技術路線選擇,更多是為了領先,領先也是為業務服務。所以不存在我說服他,當然如果我們做得好,他會信心更足。
晚點:從阿里離開時,你有一個可以做新公司 CEO 的機會但拒絕了,因為你認為頭銜沒那么重要,做的事很重要。
謝炎:對。
晚點:基于你今天做的事情和想達到的目標,如果 CTO 這個 Title 不重要,當下對你來說什么最重要?
謝炎:像我剛才說的,主要是在整條 AI 鏈路上,通過垂直整合,從模型、軟件、芯片甚至更底層,為公司構建起堅實競爭力基礎。這個基礎一旦構建起來,就會產生類似 “飛輪效應” 的效果,模型,軟件,操作系統,芯片同時加速進步,這種優勢可能會是結構性的。
晚點:確保你能實施這條路線是最重要的?
謝炎:對我來說,重要的不是在什么位置,而是能參與重要的變革和歷史進程。在能夠成功的基礎上,是不是我在主駕位又有什么關系。
李安琪對本文亦有貢獻
題圖來源:理想汽車
注釋(上下滑動查看):
[1] 馮·諾依曼架構:由數學家馮·諾依曼在 1945 年提出的計算機架構,被現代絕大多數計算機采用。其核心特點是指令和數據存在同一存儲器中,CPU 按順序執行指令。
[2] 數據流架構:一種計算架構,1970 年代由 MIT 的 Jack B. Dennis、Arvind、高光榮等人提出。其特點是當操作所需的輸入數據準備就緒,操作會自動執行計算。
[3] 內存:計算機用于存儲數據和程序的硬件組件,也稱為主存儲器或隨機存取存儲器。處理器可以快速讀寫內存中的數據,是計算機運行程序和處理數據的重要部件。
[4] 緩存:位于處理器和主內存之間的高速存儲器,用于臨時存儲頻繁訪問的數據和指令,減少處理器等待數據的時間,提高整體性能。
[5] 內存帶寬:單位時間內,內存與處理器之間可以傳輸的數據量,通常以 GB/s 為單位。帶寬越高,數據傳輸速度越快。
[6] 低精度推理:使用較少位數(如 8 位、4 位)表示模型參數和計算,相比傳統 32 位浮點數可顯著降低計算量和內存占用,同時保持相對較好的模型性能。
[7]DDR:Double Data Rate 的縮寫,即雙倍數據速率,是一種內存技術標準。DDR 內存在時鐘信號的上升沿和下降沿都能傳輸數據,相比傳統內存速度更快。
[8]CNN:Convolutional Neural Network 的縮寫,即卷積神經網絡,一種深度學習模型,適合處理圖像數據,通過卷積層提取特征。
[9]Transformer:一種基于注意力機制的神經網絡架構,最初用于自然語言處理,現已廣泛應用于計算機視覺等領域,是 ChatGPT 等大模型的基礎架構。
[10]PCIe:Peripheral Component Interconnect Express 的縮寫,即高速串行計算機擴展總線標準,用于連接主板上的各種硬件組件,如顯卡、存儲設備等。
[11]NPU:Neural Processing Unit 的縮寫,即神經處理單元,專門為人工智能和機器學習計算設計的處理器,相比通用處理器在 AI 任務上更高效。
[12]GPGPU:General-Purpose computing on Graphics Processing Units 的縮寫,即通用圖形處理器計算,指將原本用于圖形渲染的 GPU 用于通用計算任務。
[13]SoC:System on Chip 的縮寫,即片上系統,將完整計算機系統的主要組件集成在單個芯片上,包括處理器、內存、輸入輸出接口等。
[14]ASIC:Application-Specific Integrated Circuit 的縮寫,即專用集成電路,為特定應用而設計的定制芯片,相比通用芯片在特定任務上性能更優、功耗更低。
[15]PU:Processing Unit 的縮寫,即處理單元的通用稱呼,可以指 CPU、GPU、NPU 等各種類型的處理器。
[16]Chiplet:芯粒技術,將原本集成在單個大芯片上的不同功能模塊分解為多個小芯片,再通過先進封裝技術連接,可以提高良率、降低成本。
[17]Hardware 3.0:特斯拉搭載的第三代自動駕駛硬件,包含兩顆自研的 FSD 芯片,專為自動駕駛計算優化設計。
[18]IP:Intellectual Property 的縮寫,在芯片設計中指可重用的設計模塊,如 CPU 核心、內存控制器等,廠商可以購買 IP 來加速芯片開發。
[19]Debug:調試,指在軟件或硬件開發過程中發現、定位和修復錯誤的過程,是確保系統正常運行的環節。
[20]CUDA:Compute Unified Device Architecture 的縮寫,英偉達開發的并行計算平臺和編程模型,允許開發者使用 GPU 做通用計算。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.