![]()
作者 | 唐小引
出品 | CSDN(ID:CSDNnews)
想象一下:什么是“老司機(jī)”的直覺(jué)?
你正在開(kāi)車(chē)經(jīng)過(guò)一個(gè)繁忙的路口。右側(cè)停著一輛公交車(chē),擋住了你的視線(xiàn)。突然,你的腳不自覺(jué)地放在了剎車(chē)上。為什么?你的眼睛并沒(méi)有看到行人,也沒(méi)有看到紅燈。
幾秒鐘后,一個(gè)騎著電動(dòng)車(chē)的人從公交車(chē)頭“鬼探頭”沖了出來(lái)。你從容踩下剎車(chē),避免了一場(chǎng)事故。
這就是我們常說(shuō)的“車(chē)感”或者“駕駛直覺(jué)”。它不是教科書(shū)上死記硬背的規(guī)則,而是一種基于經(jīng)驗(yàn)的、潛意識(shí)的風(fēng)險(xiǎn)預(yù)判。這種能力,是人類(lèi)大腦在處理了無(wú)數(shù)次復(fù)雜路況后進(jìn)化出的“超級(jí)算法”。
現(xiàn)在的自動(dòng)駕駛系統(tǒng)雖然已經(jīng)很厲害了,能識(shí)別車(chē)道線(xiàn)、紅綠燈,甚至能識(shí)別幾十種不同的車(chē)型,但它們往往缺乏這種“直覺(jué)”。它們像是一個(gè)剛拿駕照、只會(huì)死守交規(guī)的新手,遇到?jīng)]見(jiàn)過(guò)的復(fù)雜情況(比如那個(gè)被擋住的盲區(qū))時(shí),往往會(huì)不知所措。
那么問(wèn)題來(lái)了:我們能不能把老司機(jī)的這種“直覺(jué)”,直接“拷貝”給人工智能呢?
最近,來(lái)自清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)的團(tuán)隊(duì),就做了一件科幻電影里才有的事:他們用人類(lèi)駕駛員的腦電波(EEG),教會(huì)了自動(dòng)駕駛模型如何像人一樣“思考”!
這項(xiàng)發(fā)表在人工智能頂會(huì) NeurIPS 2025 上的成果,名叫 E3AD。其背后的發(fā)起人——龔江濤博士生于 1990 年,成長(zhǎng)于陜西漢中。清華十年,她始于計(jì)算機(jī)科學(xué),深入神經(jīng)科學(xué),走上了具身認(rèn)知增強(qiáng)之路。本期《萬(wàn)有引力》,一起來(lái)走進(jìn)她的故事以及對(duì)于類(lèi)腦認(rèn)知的研究及思考。
![]()
左:龔江濤,右:唐小引,歡迎收聽(tīng)音頻~
AI 交叉人生的十字路口:從計(jì)算機(jī)到人機(jī)交互
唐小引:大家好,歡迎收聽(tīng)《萬(wàn)有引力》。今天的嘉賓是清華大學(xué)助理教授龔江濤老師,龔老師的主要研究方向是學(xué)習(xí)、駕駛、工作等強(qiáng)認(rèn)知活動(dòng)場(chǎng)景中的智能系統(tǒng)設(shè)計(jì)及具身認(rèn)知增強(qiáng)的類(lèi)人智能體。歡迎龔老師,請(qǐng)和大家打個(gè)招呼,做一下自我介紹,可以簡(jiǎn)要分享一下自己個(gè)人產(chǎn)學(xué)研經(jīng)歷的故事。
龔江濤:大家好,我是龔江濤。目前在清華大學(xué)智能產(chǎn)業(yè)研究院工作,擔(dān)任助理教授、助理研究員。今天很高興受邀來(lái)這里,跟大家分享一下我在科研生涯的一些經(jīng)歷和思考。
我本科在清華大學(xué)軟件學(xué)院學(xué)習(xí),拿到計(jì)算機(jī)的第一學(xué)位。因?yàn)閭€(gè)人興趣,本科期間我又在美術(shù)學(xué)院修讀了第二學(xué)位,方向是數(shù)字娛樂(lè)設(shè)計(jì)。這段雙學(xué)位的學(xué)習(xí)經(jīng)歷,也讓我較早地建立起了交叉學(xué)科的視角和基礎(chǔ)。
到了研究生階段,我進(jìn)入清華的信息藝術(shù)交叉學(xué)科項(xiàng)目——這是由計(jì)算機(jī)、美術(shù)學(xué)院和新聞傳播相關(guān)院系共同建設(shè)的一個(gè)交叉培養(yǎng)項(xiàng)目。學(xué)習(xí)一段時(shí)間后,我跟隨導(dǎo)師徐迎慶教授(清華大學(xué)教授、未來(lái)實(shí)驗(yàn)室主任)來(lái)到未來(lái)實(shí)驗(yàn)室,繼續(xù)完成博士階段的研究。
博士畢業(yè)時(shí),我越來(lái)越明確地感受到:不管是做交叉研究,還是推動(dòng)技術(shù)真正落地,都離不開(kāi)對(duì)產(chǎn)業(yè)的深入理解。所以我選擇加入聯(lián)想研究院,在業(yè)界的科研機(jī)構(gòu)里更貼近產(chǎn)業(yè)一線(xiàn),去探索和實(shí)踐——怎樣把科研成果轉(zhuǎn)化為企業(yè)能落地的產(chǎn)品。
有了這段經(jīng)歷之后,到了 2022 年,人工智能浪潮涌動(dòng)。剛好張亞勤院士(中國(guó)工程院外籍院士、清華大學(xué)智能產(chǎn)業(yè)研究院院長(zhǎng))回歸清華并成立了清華大學(xué)智能產(chǎn)業(yè)研究院(AIR),我覺(jué)得這個(gè)平臺(tái)和我的方向非常契合,于是申請(qǐng)加入,在這里繼續(xù)做學(xué)術(shù)與產(chǎn)業(yè)結(jié)合的研究與探索。
唐小引:你從進(jìn)入清華到博士畢業(yè),花了 10 年的時(shí)間。很多人可能是由別的學(xué)科進(jìn)入 AI 交叉科學(xué),但你不一樣——計(jì)算機(jī)出身,后來(lái)轉(zhuǎn)到人機(jī)交互,并且一路走到了更交叉的研究路徑。我想聽(tīng)聽(tīng):第一,當(dāng)初為什么選計(jì)算機(jī)?第二,很多計(jì)算機(jī)專(zhuān)業(yè)的人會(huì)一直在原方向深耕,你為什么會(huì)轉(zhuǎn)向人機(jī)交互?背后的動(dòng)因是什么?
龔江濤:這個(gè)問(wèn)題確實(shí)挺關(guān)鍵的。現(xiàn)在大家覺(jué)得人工智能、計(jì)算機(jī)是熱門(mén),但十年前并非如此,那會(huì)兒更熱的反而是房地產(chǎn)相關(guān)。再加上我家人做城市規(guī)劃設(shè)計(jì),所以我當(dāng)時(shí)的第一志愿其實(shí)更偏建筑、土木這些方向。
后來(lái)因?yàn)橐恍C(jī)緣巧合,沒(méi)有走成那條路,我把軟件學(xué)院作為第二選擇。但這個(gè)“第二選擇”也不是完全偶然——我在中學(xué)階段接觸過(guò)數(shù)學(xué)和信息學(xué)競(jìng)賽,第一次真正寫(xiě)代碼的時(shí)候就很震撼:你可以把自己的想法“教給”機(jī)器,讓它替你去執(zhí)行;就像把思維復(fù)制了一份,而且還能不斷復(fù)用、擴(kuò)展。我當(dāng)時(shí)就覺(jué)得這件事特別有潛力,所以把軟件相關(guān)的方向放進(jìn)了自己的選擇里。現(xiàn)在回頭看,雖然當(dāng)時(shí)有點(diǎn)陰差陽(yáng)錯(cuò),但確實(shí)也挺幸運(yùn)。
進(jìn)了軟件學(xué)院后,我有很長(zhǎng)一段時(shí)間非常沉浸在計(jì)算機(jī)體系里:從硬件體系結(jié)構(gòu)、操作系統(tǒng)到編譯原理,再到各種算法和軟件系統(tǒng)。我越學(xué)越覺(jué)得這些底層原理特別迷人。但當(dāng)我把這一套“原理鏈條”打通以后,也出現(xiàn)了一個(gè)更強(qiáng)烈的疑問(wèn):很多軟件只是在一個(gè)固定設(shè)備里運(yùn)行,它和真實(shí)的人類(lèi)生活之間,好像隔著一道墻——除了輸入輸出的那一層接口,剩下的東西離普通人的感知有點(diǎn)遠(yuǎn)。我總覺(jué)得未來(lái)不應(yīng)該只是這樣。
也是在這個(gè)階段,我接觸到了人機(jī)交互相關(guān)的研究,視野一下就打開(kāi)了。人機(jī)交互特別“交叉”:它不只是一個(gè)計(jì)算設(shè)備,而是會(huì)引入各種傳感器去感知人的行為、意圖和場(chǎng)景,讓機(jī)器不必只靠鍵盤(pán)鼠標(biāo)、或者那些“機(jī)器能懂但人得去適應(yīng)”的指令,而是能更自然地理解人的語(yǔ)言、動(dòng)作和習(xí)慣。換句話(huà)說(shuō),只有把“接口”這件事做好,再?gòu)?qiáng)的算法、再酷的技術(shù),才真的有機(jī)會(huì)落到人類(lèi)社會(huì)里去。這件事對(duì)我來(lái)說(shuō)非常有吸引力。
所以后來(lái)有機(jī)會(huì)申請(qǐng)第二學(xué)位時(shí),我了解到美院有一個(gè)和計(jì)算機(jī)結(jié)合的項(xiàng)目,我就特別想加入。也正是在那段學(xué)習(xí)里,我糾正了自己以前對(duì)設(shè)計(jì)的一些偏見(jiàn)——我曾經(jīng)以為設(shè)計(jì)只是把東西做得好看,后來(lái)才意識(shí)到這想法太淺了。真正好的設(shè)計(jì),既要邏輯上好用、體驗(yàn)上順暢,又要能把新的能力做出來(lái),甚至實(shí)現(xiàn)過(guò)去做不到的交互形態(tài);而要做到這些,就必須把技術(shù)、認(rèn)知、表達(dá)、場(chǎng)景等很多因素綜合起來(lái),串成一個(gè)完整的“故事”。那段經(jīng)歷基本讓我很清晰地找到方向:從讀博到現(xiàn)在工作,我就一直沿著這條路走下來(lái)了。
![]()
唐小引:聽(tīng)下來(lái)確實(shí)是興趣驅(qū)動(dòng),而且你剛才提到一個(gè)很強(qiáng)的對(duì)比:于你而言,計(jì)算機(jī)本身的局限,以及人機(jī)交互帶來(lái)的更大空間。你能不能再具體一點(diǎn),說(shuō)說(shuō)這個(gè)對(duì)比最“標(biāo)志性”的點(diǎn)是什么?
龔江濤:對(duì),我的體感是這樣——算法和系統(tǒng)越往上走,確實(shí)會(huì)越來(lái)越抽象,也就更容易和真實(shí)世界的感受拉開(kāi)距離。基礎(chǔ)設(shè)施當(dāng)然非常關(guān)鍵,但對(duì)普通用戶(hù)來(lái)說(shuō),能真正“摸到”的往往就是接口那一層:怎么接觸、理解、用起來(lái)。
技術(shù)進(jìn)步的目的,最終還是要改善日常生活。如果接口沒(méi)有大的突破,人和機(jī)器的關(guān)系就很難更緊密——人很難在日常的每一個(gè)動(dòng)作、決策里,都自然地和機(jī)器協(xié)同。那結(jié)果就可能變成:技術(shù)在技術(shù)圈里越玩越嗨,但普通人真正能享受到的,還是局限在“坐到電腦前、打開(kāi)軟件”的那一刻。它更像是少數(shù)人的玩具,而不是大眾生活的一部分。
唐小引:我大概明白了。你希望技術(shù)能更多走進(jìn)千家萬(wàn)戶(hù),不只是停留在技術(shù)人群內(nèi)部,而是從消費(fèi)側(cè)、用戶(hù)側(cè)真正用起來(lái)——不管是個(gè)人還是行業(yè)。
龔江濤:是的,我特別在意“用戶(hù)能接觸到技術(shù)的機(jī)會(huì)點(diǎn)”。觸點(diǎn)越多,技術(shù)才越有可能真正幫到人。而人機(jī)交互做的事情,本質(zhì)上就是創(chuàng)造新的交互途徑和體驗(yàn):一方面探索新的交互形態(tài),另一方面不斷優(yōu)化已有體驗(yàn),讓機(jī)器越來(lái)越適應(yīng)人,讓技術(shù)能更自然、更無(wú)縫地融入人的日常生活。
唐小引:你博士期間師從徐迎慶教授,博士后階段在聯(lián)想跟隨芮勇院士(聯(lián)想集團(tuán) CTO、歐洲科學(xué)院外籍院士)和王茜鶯博士(聯(lián)想集團(tuán)全球副總裁、斯坦福大學(xué)人機(jī)交互博士),現(xiàn)在又在張亞勤院士創(chuàng)立的 AIR 任教。這三段經(jīng)歷分別給你的研究風(fēng)格留下了什么烙印?對(duì)你有哪些影響和啟發(fā)?
![]()
龔江濤:確實(shí),這一路走來(lái)我特別幸運(yùn),遇到了很多良師益友,對(duì)我的幫助非常大。
先說(shuō)博士階段的徐迎慶老師。我最早接觸徐老師時(shí),他還在微軟亞洲研究院,后來(lái)他加入清華,我也能明顯感受到清華在引進(jìn)和支持人才方面是非常開(kāi)放的。
從個(gè)人層面來(lái)說(shuō),徐老師是那種特別“立得住”的導(dǎo)師:人很正直,做事有原則,沒(méi)有私心。對(duì)我而言,這種人格和學(xué)術(shù)氣質(zhì)本身就是一種很強(qiáng)的示范。更重要的是,他對(duì)交叉學(xué)科的理解和教學(xué)理念,長(zhǎng)期在影響我——他的經(jīng)歷本身就是交叉的:本科是數(shù)學(xué)背景,后來(lái)轉(zhuǎn)到計(jì)算機(jī),同時(shí)又在藝術(shù)和創(chuàng)意表達(dá)上做過(guò)很有代表性的工作,比如參與過(guò)《新聞聯(lián)播》片頭彩帶動(dòng)畫(huà)的創(chuàng)作,也在動(dòng)畫(huà)領(lǐng)域拿過(guò)不少獎(jiǎng)項(xiàng)。在他身上,我看到的交叉不是“這邊借一點(diǎn)、那邊拼一點(diǎn)”的淺層組合,而是每到一個(gè)新領(lǐng)域,都能從底層邏輯去把它吃透,然后帶著一種更顛覆、更原始的創(chuàng)新視角去做事情。這套方法論,對(duì)我博士階段的研究根基影響特別深。
舉個(gè)例子,我博士期間雖然在“人機(jī)交互”這個(gè)大方向里,但我真正最主要的研究工作,其實(shí)是在清華大學(xué)醫(yī)學(xué)院展開(kāi)的,做的是腦科學(xué)相關(guān)研究。這個(gè)起點(diǎn)也挺有意思:我剛加入徐老師團(tuán)隊(duì)時(shí),做的是面向盲人的大幅面觸覺(jué)顯示器——用密集觸點(diǎn)把圖案“顯示”出來(lái),讓盲人可以通過(guò)觸摸去感知圖形。
當(dāng)時(shí)我接到任務(wù)后,一開(kāi)始想的是:怎么生成更適合盲人理解的觸覺(jué)圖像?我查了大量資料后發(fā)現(xiàn),很多工作只是把簡(jiǎn)單的視覺(jué)圖像“轉(zhuǎn)換”成觸覺(jué)圖像,本質(zhì)上還是站在視覺(jué)的視角做映射,并沒(méi)有真正從觸覺(jué)的角度去理解“觸覺(jué)信息應(yīng)該怎么被表達(dá)”。我把這個(gè)想法跟徐老師說(shuō)了,徐老師的反饋很直接:你說(shuō)得對(duì),那就先把“觸覺(jué)到底是怎么回事”研究清楚。
于是我們就和醫(yī)學(xué)院洪波老師(清華大學(xué)醫(yī)學(xué)院教授)那邊合作,開(kāi)展了基于 fMRI(功能性磁共振成像)的研究,從大腦層面去看觸覺(jué)相關(guān)的認(rèn)知活動(dòng):從手上的感受器如何接收信息,到大腦怎么加工、怎么整合,甚至在不同條件下怎么產(chǎn)生代償機(jī)制。那段經(jīng)歷完全超出了我原本的預(yù)期,但也正是它讓我從另一個(gè)角度去理解“智能”:一個(gè)生物體是怎么感知環(huán)境、理解環(huán)境、處理信息并適應(yīng)環(huán)境的。
當(dāng)我把這種“生物智能”的機(jī)制和“計(jì)算機(jī)如何處理信息”的方式放在一起對(duì)照時(shí),對(duì)算法設(shè)計(jì)的啟發(fā)非常強(qiáng)。很多靈感不是那種絞盡腦汁才擠出來(lái)的,而是你真的看懂了“它原來(lái)是這么工作的”,idea 就會(huì)如泉涌般而來(lái)。
唐小引:思想的漣漪。
龔江濤:對(duì),就是這種感覺(jué)。所以我一直覺(jué)得,博士階段徐老師給我最大的影響,就是把我?guī)У揭粋€(gè)更“底層、更原始”的創(chuàng)新路徑上:先把問(wèn)題的“根”弄清楚,再往上長(zhǎng)出方法和系統(tǒng)。這也幾乎塑造了我后面一直延續(xù)至今的研究風(fēng)格。
唐小引:而且感覺(jué)這段經(jīng)歷也確實(shí)影響了今天的你——你的方向、你的方法,很多都從那時(shí)候延續(xù)下來(lái)了。
龔江濤:是的。這段博士經(jīng)歷對(duì)我來(lái)說(shuō)特別關(guān)鍵。
后來(lái)博士畢業(yè)時(shí),我也有一個(gè)挺意外的經(jīng)歷:我當(dāng)時(shí)作為系里第一個(gè)在院級(jí)畢業(yè)典禮上發(fā)言的學(xué)生代表上臺(tái)演講。當(dāng)時(shí)我沒(méi)有想到,可能一方面是我們的盲人觸覺(jué)顯示器項(xiàng)目本身影響力比較大,另一方面也是因?yàn)檠芯看_實(shí)做得比較深入,所以才有這個(gè)機(jī)會(huì)。
也正是在畢業(yè)那個(gè)節(jié)點(diǎn),我有一種很強(qiáng)烈的感覺(jué):在學(xué)校里該系統(tǒng)學(xué)的東西,我差不多都學(xué)到了;但與此同時(shí),我也有很多新的困惑——我做出來(lái)的東西,到底怎么在真實(shí)社會(huì)里產(chǎn)生價(jià)值?如果這件事我想不清楚,那我作為一個(gè)未來(lái)要獨(dú)立開(kāi)展研究的人,就很難判斷什么方向是“對(duì)社會(huì)真的有用”的。
更現(xiàn)實(shí)一點(diǎn)說(shuō),我未來(lái)還要帶學(xué)生、指導(dǎo)學(xué)生。我得告訴他們?cè)趺醋鲅芯俊⒃趺闯砷L(zhǎng)、怎么在社會(huì)上站穩(wěn)。但如果我自己都不清楚科研成果如何走向應(yīng)用、如何在產(chǎn)業(yè)里形成價(jià)值,那我其實(shí)也很難把這些問(wèn)題講透給學(xué)生。
所以在那個(gè)時(shí)候,我就走到了第二段經(jīng)歷:去聯(lián)想研究院。在這段經(jīng)歷里,對(duì)我影響最大的就是芮勇院士和王茜鶯博士。芮勇老師和我導(dǎo)師是很好的朋友,我們?cè)谝淮位顒?dòng)上碰到后,交流下來(lái)發(fā)現(xiàn)有很強(qiáng)的合作契機(jī)。芮老師也覺(jué)得,我如果想把后續(xù)研究做得更貼近產(chǎn)業(yè)、真正走向落地,那么加入聯(lián)想這樣的團(tuán)隊(duì)會(huì)是一個(gè)很好的平臺(tái),于是我就進(jìn)入了聯(lián)想研究院,開(kāi)始了下一階段的探索。
在這個(gè)過(guò)程中,王茜鶯博士對(duì)我的影響也非常大。她本身就是人機(jī)交互領(lǐng)域的專(zhuān)家,研究方向跟我高度一致。她在斯坦福完成人機(jī)交互學(xué)習(xí)后回到業(yè)界,牽頭搭建了一個(gè)很有創(chuàng)新性的機(jī)制——TSIP(技術(shù)戰(zhàn)略與創(chuàng)新平臺(tái)),也就是把“技術(shù)戰(zhàn)略”和“創(chuàng)新孵化”打通的一套平臺(tái)化體系,她是這個(gè)平臺(tái)的負(fù)責(zé)人。
這段經(jīng)歷給我兩個(gè)特別重要的啟發(fā)。
第一是“國(guó)際化的學(xué)術(shù)視野”。人機(jī)交互這個(gè)領(lǐng)域,國(guó)內(nèi)外的發(fā)展節(jié)奏過(guò)去差異挺大的(現(xiàn)在在逐漸縮小)。在國(guó)外,HCI 在計(jì)算機(jī)社區(qū)里是非常大的一個(gè)研究共同體,因?yàn)樗茏龅氖虑樘嗔耍欢趪?guó)內(nèi),當(dāng)時(shí)更多還是集中在解決已有交互觸點(diǎn)的技術(shù)瓶頸,大家很少去主動(dòng)創(chuàng)造新的觸點(diǎn)、新的交互形態(tài)。茜鶯老師把很多前沿的理念和方法帶回來(lái),也給了我更多參與國(guó)際交流的機(jī)會(huì):比如投稿頂會(huì)期刊、參加國(guó)際學(xué)術(shù)會(huì)議。在這個(gè)過(guò)程中,我也在不斷完成“學(xué)術(shù)表達(dá)的國(guó)際化轉(zhuǎn)換”。再加上聯(lián)想本身就是一家高度國(guó)際化、非常開(kāi)放的企業(yè),這種環(huán)境對(duì)我的成長(zhǎng)幫助很大。
第二個(gè)啟發(fā)更“落地”——也就是:HCI 研究在業(yè)界到底怎么生存、能為公司和產(chǎn)品真正做什么。茜鶯老師當(dāng)時(shí)把團(tuán)隊(duì)能力拆得非常清晰,基本上形成了一套可運(yùn)轉(zhuǎn)的閉環(huán)。
一塊是技術(shù)戰(zhàn)略與基礎(chǔ)管理:做前瞻布局、資源與預(yù)算的統(tǒng)籌,也相當(dāng)于研究組織的“中樞系統(tǒng)”。
一塊是用戶(hù)研究:由心理學(xué)、人因工效等背景的同學(xué)為主,負(fù)責(zé)洞察用戶(hù)、理解真實(shí)需求。
一塊是設(shè)計(jì):從概念設(shè)計(jì)到精細(xì)化設(shè)計(jì),往往以“搭檔”的形式進(jìn)入具體項(xiàng)目,把洞察轉(zhuǎn)化成方案。
還有一塊是技術(shù)與工程:好的體驗(yàn)和想法必須快速做原型、做驗(yàn)證,才能知道能不能達(dá)到預(yù)期,這里面需要很強(qiáng)的工程支撐。
這套框架讓我第一次非常直觀地意識(shí)到:HCI 不是單點(diǎn)能力,而是一整套可以在產(chǎn)業(yè)里“交付價(jià)值”的綜合體系。
另外還有一個(gè)很有意思、也很有代表性的案例:那段時(shí)間茜鶯老師也在做內(nèi)部孵化,相當(dāng)于內(nèi)部創(chuàng)業(yè),重新孵化了一個(gè)教育品牌。這個(gè)過(guò)程給了我非常鮮活的樣本——如果我們真的要把一個(gè)新想法變成新產(chǎn)品,要怎么組團(tuán)隊(duì)、怎么定方向、怎么一步步研發(fā)迭代;怎么和領(lǐng)域?qū)<夜矂?chuàng);以及最后怎么推動(dòng)它走向商業(yè)化落地。這些都是我在聯(lián)想四年里學(xué)到的、特別實(shí)用的東西。
唐小引:聽(tīng)起來(lái)你在聯(lián)想實(shí)現(xiàn)了“仰望星空”和“腳踏實(shí)地”的結(jié)合,把這套能力真正修煉出來(lái)了。
龔江濤:是的。但我也想說(shuō),這個(gè)過(guò)程其實(shí)挺不容易的。很多時(shí)候,一個(gè)人決定改變,背后往往是先感受到某種“痛苦”,才會(huì)真的下決心去調(diào)整。
比如我從清華去聯(lián)想,最開(kāi)始就很痛苦:當(dāng)你說(shuō)不清自己的研究到底“價(jià)值在哪里”、怎么向外界解釋它、怎么讓它真正產(chǎn)生價(jià)值時(shí),會(huì)非常焦慮。后來(lái)我在很多師弟師妹、以及更年輕的學(xué)生身上,也經(jīng)常看到類(lèi)似的狀態(tài)——很多人一路讀到博士最后,反而更迷茫,因?yàn)楹蜕鐣?huì)多少有點(diǎn)脫節(jié)。博士本身又是一個(gè)很難、很痛苦的爬坡過(guò)程,爬完以后如果發(fā)現(xiàn)并沒(méi)有“前途一片光明”,落差感會(huì)更明顯。隨著博士培養(yǎng)規(guī)模越來(lái)越大,這種困惑其實(shí)會(huì)更普遍。所以我一直覺(jué)得,研究工作如果能和產(chǎn)業(yè)形成更好的連接,你會(huì)更容易找準(zhǔn)自己在社會(huì)中的位置,也更不容易陷入長(zhǎng)期的迷茫。
到了聯(lián)想以后,研究的產(chǎn)業(yè)化又是另一種“痛苦”。
研究早期本質(zhì)上是投入,是成本,短期很難直接看到收益。那你怎么立項(xiàng)?怎么說(shuō)服業(yè)務(wù)方、贊助方愿意支持你做這件事?這里面有大量溝通、論證、準(zhǔn)備工作,本身就是很大的挑戰(zhàn)。
等項(xiàng)目做出來(lái)之后,真正落地又會(huì)遇到新問(wèn)題:你立項(xiàng)時(shí)的假設(shè)、條件、預(yù)測(cè),到了落地那一刻往往會(huì)變;外部環(huán)境也會(huì)變;合作方的需求也可能變。于是你就得重新校準(zhǔn)——這件事還能不能按原計(jì)劃推進(jìn)?要不要改路線(xiàn)?這些都是新的難題。
尤其當(dāng)你做的是新產(chǎn)品、新模式,失敗率往往遠(yuǎn)高于成功率。好在做研究的人“抗打擊能力”一般還可以——每篇論文投稿,你都會(huì)面對(duì)來(lái)自全球同行的審稿意見(jiàn)和質(zhì)疑,這種訓(xùn)練反過(guò)來(lái)讓你更習(xí)慣在批評(píng)中迭代自己。所以經(jīng)歷過(guò)這一套之后,我對(duì)“如何把一個(gè)研究想法在產(chǎn)業(yè)里孵化出來(lái)”這條鏈路,以及中間可能踩的坑,就有了更系統(tǒng)、更真實(shí)的認(rèn)識(shí):既包括我自己踩過(guò)的坑,也包括我觀察同事、前輩們?nèi)绾谓鉀Q問(wèn)題的經(jīng)驗(yàn)。
也正因?yàn)檫@樣,心態(tài)會(huì)更穩(wěn)定。聯(lián)想幾年之后,我不太會(huì)再陷入那種“我不知道該做什么、也不知道未來(lái)價(jià)值在哪里、也不知道怎么去說(shuō)服別人”的狀態(tài)了——這些關(guān)鍵障礙基本都被掃清了。
然后時(shí)間來(lái)到更大的背景:人工智能浪潮一波一波地往上卷。其實(shí)我 2018 年去聯(lián)想時(shí),就已經(jīng)開(kāi)始跟 AI 做結(jié)合,但當(dāng)時(shí)我仍然覺(jué)得那只是冰山一角,后面一定會(huì)有更大的浪潮。
正好那時(shí)候亞勤老師從業(yè)界回到清華,再次創(chuàng)業(yè),創(chuàng)建了智能產(chǎn)業(yè)研究院(AIR)。我一下就意識(shí)到:這是一個(gè)很重要的機(jī)會(huì)點(diǎn)——如果能在一個(gè)專(zhuān)注做 AI 的機(jī)構(gòu)里工作,我就能更近距離地參與這波浪潮,也能把自己的興趣和能力投入到更關(guān)鍵的問(wèn)題上。
來(lái)到 AIR 的這幾年,我也確實(shí)有很強(qiáng)的體感:我做的很多事情,基本都是社會(huì)最關(guān)注的方向——比如自動(dòng)駕駛、機(jī)器學(xué)習(xí)、大模型、智能體等等。機(jī)會(huì)特別多,也讓我獲得了更前沿的 AI 訓(xùn)練,對(duì)產(chǎn)業(yè)發(fā)展方式的理解也更深入,同時(shí)也能從自己的視角做出一些實(shí)際貢獻(xiàn)。
坦白說(shuō),在來(lái) AIR 之前,我整體還是偏人機(jī)交互,對(duì)算法本身關(guān)注沒(méi)有那么重。但在 AIR 這個(gè)環(huán)境里,你會(huì)看到同事們每天都在討論新算法、討論問(wèn)題和改進(jìn)方案。耳濡目染之下,我也開(kāi)始重新思考:原來(lái)從我的視角出發(fā),我也可以用 HCI 的方法論和流程,去推動(dòng)一些更底層、更源頭的 AI 創(chuàng)新——這是我在 AIR 這段經(jīng)歷里非常大的收獲。
具身認(rèn)知增強(qiáng)與駕駛:用人類(lèi)腦電波教 AI 開(kāi)車(chē)
唐小引:我看到你現(xiàn)在的研究方向重點(diǎn)放在“具身認(rèn)知增強(qiáng)”上。我其實(shí)是第一次聽(tīng)到這個(gè)說(shuō)法,有點(diǎn)困惑。因?yàn)檫^(guò)去大家聊 AI 的“認(rèn)知”,更多還是偏語(yǔ)言、思維、符號(hào)系統(tǒng)這一套——比如維特根斯坦那句“語(yǔ)言的邊界就是世界的邊界”,講的是認(rèn)知世界,而不是物理世界。但“具身”又強(qiáng)烈指向跟真實(shí)物理世界的互動(dòng)。就像大模型正從數(shù)字世界走向物理世界一樣。能不能先請(qǐng)你給大家梳理一下:具身認(rèn)知增強(qiáng)這個(gè)方向在國(guó)內(nèi)外大概發(fā)展到什么階段?然后再講講你自己主要在攻哪一塊。
龔江濤:這個(gè)問(wèn)題問(wèn)得很到位。其實(shí)過(guò)去很長(zhǎng)一段時(shí)間,相關(guān)研究基本是兩條平行線(xiàn):一條是做語(yǔ)言模型、NLP、大模型的,更多在軟件和互聯(lián)網(wǎng)的“數(shù)字世界”里;另一條是做硬件、機(jī)械、自動(dòng)化、機(jī)器人這套工程體系的,更多在“物理世界”里。兩撥人各自很強(qiáng),但確實(shí)涇渭分明,很多時(shí)候甚至彼此不太關(guān)注對(duì)方在推進(jìn)什么。
這幾年隨著 AI 能力快速外溢,兩邊開(kāi)始明顯“匯流”。做大模型的人會(huì)想:既然在語(yǔ)言層面已經(jīng)證明了通用能力,那能不能把這種能力遷移到物理世界,讓模型不只會(huì)說(shuō)、會(huì)寫(xiě),還能“會(huì)做”;而機(jī)器人這邊也會(huì)想:過(guò)去機(jī)器人更多是在解決相對(duì)固定、規(guī)則明確的任務(wù),很多時(shí)候更像高級(jí)自動(dòng)化。那現(xiàn)在 AI 這么強(qiáng),是不是有機(jī)會(huì)讓機(jī)器人真的更像人一樣,能理解、能適應(yīng)、能學(xué)習(xí)?
但實(shí)話(huà)說(shuō),這個(gè)融合目前還在起步階段,挑戰(zhàn)非常硬。最核心的兩點(diǎn):
第一,物理世界比語(yǔ)言世界復(fù)雜得多。語(yǔ)言本身就是對(duì)現(xiàn)實(shí)的高度抽象和壓縮,我們討論的很多東西已經(jīng)被“提煉”過(guò)了;可一旦回到真實(shí)環(huán)境,信息是多模態(tài)、冗余、連續(xù)變化的,還牽涉動(dòng)力學(xué)、能量、關(guān)節(jié)控制等一整套約束,變量更多、耦合更強(qiáng)。
第二,物理世界“真的會(huì)出事”。在數(shù)字世界里,最極端也許就是誤刪文件、甚至“刪庫(kù)跑路”;但在物理世界里,機(jī)器人是鋼鐵軀體,動(dòng)作一旦不當(dāng)就可能傷到人。所以你會(huì)發(fā)現(xiàn),機(jī)器人一啟動(dòng),旁邊的人會(huì)下意識(shí)往后退——因?yàn)樗娘L(fēng)險(xiǎn)是真實(shí)存在的。這也是具身智能繞不開(kāi)的門(mén)檻:安全、可靠、可控。
那我自己的切入點(diǎn),其實(shí)是反過(guò)來(lái)問(wèn)一句:人到底是怎么把這件事做好的?你越做具身相關(guān)研究,越會(huì)感嘆人這個(gè)系統(tǒng)有多精妙——能耗低、學(xué)習(xí)快、恢復(fù)能力也強(qiáng);但你真要把這些能力搬到機(jī)器人身上,會(huì)發(fā)現(xiàn)每一步都很難。
我們?cè)趯?shí)踐里經(jīng)常遇到一個(gè)“看似矛盾”的問(wèn)題:很多機(jī)器學(xué)習(xí)方法只能學(xué)習(xí)“已經(jīng)發(fā)生、看得見(jiàn)”的東西——也就是事情出了問(wèn)題,你才有數(shù)據(jù)去教它怎么改。但現(xiàn)實(shí)里真正決定系統(tǒng)安全性和魯棒性的,往往是那些發(fā)生概率很低、但代價(jià)很高的關(guān)鍵場(chǎng)景。比如駕駛這種任務(wù),大多數(shù)時(shí)候路況是正常的,數(shù)據(jù)里也就幾乎都是“正常駕駛”。模型當(dāng)然很快能學(xué)會(huì)正常部分,可一到少量的臨界情況,就容易掉鏈子——而偏偏這些情況最要命。
我自己的理解是:人之所以總體事故率低,很重要的一點(diǎn)不是“事后補(bǔ)救”,而是“提前預(yù)判”。我們一直在做風(fēng)險(xiǎn)預(yù)測(cè)和規(guī)避——很多危險(xiǎn)其實(shí)在發(fā)生之前,就被我們繞開(kāi)了。所以我做“具身認(rèn)知增強(qiáng)”,很大一塊就是想把這種能力交給機(jī)器:讓它不只是會(huì)執(zhí)行動(dòng)作、會(huì)完成任務(wù),還能識(shí)別風(fēng)險(xiǎn)的苗頭、提前調(diào)整策略,把問(wèn)題消解在真正發(fā)生之前。
如果機(jī)器人能學(xué)會(huì)這種“預(yù)測(cè)—規(guī)避”的能力,那么哪怕訓(xùn)練數(shù)據(jù)里極端事件很少,它也能從大量的日常數(shù)據(jù)中學(xué)到更可靠的安全行為,學(xué)習(xí)效率和最終效果都會(huì)明顯提升。
唐小引:正好也請(qǐng)您聊聊你們團(tuán)隊(duì)的新成果——E3AD,首次嘗試把人類(lèi)駕駛時(shí)的認(rèn)知信號(hào),直接用來(lái)增強(qiáng)端到端自動(dòng)駕駛的規(guī)劃任務(wù)。我讀論文的時(shí)候還挺驚訝的。用大白話(huà)講,這是不是有點(diǎn)像“用腦電教 AI 開(kāi)車(chē)”?它到底解決了傳統(tǒng)端到端自動(dòng)駕駛(E2E-AD)的哪些痛點(diǎn)?
![]()
龔江濤:可以這么理解,但我們更想表達(dá)的是:把“人是怎么提前預(yù)判風(fēng)險(xiǎn)的”這件事,變成機(jī)器能用的信號(hào)。
我們之前提到過(guò)一個(gè)核心動(dòng)機(jī):人之所以很多時(shí)候“沒(méi)出事”,并不是因?yàn)槭潞筇幚淼糜卸嗪茫且驗(yàn)樘崆案兄斤L(fēng)險(xiǎn)苗頭,就先做了規(guī)避動(dòng)作,讓風(fēng)險(xiǎn)根本沒(méi)發(fā)生。相比之下,機(jī)器如果完全靠在環(huán)境里“自己跑、自己撞、自己學(xué)”,遇到風(fēng)險(xiǎn)的概率會(huì)高很多。
問(wèn)題在于:這種“提前預(yù)判”的過(guò)程,怎么被采集出來(lái)?最直覺(jué)的方式是讓駕駛員自己說(shuō)——比如讓他隨時(shí)報(bào)告:你現(xiàn)在覺(jué)得危險(xiǎn)嗎?接下來(lái)會(huì)不會(huì)有風(fēng)險(xiǎn)?但我們做過(guò)測(cè)試,發(fā)現(xiàn)這非常難。很多時(shí)候,司機(jī)其實(shí)已經(jīng)下意識(shí)把腳從油門(mén)移開(kāi),甚至準(zhǔn)備去踩剎車(chē)了,但他并不會(huì)、也很難用語(yǔ)言準(zhǔn)確描述“我正在進(jìn)入風(fēng)險(xiǎn)預(yù)警狀態(tài)”。
于是我們同步采集了腦電信號(hào)。一個(gè)很有意思的現(xiàn)象是:在駕駛員自己還沒(méi)意識(shí)到、也說(shuō)不清楚的時(shí)候,他的腦電反應(yīng)已經(jīng)出現(xiàn)了明顯變化——它能更早地“暴露”出大腦對(duì)潛在風(fēng)險(xiǎn)的預(yù)警。這就給了我們一個(gè)入口:把這種隱式的預(yù)警信號(hào),轉(zhuǎn)化為對(duì)自動(dòng)駕駛規(guī)劃更有用的監(jiān)督信息。
唐小引:那為什么選腦電?從腦科學(xué)的角度,它到底在測(cè)什么?
龔江濤:簡(jiǎn)單說(shuō),腦電反映的是大腦神經(jīng)活動(dòng)的“電信號(hào)痕跡”。大腦里神經(jīng)元之間通過(guò)突觸通信,本質(zhì)上伴隨電活動(dòng);同時(shí)大腦作為生理組織,也會(huì)產(chǎn)生血流、血氧等變化。所以神經(jīng)科學(xué)里有很多不同的觀測(cè)手段,用來(lái)間接捕捉大腦的工作狀態(tài)。
我們可以打個(gè)比方:如果你想知道“北京城里的人都在干什么”,腦電更像是在北京上空放了一堆麥克風(fēng),去聽(tīng)整體的“聲音模式”,再反推大家的活動(dòng)狀態(tài);而像 fNIRS、fMRI 這類(lèi)偏血流/血氧的技術(shù),更像是看“哪片區(qū)域的能耗和供給在變”,用資源變化去推測(cè)哪些區(qū)域更活躍。
當(dāng)然,這些手段都不是“讀心術(shù)”,而是用可觀測(cè)信號(hào)去捕捉規(guī)律,再去推測(cè)它可能對(duì)應(yīng)的認(rèn)知狀態(tài)。
唐小引:那你們用的是侵入式還是非侵入式?
龔江濤:我們用的是非侵入式腦電。
![]()
唐小引:接著我想問(wèn)更“工程化”的部分:采集到的認(rèn)知數(shù)據(jù),怎么結(jié)構(gòu)化地融合到端到端自動(dòng)駕駛訓(xùn)練里?它的數(shù)據(jù)流大概是怎樣的?
龔江濤:這個(gè)問(wèn)題很關(guān)鍵。我們之所以選擇端到端自動(dòng)駕駛,而不是傳統(tǒng)的模塊化方案,主要有兩個(gè)考慮。
第一是計(jì)算機(jī)系統(tǒng)層面的趨勢(shì)。早些年算力有限,大家更傾向于模塊化:先感知、再預(yù)測(cè)、再規(guī)劃、再控制。模塊化當(dāng)然清晰,但它會(huì)帶來(lái)信息瓶頸——上游把豐富的原始信息壓縮成少量中間結(jié)果傳給下游,細(xì)節(jié)丟失后,下游可能在關(guān)鍵時(shí)刻漏掉重要線(xiàn)索。小偏差一路往下傳,最后可能放大成大錯(cuò)誤。
而端到端的路線(xiàn),雖然內(nèi)部也會(huì)有層級(jí)結(jié)構(gòu),但它能更充分地保留和利用原始信息,整體穩(wěn)定性和性能上更有潛力。從技術(shù)演進(jìn)角度看,系統(tǒng)越往后發(fā)展,往往越趨向端到端。
第二是從人腦研究范式出發(fā)。早期我們也曾經(jīng)更傾向“模塊化”理解大腦:這個(gè)區(qū)域干什么、那個(gè)區(qū)域干什么,信號(hào)一站一站傳遞。但越來(lái)越多研究發(fā)現(xiàn),大腦的分工并沒(méi)有那么“干凈利落”,更多是全腦協(xié)同:既有自下而上的信息流,也有目標(biāo)驅(qū)動(dòng)的自上而下整合。也就是說(shuō),當(dāng)你在執(zhí)行駕駛?cè)蝿?wù)時(shí),你很難把“純感知信號(hào)”從“決策、意圖、預(yù)期”里完全剝離出來(lái)。
在這種情況下,如果我們以“完整任務(wù)”為單位去觀察大腦協(xié)同,反而更接近真實(shí)工作方式,也更有利于提升信噪比——而信噪比,恰恰是腦科學(xué)研究里非常現(xiàn)實(shí)的瓶頸。
所以我們提出了一個(gè)對(duì)齊思路:讓“人腦的任務(wù)過(guò)程”和“機(jī)器的任務(wù)學(xué)習(xí)”都盡量用端到端的方式對(duì)齊,再做融合。結(jié)果也驗(yàn)證了這個(gè)邏輯——第一次用端到端范式去融合時(shí),效果比我們預(yù)想得更好,也增強(qiáng)了我們繼續(xù)走這條路的信心。
另外,在更深入地做腦信號(hào)結(jié)構(gòu)化分析之后,我們也看到:一些傳統(tǒng)“模塊化”的認(rèn)知觀點(diǎn)并沒(méi)有完全失效,它反而可能幫助我們?cè)诙说蕉丝蚣苤献龈?xì)的建模,進(jìn)一步提升效果。
唐小引:你們做了多層次的融合對(duì)比:在特征層、規(guī)劃層等不同階段分別融合,性能差異還挺明顯。這個(gè)對(duì)比結(jié)果說(shuō)明了什么?對(duì)未來(lái)的模型設(shè)計(jì)有哪些啟示?
龔江濤:對(duì),其實(shí)我們前面也鋪墊過(guò)一點(diǎn)。最后的結(jié)論很清晰:把人類(lèi)認(rèn)知信號(hào)和自動(dòng)駕駛系統(tǒng)都對(duì)齊到“任務(wù)層”,也就是最終的規(guī)劃與決策層來(lái)做融合,效果最好。
原因在于,大腦在真實(shí)任務(wù)中并不是“感知?dú)w感知、決策歸決策”這么干凈地分開(kāi)。很多所謂的“感知相關(guān)信號(hào)”,其實(shí)已經(jīng)被后面的目標(biāo)、規(guī)劃和決策狀態(tài)影響了。換句話(huà)說(shuō),如果你把腦信號(hào)硬塞到早期的感知階段,它里面混著的并不只是感知信息,還夾雜了“我打算怎么做”的成分,反而容易出現(xiàn)錯(cuò)配。
而我們實(shí)驗(yàn)也印證了這一點(diǎn):越是貼近端到端任務(wù)閉環(huán)、越是對(duì)齊整體規(guī)劃目標(biāo)的融合方式,收益越穩(wěn)定、效果也越好。這對(duì)未來(lái)模型設(shè)計(jì)的啟示就是:與其糾結(jié)在某個(gè)“模塊點(diǎn)位”拼接,不如更多從“任務(wù)對(duì)齊”出發(fā),考慮融合發(fā)生在什么層面最合理。
唐小引:接著聊聊具身認(rèn)知在這里面的價(jià)值。第一點(diǎn),引入具身認(rèn)知到底帶來(lái)了哪些“數(shù)據(jù)標(biāo)注”本身給不了的額外信息?
龔江濤:我覺(jué)得這是具身方向最有意思、也最關(guān)鍵的點(diǎn)。
你看,AI 走到今天,技術(shù)當(dāng)然進(jìn)步很大——網(wǎng)絡(luò)更深了、參數(shù)更多了、算力更強(qiáng)了。但從研究范式上講,主流路徑一直很像:有數(shù)據(jù)、有真值(標(biāo)簽)、有模型,用標(biāo)簽去監(jiān)督模型更新。這個(gè)范式背后其實(shí)有個(gè)默認(rèn)前提:人類(lèi)能夠把“什么是對(duì)的”用顯式的方式講清楚。因?yàn)楹芏嗾嬷底罱K還是靠人標(biāo)出來(lái)的。
可一旦進(jìn)入具身任務(wù),這個(gè)前提就經(jīng)常不成立。很多能力是“操作性技能”,比如控制身體、預(yù)判風(fēng)險(xiǎn)、下意識(shí)規(guī)避危險(xiǎn)——這些東西往往很難被語(yǔ)言準(zhǔn)確描述。你讓一個(gè)老司機(jī)解釋“我剛剛為什么松油門(mén)、為什么準(zhǔn)備踩剎車(chē)”,他可能自己都說(shuō)不清楚;但他的身體和神經(jīng)系統(tǒng)其實(shí)已經(jīng)做出了反應(yīng)。
![]()
所以我的理解是:當(dāng)語(yǔ)言說(shuō)不清楚的時(shí)候,身體會(huì)用信號(hào)“自己說(shuō)話(huà)”。尤其是由大腦皮層、脊髓等神經(jīng)系統(tǒng)共同調(diào)控的那些過(guò)程,往往在動(dòng)作發(fā)生之前,就已經(jīng)出現(xiàn)了可觀測(cè)的隱式信號(hào)。
這就帶來(lái)一個(gè)新的可能:我們不僅僅記錄“他最后做了什么動(dòng)作”,而是把更早的階段——他在評(píng)估環(huán)境、猶豫、預(yù)判、準(zhǔn)備采取措施時(shí)的隱式信號(hào)——也采集下來(lái),作為一種更深層次的監(jiān)督信息。對(duì)具身智能來(lái)說(shuō),這是一類(lèi)傳統(tǒng)標(biāo)注很難提供、但可能非常關(guān)鍵的數(shù)據(jù)來(lái)源。
唐小引:我之前聽(tīng)清華心理與認(rèn)知科學(xué)系主任劉嘉老師提到,人類(lèi)很多動(dòng)作更多由小腦控制,而大模型更像是在做“大腦皮層”的事。具身任務(wù)比如開(kāi)車(chē),往往需要大小腦高度配合。你們?cè)谘芯坷飳?duì)這個(gè)問(wèn)題的觀察是什么?
龔江濤:我非常贊同“大小腦協(xié)同”這個(gè)判斷,而且具身任務(wù)很多確實(shí)不只是小腦的事。
如果是偏“純小腦”的能力,比如穩(wěn)定控制、保持平衡、走路這類(lèi)相對(duì)明確的控制問(wèn)題,其實(shí)從自動(dòng)化到今天,控制理論和工程體系發(fā)展得已經(jīng)很成熟了,單獨(dú)拿出來(lái)不一定那么難。
具身智能真正的瓶頸,往往在于:小腦式的穩(wěn)定控制,要和大腦皮層式的感知、理解、規(guī)劃、應(yīng)對(duì)突發(fā)情況整合起來(lái)。只要環(huán)境變得動(dòng)態(tài)、復(fù)雜,需要識(shí)別、需要推理、需要處理長(zhǎng)程目標(biāo),或者任務(wù)里存在大量不可預(yù)期的意外,就會(huì)遇到各種極端情況、邊界場(chǎng)景。
所以我覺(jué)得,研究大腦在進(jìn)化過(guò)程中如何被具身經(jīng)驗(yàn)塑造、以及大腦和小腦如何形成有機(jī)協(xié)作,對(duì)我們今天構(gòu)建更可靠的“大小腦協(xié)同型具身智能”,是非常關(guān)鍵的一條路徑。
腦電大模型:讓腦信號(hào)從“玄學(xué)”走向通用
唐小引:再談?wù)劮夯?yàn)證。大家也很關(guān)心不依賴(lài)腦信號(hào)的推理穩(wěn)定性。也就是說(shuō),在推理階段只用視覺(jué)等輸入,模型還能否保持“類(lèi)腦認(rèn)知”的能力?實(shí)際測(cè)試中這種泛化效果穩(wěn)定嗎?能舉個(gè)具體例子嗎?
龔江濤:這個(gè)問(wèn)題很核心,也確實(shí)跟技術(shù)進(jìn)步直接相關(guān)。
我們這次工作里引入了上交大的 Large Brain Model(大腦大模型,簡(jiǎn)稱(chēng) LaBraM),它對(duì)腦科學(xué)數(shù)據(jù)的泛化非常關(guān)鍵。因?yàn)槟X科學(xué)天然有兩個(gè)難點(diǎn):一是信噪比低;二是個(gè)體差異大。要從不同人、不同狀態(tài)里提煉出共性,把個(gè)體差異“消融”掉,往往需要更大規(guī)模的數(shù)據(jù)和更強(qiáng)的模型能力。
我們也在和智源研究院雷博老師(智源研究院研究員)所在的大腦大模型團(tuán)隊(duì)合作交流,這塊進(jìn)展非常快,大家交流起來(lái)都很興奮。
舉個(gè)相對(duì)直觀的例子來(lái)說(shuō)明“大腦大模型”現(xiàn)在的能力邊界:過(guò)去腦電、血氧這類(lèi)信號(hào)基本是兩條路線(xiàn),各做各的。但在大腦大模型的框架下,它們有機(jī)會(huì)被映射到同一個(gè)“腦表征空間”里,指向同類(lèi)的腦活動(dòng),這是一個(gè)很重要的變化。
再比如一個(gè)經(jīng)典任務(wù):用腦電去預(yù)測(cè)你正在看什么。這個(gè)任務(wù)很適合用來(lái)檢驗(yàn)魯棒性。兩三年前,這件事還很“玄學(xué)”,結(jié)果隨機(jī)性很強(qiáng);但現(xiàn)在已經(jīng)能做到在大類(lèi)、輪廓結(jié)構(gòu)等層面相對(duì)穩(wěn)定地解碼出來(lái)。這說(shuō)明什么?說(shuō)明腦信號(hào)的可用性、可遷移性在變強(qiáng)。
回到我們的問(wèn)題:如果腦信號(hào)能更穩(wěn)定地表達(dá)“風(fēng)險(xiǎn)預(yù)警、注意力變化”等認(rèn)知狀態(tài),那么我們就可以在訓(xùn)練階段用它去“教會(huì)”模型——哪些視覺(jué)線(xiàn)索對(duì)應(yīng)潛在風(fēng)險(xiǎn)、哪些場(chǎng)景需要提前規(guī)避。推理階段即便不再輸入腦信號(hào),模型也能把這種能力遷移到純視覺(jué)輸入上,泛化就更穩(wěn)定。
唐小引:我在準(zhǔn)備采訪(fǎng)時(shí)也跟一些做具身的朋友聊:現(xiàn)在居然已經(jīng)有“腦電大模型”這種路線(xiàn)了。以前我們談具身更多聚焦多模態(tài)、世界模型、空間智能這些。這個(gè)領(lǐng)域其實(shí)發(fā)展不短了,但很多人不太了解。你覺(jué)得過(guò)去是大家之間存在壁壘,還是說(shuō)現(xiàn)在因?yàn)槎急贾呱碇悄茏撸砰_(kāi)始發(fā)生交叉融合?
龔江濤:你說(shuō)得很準(zhǔn)確:過(guò)去確實(shí)更像“各走各的路”。
也不能說(shuō)完全沒(méi)有交集。人工智能研究里會(huì)偶爾借鑒認(rèn)知科學(xué)的一些觀點(diǎn),做一些“腦啟發(fā)”的設(shè)計(jì)。但過(guò)去的一個(gè)現(xiàn)實(shí)問(wèn)題是:腦科學(xué)、認(rèn)知科學(xué)的研究范式很難規(guī)模化泛化。不同實(shí)驗(yàn)的刺激材料、流程、分析方法都不一樣,結(jié)論有時(shí)連領(lǐng)域內(nèi)部都未必完全一致。大家都是在嘗試打開(kāi)大腦這個(gè)黑箱:先采集數(shù)據(jù),再提出假設(shè);或者基于假設(shè)設(shè)計(jì)實(shí)驗(yàn)去驗(yàn)證。
所以計(jì)算機(jī)科學(xué)想從這里借鑒時(shí),經(jīng)常只能借到“概念層”的東西:那些更通俗、更好傳播、更符合直覺(jué)的理論會(huì)先被引入。但原始的大腦數(shù)據(jù)長(zhǎng)期沒(méi)有真正大規(guī)模進(jìn)入 AI 社區(qū)。
中間就會(huì)出現(xiàn)一種“隔了好幾層翻譯”的情況:認(rèn)知科學(xué)家先抽象一遍,AI 研究者再理解一遍,最后做出來(lái)的系統(tǒng)到底跟大腦有多像,其實(shí)很難說(shuō)清。
而現(xiàn)在的變化是:隨著算力、模型和數(shù)據(jù)處理能力提升,我們終于有機(jī)會(huì)繞開(kāi)多輪“概念翻譯”,直接在原始數(shù)據(jù)層面建立連接。尤其當(dāng)我們把兩邊都放到“任務(wù)對(duì)齊”的框架下,讓輸入輸出在同一類(lèi)任務(wù)上對(duì)應(yīng)起來(lái),就更有可能讓神經(jīng)網(wǎng)絡(luò)自己從復(fù)雜數(shù)據(jù)里去蕪存菁,學(xué)到更本質(zhì)的規(guī)律。
這個(gè)趨勢(shì)不只發(fā)生在腦科學(xué)與 AI 的結(jié)合上,其實(shí)在 AI for Science 的很多方向都類(lèi)似:過(guò)去是科學(xué)家從數(shù)據(jù)里總結(jié)公式和定律,我們做系統(tǒng)時(shí)再去“引用定律”;現(xiàn)在很多時(shí)候可以直接讓模型從原始數(shù)據(jù)里學(xué)習(xí),反而效果更好——這是一個(gè)更底層的范式變化。
終局猜想:具身智能的未來(lái)是“認(rèn)知伙伴”
唐小引:聊到“終局”,大家現(xiàn)在看馬斯克做腦機(jī)接口,會(huì)覺(jué)得很不可思議。你覺(jué)得這會(huì)成為未來(lái)的終局嗎?
龔江濤:我個(gè)人是相信這個(gè)趨勢(shì)的——技術(shù)進(jìn)步確實(shí)可能繞開(kāi)很多屏障,讓我們更穩(wěn)定地獲取原始認(rèn)知信號(hào),從而更直接地完成任務(wù)。
但這并不意味著每個(gè)人未來(lái)都要“配一個(gè)腦機(jī)接口”。現(xiàn)實(shí)里,技術(shù)怎么落地、以什么形態(tài)落地,未必和想象完全一致。更重要的是,“所想即所做”如果不加約束,會(huì)帶來(lái)風(fēng)險(xiǎn)和倫理問(wèn)題。
不過(guò)從方向上講,讓系統(tǒng)更接近“所想即所得”、更自然地讀懂人的意圖,這很可能是一個(gè)長(zhǎng)期的演進(jìn)方向。
唐小引:那順著這個(gè)方向,你能不能描繪一下你理解的具身智能未來(lái)?或者說(shuō),你心里的 AGI 是什么樣的?
龔江濤:我們現(xiàn)在更愿意把它理解成一種“認(rèn)知伙伴”。
我們做 AI、做智能體,最終還是希望讓人類(lèi)生活變得更好。要做到這一點(diǎn),它必須在兩件事上持續(xù)變強(qiáng):理解人類(lèi),以及和人類(lèi)協(xié)同。
而從邏輯上講,如果 AI 和人類(lèi)各用一套完全不同的思維機(jī)制,社會(huì)協(xié)作成本會(huì)變得非常高——溝通成本、對(duì)齊成本都會(huì)上升。所以我更希望未來(lái)的智能體,在核心機(jī)制上盡可能和人類(lèi)共享某些“可對(duì)齊”的邏輯框架,這樣它才能真正融入人類(lèi)社會(huì),而不是只在自己的系統(tǒng)里自洽。
唐小引:回到當(dāng)下的通用腦電大模型,你們論文里也提到表現(xiàn)已經(jīng)很不錯(cuò)了。為什么會(huì)選擇上交大團(tuán)隊(duì)的 Large Brain Model?背后應(yīng)該也有合作和評(píng)估過(guò)程,能分享一下嗎?
龔江濤:這件事確實(shí)挺有意思。我一直在北京工作,但我也得承認(rèn),上海這邊整體的 AI 氛圍和生態(tài)非常活躍,很多方向推進(jìn)得很快,而且合作方式也比較開(kāi)放,容易產(chǎn)生新東西。
當(dāng)時(shí)我們對(duì)市面上幾個(gè)主流的腦電大模型做過(guò)評(píng)估,大概篩了三套重點(diǎn)方案。后來(lái)我們和上交大負(fù)責(zé)的老師做了線(xiàn)下深入交流,綜合他們的數(shù)據(jù)量、已驗(yàn)證任務(wù)的覆蓋面以及工程實(shí)現(xiàn)的完整度,最后選擇了他們的 Large Brain Model。引入之后,確實(shí)帶來(lái)了比較明顯的性能提升,我覺(jué)得這是一個(gè)比較成功的選擇。
唐小引:那除了上交大的 LaBraM,還有其他不錯(cuò)的腦電大模型嗎?
龔江濤:有的。當(dāng)時(shí)我們做選擇的時(shí)候,智源研究院那邊的相關(guān)模型還沒(méi)完全出來(lái)。后來(lái)我們?cè)谌ツ昴甑滓灿薪涣鳎酉聛?lái)我也希望能把智源這邊納入評(píng)測(cè)范圍,做一個(gè)更系統(tǒng)的對(duì)比測(cè)試(benchmark)。
唐小引:也就是說(shuō),底層模型層面可能會(huì)有多個(gè)選擇來(lái)支撐?
龔江濤:對(duì),可能會(huì)做對(duì)比評(píng)測(cè)。但最終在具體系統(tǒng)里,往往還是會(huì)“擇優(yōu)選一”,更偏非此即彼的路線(xiàn)。
跨范式研究的挑戰(zhàn):當(dāng)“允許試錯(cuò)”遇到數(shù)據(jù)采集的深坑
唐小引:你剛才講了很多讓人興奮的點(diǎn)。那我也想問(wèn)問(wèn)“趟坑經(jīng)歷”——這種跨范式的研究,通常不會(huì)一路順利。你印象最深的挑戰(zhàn)是什么?是技術(shù)層面的,還是協(xié)作層面的?最后又是怎么解決的?
龔江濤:我覺(jué)得最大的挑戰(zhàn),往往從啟動(dòng)立項(xiàng)那一刻就開(kāi)始了。你要推動(dòng)一種“新范式”,在一開(kāi)始還沒(méi)有足夠?qū)嵺`經(jīng)驗(yàn)、也沒(méi)有完全跑通閉環(huán)的時(shí)候,要爭(zhēng)取資源支持非常難。現(xiàn)實(shí)一點(diǎn)說(shuō),我們目前很多科研運(yùn)行機(jī)制,對(duì)“失敗”是缺少預(yù)案的——很多項(xiàng)目能立項(xiàng),往往是因?yàn)槟銕缀跻呀?jīng)驗(yàn)證到八九不離十了。
我們之所以能把這件事啟動(dòng)起來(lái),是把它嵌入到一些更容易獲得支持的目標(biāo)里:比如自動(dòng)駕駛評(píng)估、一些更靈活的縱向經(jīng)費(fèi)支持等。通過(guò)這種方式,才有機(jī)會(huì)孵化一條“以前沒(méi)人走過(guò)”的路。
唐小引:那這件事最初的靈感怎么來(lái)的?以及在 AIR 內(nèi)部溝通、對(duì)外爭(zhēng)取合作伙伴和經(jīng)費(fèi)時(shí),大家的反饋是什么?
龔江濤:我確實(shí)很幸運(yùn)。和亞勤老師溝通我過(guò)往經(jīng)歷時(shí),我提到過(guò)我們?cè)卺t(yī)學(xué)院做觸覺(jué)與腦認(rèn)知研究的經(jīng)驗(yàn)。亞勤老師當(dāng)時(shí)的判斷是:駕駛本身就是強(qiáng)認(rèn)知活動(dòng),“老司機(jī)的大腦到底在做什么”這件事很值得先把數(shù)據(jù)采下來(lái)。哪怕短期不確定能不能直接影響自動(dòng)駕駛算法研發(fā),也值得先做探索。能拿到他的支持,是項(xiàng)目啟動(dòng)的關(guān)鍵因素之一。
第二是合作伙伴的支持。我們當(dāng)時(shí)和百度這邊一起承擔(dān)了一些國(guó)家課題。在我們提出方向調(diào)整后,也做了匯報(bào)交流。百度整體態(tài)度很開(kāi)放:他們可能短期看不到明確落地路徑,但并不反對(duì)我們?cè)趪?guó)家項(xiàng)目框架下做探索。更重要的是,在大的項(xiàng)目里,他們確保主線(xiàn)目標(biāo)可控,同時(shí)也給我們留出了一塊“允許試錯(cuò)”的空間和經(jīng)費(fèi),用來(lái)做設(shè)備采購(gòu)、實(shí)驗(yàn)組織和數(shù)據(jù)采集。
唐小引:那在“允許試錯(cuò)”的部分里,有哪些真的“翻車(chē)”了?又有哪些是出乎意料地成了?
龔江濤:最典型的“難”,其實(shí)在數(shù)據(jù)采集。
我們當(dāng)時(shí)專(zhuān)門(mén)設(shè)計(jì)了一條包含多種道路形態(tài)的采集路線(xiàn),盡量覆蓋主輔路切換、掉頭、復(fù)雜交互等場(chǎng)景,并且選擇偏晚高峰的時(shí)段,讓老司機(jī)更可能遇到豐富的交通沖突與博弈。
![]()
采集時(shí),駕駛員需要同時(shí)佩戴腦電設(shè)備和眼動(dòng)設(shè)備,車(chē)內(nèi)還要布置多視角攝像;我們前后排都安排了乘客,其中乘客還佩戴心率、皮電等生理傳感器,方便從“乘客視角”捕捉他對(duì)風(fēng)險(xiǎn)的感受變化。這一整套系統(tǒng)搭建和穩(wěn)定運(yùn)行,比我們預(yù)想花了多一到兩倍時(shí)間;后續(xù)的數(shù)據(jù)清洗、對(duì)齊、建庫(kù)、分析,也遠(yuǎn)比實(shí)驗(yàn)室預(yù)實(shí)驗(yàn)更耗時(shí)。
不過(guò)好消息是,盡管過(guò)程慢、投入大,但最終效果確實(shí)讓我們覺(jué)得很“值得”。
唐小引:那從技術(shù)判斷上總結(jié)一下:腦電會(huì)不會(huì)成為未來(lái)自動(dòng)駕駛的主流信號(hào)?以及除了腦電,還有哪些生理信號(hào)也可能融合進(jìn)來(lái)?
龔江濤:我更愿意把它看成“第一步”,而且它不只局限于自動(dòng)駕駛。更廣義的具身智能、甚至一些離身的智能系統(tǒng),都可能從這種范式里受益:我們不一定非要重復(fù)走一條老路,而是可以借助人類(lèi)隱式信號(hào),找到更高效的學(xué)習(xí)路徑。
至于信號(hào)類(lèi)型,和大腦直接相關(guān)的,除了腦電,還有 fNIRS 這類(lèi)血氧信號(hào)等。我們自己還做過(guò)一個(gè)很有代表性的方向:眼動(dòng)信號(hào)。
眼動(dòng)本質(zhì)上反映的是注意力分配——而在復(fù)雜駕駛場(chǎng)景里,信息極其冗余,模型也非常需要“注意力”去篩選重點(diǎn)。我們把人的注視作為一種先驗(yàn)融合進(jìn)機(jī)器視覺(jué)后,發(fā)現(xiàn)效果是可觀的。更有意思的是:隨著模型規(guī)模變大,在不同階段加入眼動(dòng)先驗(yàn)都能帶來(lái)相對(duì)穩(wěn)定的提升。
這讓我們形成一個(gè)直觀判斷:僅靠顯式標(biāo)注的數(shù)據(jù),哪怕數(shù)據(jù)量不斷擴(kuò)大,也很難完全覆蓋人類(lèi)在真實(shí)任務(wù)里產(chǎn)生的那些“隱式認(rèn)知線(xiàn)索”。把這類(lèi)線(xiàn)索納入學(xué)習(xí)體系,可能是繞不開(kāi)的一條路。
唐小引:所以最大的瓶頸還是數(shù)據(jù)?
龔江濤:對(duì),核心瓶頸還是數(shù)據(jù):采集難、對(duì)齊難、建庫(kù)難、分析難。軟件工程本身反而相對(duì)成熟。
擁抱開(kāi)源與未來(lái):大腦其實(shí)一直在“說(shuō)話(huà)”
唐小引:那說(shuō)到開(kāi)源。現(xiàn)在大家很關(guān)心“完全開(kāi)源”——代碼、模型、權(quán)重、數(shù)據(jù)集都開(kāi)嗎?你們有什么計(jì)劃?
龔江濤:我們作為高校科研團(tuán)隊(duì),這項(xiàng)工作是盡可能完全開(kāi)源的:代碼、模型、權(quán)重以及數(shù)據(jù)都會(huì)開(kāi)放。
但也有一部分需要現(xiàn)實(shí)約束:自動(dòng)駕駛場(chǎng)景涉及道路與影像數(shù)據(jù),會(huì)牽涉隱私與合規(guī)問(wèn)題,所以在圖像等敏感數(shù)據(jù)的訪(fǎng)問(wèn)上,我們會(huì)設(shè)置郵件申請(qǐng)等門(mén)檻,確保合規(guī)使用。這主要是由場(chǎng)景本身的特殊性決定的。
唐小引:現(xiàn)在“開(kāi)發(fā)者”定義也在變——大模型降低了編程門(mén)檻,越來(lái)越多人可以參與;同時(shí)交叉學(xué)科也更常見(jiàn)。你作為過(guò)來(lái)人,對(duì)新一代開(kāi)發(fā)者有什么建議?
龔江濤:我覺(jué)得編程會(huì)讓每個(gè)人受益,不管你來(lái)自哪個(gè)學(xué)科。它會(huì)讓你更理解機(jī)器的邏輯,也更懂得怎么把機(jī)器當(dāng)作工具和伙伴去協(xié)作。
如果你想更系統(tǒng)地進(jìn)入計(jì)算機(jī)領(lǐng)域,還是建議把計(jì)算機(jī)的基礎(chǔ)思想和方法論補(bǔ)齊:數(shù)據(jù)結(jié)構(gòu)、算法、系統(tǒng)、工程思維這些,能決定你走得穩(wěn)不穩(wěn)。好的一點(diǎn)是,計(jì)算機(jī)學(xué)科的學(xué)習(xí)資源極其開(kāi)放,自學(xué)門(mén)檻在很多學(xué)科里反而是最低的——公開(kāi)課、開(kāi)源項(xiàng)目、資料都很豐富,愿意投入就能學(xué)起來(lái)。
另外我不太擔(dān)心“人多會(huì)搶飯碗”。真正決定差異的,往往是你的跨學(xué)科能力:你能不能在“精”之外,理解一個(gè)真實(shí)領(lǐng)域的問(wèn)題語(yǔ)境;能不能和領(lǐng)域?qū)<疑疃葏f(xié)同;能不能把技術(shù)真正落到場(chǎng)景里。交叉學(xué)科不是淺嘗輒止,而是在扎實(shí)基礎(chǔ)上,深入理解目標(biāo)領(lǐng)域,才能把事做成。
唐小引:最后請(qǐng)你用一句話(huà)總結(jié):類(lèi)腦認(rèn)知賦能自動(dòng)駕駛,它對(duì)端到端自動(dòng)駕駛、以及未來(lái) AI 系統(tǒng)設(shè)計(jì)分別有什么啟示?
龔江濤:我想說(shuō)的是——大腦其實(shí)一直在“說(shuō)話(huà)”。這些隱式認(rèn)知信號(hào)里,可能藏著構(gòu)建更接近通用智能系統(tǒng)的關(guān)鍵線(xiàn)索;在理解人類(lèi)大腦的基礎(chǔ)上,我們有機(jī)會(huì)設(shè)計(jì)出更能融入真實(shí)世界、更能服務(wù)人類(lèi)社會(huì)的 AI 系統(tǒng)與智能體。
關(guān)于《萬(wàn)有引力》:
這是由 CSDN &《新程序員》執(zhí)行總編唐小引主理的對(duì)話(huà)欄目。技術(shù)趨勢(shì)多變,一不留神總擔(dān)心錯(cuò)過(guò)。正在發(fā)生的技術(shù)事件,對(duì)于我們開(kāi)發(fā)者意味著什么?我們面臨的諸多困惑從何尋找答案?《萬(wàn)有引力》即志在于此,直面事件與困惑,抽絲剝繭,解讀技術(shù)真相。
欄目定位:一檔面向開(kāi)發(fā)者群體,聚焦解讀技術(shù)真相的對(duì)話(huà)欄目。
視頻觀看平臺(tái):CSDN 視頻號(hào)、CSDN 網(wǎng)站 & App
多形式:文章、視頻、音頻都會(huì)有,持續(xù)關(guān)注 CSDN 公眾號(hào)都可獲取,歡迎大家關(guān)注!
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.