![]()
近日,香港中文大學(xué)信息工程系邢國良教授團(tuán)隊(duì)的博士生蔣思陽作為第一作者,完成了一項(xiàng)名為 CUHK-X 的大型多模態(tài)人體動(dòng)作數(shù)據(jù)集,這個(gè)數(shù)據(jù)集能讓 AI 真正看懂人在做什么、為什么這么做以及接下來要做什么。這項(xiàng)研究成果已被移動(dòng)計(jì)算領(lǐng)域頂級(jí)國際會(huì)議 ACM MobiSys 2026 接收。
有了它,服務(wù)機(jī)器人可以更聰明地理解你的需求,養(yǎng)老院能提前預(yù)警老人摔倒風(fēng)險(xiǎn),康復(fù)系統(tǒng)能分析病人的動(dòng)作是否標(biāo)準(zhǔn)。他們用這個(gè)數(shù)據(jù)集測了市面上好幾款主流的大模型,發(fā)現(xiàn)即便是最聰明的 AI,在理解人類真實(shí)動(dòng)作這件事情上,平均正確率也只有四成左右,還有很長的路要走。
這項(xiàng)研究其實(shí)是被現(xiàn)實(shí)需求逼出來的,該團(tuán)隊(duì)之前在做邊緣部署的 AI 系統(tǒng)時(shí)發(fā)現(xiàn),現(xiàn)有的數(shù)據(jù)集都只停留在識(shí)別層面,比如拍一個(gè)人摔倒,AI 知道這是摔倒。不過大模型時(shí)代需要的不只是認(rèn)出來,還要理解這個(gè)人是怎么摔倒的,是絆到了椅子還是被東西砸到,以及摔倒之后應(yīng)該怎么辦。
理解和推理這兩個(gè)能力,恰恰是 AI 要走進(jìn)家庭、醫(yī)院、養(yǎng)老院這些真實(shí)場景時(shí)最需要的。市面上的主流大模型主要針對(duì)彩色照片優(yōu)化,面對(duì)深度圖、熱成像、毫米波雷達(dá)這些非常規(guī)傳感器時(shí)表現(xiàn)很差,根本原因就是缺少這類傳感器的配對(duì)數(shù)據(jù)。
CUHK X 的數(shù)據(jù)收集走了一條反常規(guī)的路徑,傳統(tǒng)做法是先隨便拍一堆視頻,然后找人一幀一幀打標(biāo)簽,效率極低還容易出錯(cuò)。該團(tuán)隊(duì)先設(shè)計(jì)好動(dòng)作場景,再用大模型把動(dòng)作串成一段有邏輯的劇情,最后讓參與者照著劇情演。比如刷牙洗臉梳頭穿衣服這幾個(gè)動(dòng)作,大模型會(huì)生成一段從起床到洗漱完畢的完整描述,參與者照著演就行了。數(shù)據(jù)收集前標(biāo)簽就已經(jīng)定好了,準(zhǔn)確性大大提高。
整個(gè)數(shù)據(jù)集包含 40 個(gè)動(dòng)作,分成了七個(gè)大類。這套動(dòng)作清單是從 12 個(gè)公開數(shù)據(jù)集的 349 個(gè)動(dòng)作中篩選出來的高頻動(dòng)作。
數(shù)據(jù)收集使用的傳感器陣容相當(dāng)豪華,主攝像頭是一臺(tái) Goermicro Vzense NYX 650,同時(shí)輸出彩色、深度和紅外三種信號(hào)。熱成像用的是海康威視 TB4117,毫米波雷達(dá)是德州儀器 IWR6843ISK。慣性傳感器用的是五臺(tái) WitMotion WT9011DCL BT50,分別綁在雙手手腕、雙腳腳踝和腰部。
所有傳感器通過主機(jī)的全局時(shí)鐘同步,用場記板標(biāo)記起始點(diǎn),確保七路信號(hào)精確對(duì)齊。整個(gè)數(shù)據(jù)收集在兩個(gè)室內(nèi)環(huán)境中完成,覆蓋了客廳、廚房、臥室和衛(wèi)生間四個(gè)典型居室場景。
![]()
(來源:https://arxiv.org/pdf/2512.07136)
CUHK-X 數(shù)據(jù)集中,光是視覺類模態(tài)就包括 4,029 段視頻,總時(shí)長達(dá) 19 小時(shí) 29 分鐘。該團(tuán)隊(duì)利用這套數(shù)據(jù)開展了一系列基準(zhǔn)測試。在傳統(tǒng)的動(dòng)作識(shí)別任務(wù)上,熱成像表現(xiàn)最好,準(zhǔn)確率 92.57%,彩色攝像頭 90.89%,深度攝像頭 90.46%,紅外 90.22%,骨架數(shù)據(jù) 79.08%。毫米波雷達(dá)和慣性傳感器因?yàn)樾盘?hào)噪聲大,準(zhǔn)確率只有 46% 和 45% 左右,說明非視覺傳感器在動(dòng)作識(shí)別上還有很大提升空間。
最考驗(yàn) AI 水平的是理解和推理,因此該團(tuán)隊(duì)設(shè)計(jì)了四個(gè)理解層面和一個(gè)推理層面的的任務(wù)。
第一個(gè)是描述生成,讓 AI 看一段視頻,然后寫出一段話描述畫面里的人在干什么。測試結(jié)果顯示,表現(xiàn)最好的模型在熱成像和深度數(shù)據(jù)上也只能拿到三四十分的匹配度,和真實(shí)描述差得很遠(yuǎn)。
第二個(gè)是情境分析,讓 AI 判斷視頻里的人是悠閑還是匆忙。目前主流模型平均正確率與隨機(jī)猜測無異。
第三個(gè)是動(dòng)作排序,把一段打亂順序的視頻片段重新排好,比如先拿杯子后倒水最后喝水。這個(gè)任務(wù)的挑戰(zhàn)在于 AI 必須理解動(dòng)作之間的因果鏈條。
第四個(gè)是動(dòng)作選擇,從 40 個(gè)動(dòng)作里選出視頻中出現(xiàn)的動(dòng)作。這項(xiàng)測試平均正確率不到 25%,說明當(dāng)前大模型在多動(dòng)作復(fù)雜場景下幾乎無能為力。
![]()
(來源:https://arxiv.org/pdf/2512.07136)
推理任務(wù)的難度則更進(jìn)一步,通過讓 AI 觀察一段動(dòng)作序列,預(yù)測下一秒會(huì)發(fā)生什么,來判斷現(xiàn)有大模型的推理能力。該團(tuán)隊(duì)發(fā)現(xiàn),普通的描述型大模型在這個(gè)任務(wù)上表現(xiàn)很差,它們只會(huì)照搬表面特征,比如看到有人在餐桌前就猜吃飯,完全不管餐具拿沒拿。
不過有推理能力的模型表現(xiàn)好很多,它會(huì)分析上下文,看到桌子上有衣服、人在擦手、旁邊放著包,就會(huì)推斷出接下來很可能是要穿衣服出門。這種模型還會(huì)給出推理過程,讓人知道它是怎么得出結(jié)論的。
![]()
(來源:https://arxiv.org/pdf/2512.07136)
不過,這些看似條理清晰的實(shí)驗(yàn)結(jié)果,并不是一蹴而就的。從設(shè)備選型到場地搭建,從志愿者招募到數(shù)據(jù)清洗,團(tuán)隊(duì)遇到的麻煩遠(yuǎn)比想象中多,而其中最慘痛的一次教訓(xùn),來自毫米波雷達(dá)。
據(jù)介紹,毫米波雷達(dá)那次失利讓整個(gè)團(tuán)隊(duì)刻骨銘心。在實(shí)驗(yàn)室里調(diào)得好好的,搬到新場地信號(hào)全亂套了,十幾個(gè)小時(shí)的采集全部作廢,二十多個(gè)參與者得重新叫回來。蔣思陽說這個(gè)教訓(xùn)很昂貴,那就是永遠(yuǎn)不要覺得在一個(gè)環(huán)境跑通了,換個(gè)地方就理所當(dāng)然能跑通。
![]()
圖 | 第一作者照片(來源:受訪者)
另據(jù)悉,蔣思陽本科主修數(shù)學(xué)專業(yè),碩士畢業(yè)于中國臺(tái)灣大學(xué),研究方向?yàn)橛布到y(tǒng),博士就讀于香港中文大學(xué)信息工程系,從事計(jì)算機(jī)系統(tǒng)方向的研究。
他即將博士畢業(yè),并計(jì)劃繼續(xù)從事學(xué)術(shù)研究,進(jìn)一步深化和完善這一數(shù)據(jù)集。下一步計(jì)劃把參與人數(shù)從 30 人擴(kuò)展到 100 人,加入 WiFi 信號(hào)和音頻等新模態(tài),還要去真正的養(yǎng)老機(jī)構(gòu)做實(shí)地驗(yàn)證。在他看來,AI 要真正理解人,光靠識(shí)別遠(yuǎn)遠(yuǎn)不夠,必須在場景里建立起完整的因果鏈條。CUHK-X 數(shù)據(jù)集的搭建為算法研究者提供了驗(yàn)證模型的平臺(tái)。
參考資料:
相關(guān)論文 https://arxiv.org/pdf/2512.07136
http://aiot.ie.cuhk.edu.hk/
運(yùn)營/排版:何晨龍
注:封面/首圖由 AI 輔助生成
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.