網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

港中文團(tuán)隊(duì)發(fā)布7模態(tài)人體動(dòng)作數(shù)據(jù)集，揭開大模型理解能力短板

2026-05-25 17:41:03　來源: DeepTech深科技

北京舉報(bào)

分享至

近日，香港中文大學(xué)信息工程系邢國良教授團(tuán)隊(duì)的博士生蔣思陽作為第一作者，完成了一項(xiàng)名為 CUHK-X 的大型多模態(tài)人體動(dòng)作數(shù)據(jù)集，這個(gè)數(shù)據(jù)集能讓 AI 真正看懂人在做什么、為什么這么做以及接下來要做什么。這項(xiàng)研究成果已被移動(dòng)計(jì)算領(lǐng)域頂級(jí)國際會(huì)議 ACM MobiSys 2026 接收。

有了它，服務(wù)機(jī)器人可以更聰明地理解你的需求，養(yǎng)老院能提前預(yù)警老人摔倒風(fēng)險(xiǎn)，康復(fù)系統(tǒng)能分析病人的動(dòng)作是否標(biāo)準(zhǔn)。他們用這個(gè)數(shù)據(jù)集測了市面上好幾款主流的大模型，發(fā)現(xiàn)即便是最聰明的 AI，在理解人類真實(shí)動(dòng)作這件事情上，平均正確率也只有四成左右，還有很長的路要走。

這項(xiàng)研究其實(shí)是被現(xiàn)實(shí)需求逼出來的，該團(tuán)隊(duì)之前在做邊緣部署的 AI 系統(tǒng)時(shí)發(fā)現(xiàn)，現(xiàn)有的數(shù)據(jù)集都只停留在識(shí)別層面，比如拍一個(gè)人摔倒，AI 知道這是摔倒。不過大模型時(shí)代需要的不只是認(rèn)出來，還要理解這個(gè)人是怎么摔倒的，是絆到了椅子還是被東西砸到，以及摔倒之后應(yīng)該怎么辦。

理解和推理這兩個(gè)能力，恰恰是 AI 要走進(jìn)家庭、醫(yī)院、養(yǎng)老院這些真實(shí)場景時(shí)最需要的。市面上的主流大模型主要針對(duì)彩色照片優(yōu)化，面對(duì)深度圖、熱成像、毫米波雷達(dá)這些非常規(guī)傳感器時(shí)表現(xiàn)很差，根本原因就是缺少這類傳感器的配對(duì)數(shù)據(jù)。

CUHK X 的數(shù)據(jù)收集走了一條反常規(guī)的路徑，傳統(tǒng)做法是先隨便拍一堆視頻，然后找人一幀一幀打標(biāo)簽，效率極低還容易出錯(cuò)。該團(tuán)隊(duì)先設(shè)計(jì)好動(dòng)作場景，再用大模型把動(dòng)作串成一段有邏輯的劇情，最后讓參與者照著劇情演。比如刷牙洗臉梳頭穿衣服這幾個(gè)動(dòng)作，大模型會(huì)生成一段從起床到洗漱完畢的完整描述，參與者照著演就行了。數(shù)據(jù)收集前標(biāo)簽就已經(jīng)定好了，準(zhǔn)確性大大提高。

整個(gè)數(shù)據(jù)集包含 40 個(gè)動(dòng)作，分成了七個(gè)大類。這套動(dòng)作清單是從 12 個(gè)公開數(shù)據(jù)集的 349 個(gè)動(dòng)作中篩選出來的高頻動(dòng)作。

數(shù)據(jù)收集使用的傳感器陣容相當(dāng)豪華，主攝像頭是一臺(tái) Goermicro Vzense NYX 650，同時(shí)輸出彩色、深度和紅外三種信號(hào)。熱成像用的是海康威視 TB4117，毫米波雷達(dá)是德州儀器 IWR6843ISK。慣性傳感器用的是五臺(tái) WitMotion WT9011DCL BT50，分別綁在雙手手腕、雙腳腳踝和腰部。

所有傳感器通過主機(jī)的全局時(shí)鐘同步，用場記板標(biāo)記起始點(diǎn)，確保七路信號(hào)精確對(duì)齊。整個(gè)數(shù)據(jù)收集在兩個(gè)室內(nèi)環(huán)境中完成，覆蓋了客廳、廚房、臥室和衛(wèi)生間四個(gè)典型居室場景。

（來源：https://arxiv.org/pdf/2512.07136）

CUHK-X 數(shù)據(jù)集中，光是視覺類模態(tài)就包括 4,029 段視頻，總時(shí)長達(dá) 19 小時(shí) 29 分鐘。該團(tuán)隊(duì)利用這套數(shù)據(jù)開展了一系列基準(zhǔn)測試。在傳統(tǒng)的動(dòng)作識(shí)別任務(wù)上，熱成像表現(xiàn)最好，準(zhǔn)確率 92.57%，彩色攝像頭 90.89%，深度攝像頭 90.46%，紅外 90.22%，骨架數(shù)據(jù) 79.08%。毫米波雷達(dá)和慣性傳感器因?yàn)樾盘?hào)噪聲大，準(zhǔn)確率只有 46% 和 45% 左右，說明非視覺傳感器在動(dòng)作識(shí)別上還有很大提升空間。

最考驗(yàn) AI 水平的是理解和推理，因此該團(tuán)隊(duì)設(shè)計(jì)了四個(gè)理解層面和一個(gè)推理層面的的任務(wù)。

第一個(gè)是描述生成，讓 AI 看一段視頻，然后寫出一段話描述畫面里的人在干什么。測試結(jié)果顯示，表現(xiàn)最好的模型在熱成像和深度數(shù)據(jù)上也只能拿到三四十分的匹配度，和真實(shí)描述差得很遠(yuǎn)。

第二個(gè)是情境分析，讓 AI 判斷視頻里的人是悠閑還是匆忙。目前主流模型平均正確率與隨機(jī)猜測無異。

第三個(gè)是動(dòng)作排序，把一段打亂順序的視頻片段重新排好，比如先拿杯子后倒水最后喝水。這個(gè)任務(wù)的挑戰(zhàn)在于 AI 必須理解動(dòng)作之間的因果鏈條。

第四個(gè)是動(dòng)作選擇，從 40 個(gè)動(dòng)作里選出視頻中出現(xiàn)的動(dòng)作。這項(xiàng)測試平均正確率不到 25%，說明當(dāng)前大模型在多動(dòng)作復(fù)雜場景下幾乎無能為力。

（來源：https://arxiv.org/pdf/2512.07136）

推理任務(wù)的難度則更進(jìn)一步，通過讓 AI 觀察一段動(dòng)作序列，預(yù)測下一秒會(huì)發(fā)生什么，來判斷現(xiàn)有大模型的推理能力。該團(tuán)隊(duì)發(fā)現(xiàn)，普通的描述型大模型在這個(gè)任務(wù)上表現(xiàn)很差，它們只會(huì)照搬表面特征，比如看到有人在餐桌前就猜吃飯，完全不管餐具拿沒拿。

不過有推理能力的模型表現(xiàn)好很多，它會(huì)分析上下文，看到桌子上有衣服、人在擦手、旁邊放著包，就會(huì)推斷出接下來很可能是要穿衣服出門。這種模型還會(huì)給出推理過程，讓人知道它是怎么得出結(jié)論的。

（來源：https://arxiv.org/pdf/2512.07136）

不過，這些看似條理清晰的實(shí)驗(yàn)結(jié)果，并不是一蹴而就的。從設(shè)備選型到場地搭建，從志愿者招募到數(shù)據(jù)清洗，團(tuán)隊(duì)遇到的麻煩遠(yuǎn)比想象中多，而其中最慘痛的一次教訓(xùn)，來自毫米波雷達(dá)。

據(jù)介紹，毫米波雷達(dá)那次失利讓整個(gè)團(tuán)隊(duì)刻骨銘心。在實(shí)驗(yàn)室里調(diào)得好好的，搬到新場地信號(hào)全亂套了，十幾個(gè)小時(shí)的采集全部作廢，二十多個(gè)參與者得重新叫回來。蔣思陽說這個(gè)教訓(xùn)很昂貴，那就是永遠(yuǎn)不要覺得在一個(gè)環(huán)境跑通了，換個(gè)地方就理所當(dāng)然能跑通。

圖 | 第一作者照片（來源：受訪者）

另據(jù)悉，蔣思陽本科主修數(shù)學(xué)專業(yè)，碩士畢業(yè)于中國臺(tái)灣大學(xué)，研究方向?yàn)橛布到y(tǒng)，博士就讀于香港中文大學(xué)信息工程系，從事計(jì)算機(jī)系統(tǒng)方向的研究。

他即將博士畢業(yè)，并計(jì)劃繼續(xù)從事學(xué)術(shù)研究，進(jìn)一步深化和完善這一數(shù)據(jù)集。下一步計(jì)劃把參與人數(shù)從 30 人擴(kuò)展到 100 人，加入 WiFi 信號(hào)和音頻等新模態(tài)，還要去真正的養(yǎng)老機(jī)構(gòu)做實(shí)地驗(yàn)證。在他看來，AI 要真正理解人，光靠識(shí)別遠(yuǎn)遠(yuǎn)不夠，必須在場景里建立起完整的因果鏈條。CUHK-X 數(shù)據(jù)集的搭建為算法研究者提供了驗(yàn)證模型的平臺(tái)。

參考資料：

相關(guān)論文 https://arxiv.org/pdf/2512.07136

http://aiot.ie.cuhk.edu.hk/

運(yùn)營/排版：何晨龍

注：封面/首圖由 AI 輔助生成

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.