網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

西湖大學(xué)修宇亮，想做「會(huì)格斗的數(shù)字人」丨GAIR 2025

2025-12-05 08:04:29　來(lái)源: AI科技評(píng)論

廣東舉報(bào)

分享至

修宇亮將在GAIR大會(huì)上帶來(lái)三項(xiàng)數(shù)字人領(lǐng)域的最新研究成果。

作者丨代聰飛

編輯丨馬曉寧

2025年 12 月 12-13 日，由 GAIR 研究院與雷峰網(wǎng)聯(lián)合主辦的「第八屆 GAIR 全球人工智能與機(jī)器人大會(huì)」，將在深圳南山·博林天瑞喜來(lái)登酒店舉辦。

今年大會(huì)，將開(kāi)設(shè)三個(gè)主題論壇，聚焦大模型、算力變革、世界模型等多個(gè)議題，描繪 AI 最前沿的探索群像，折射學(xué)界與產(chǎn)業(yè)界共建的智能未來(lái)。

西湖大學(xué)助理教授、遠(yuǎn)兮實(shí)驗(yàn)室負(fù)責(zé)人修宇亮也將蒞臨 12 月 13 日《世界模型》論壇，帶來(lái)《走出蠟像館，交互新世界：開(kāi)拓三維數(shù)字人研究新疆域》的主題演講。

當(dāng) AI 生成技術(shù)重塑內(nèi)容創(chuàng)作生態(tài)，數(shù)字人已從影視特效場(chǎng)景走向直播、運(yùn)動(dòng)、教育等領(lǐng)域，但多數(shù)模型仍存在不同的問(wèn)題，或是姿勢(shì)僵硬難以動(dòng)彈，或是動(dòng)作變形丟失細(xì)節(jié)。

12月13日，西湖大學(xué)助理教授、遠(yuǎn)兮實(shí)驗(yàn)室負(fù)責(zé)人修宇亮將帶來(lái)數(shù)字人研究領(lǐng)域的最新成果分享。

修宇亮一直致力于數(shù)字人方面的研究，從《ICON》破局三維數(shù)字人姿態(tài)重建方法的不足，到如今深入到數(shù)字人的交互模式。

2025年，修宇亮加入西湖大學(xué)，擔(dān)任遠(yuǎn)兮實(shí)驗(yàn)室負(fù)責(zé)人。

打破常規(guī)，90后西湖大學(xué)博導(dǎo)獲超高人氣

西湖大學(xué)一貫以博導(dǎo)姓名命名實(shí)驗(yàn)室，但修宇亮加入后，一改慣例，選擇用“遠(yuǎn)兮”為他的實(shí)驗(yàn)室命名。

修宇亮是西湖大學(xué)最年輕的博導(dǎo)之一，1993年出生的他加入西湖大學(xué)后，很快展示出極高的人氣。他在知乎上發(fā)的《【英雄帖】西湖大學(xué)遠(yuǎn)兮實(shí)驗(yàn)室招生》收獲了1000+的贊同，700+的收藏。

在文章中，修宇亮對(duì)“遠(yuǎn)兮”的來(lái)源這樣解釋，“遠(yuǎn)兮實(shí)驗(yàn)室”這個(gè)名字，取自“路漫漫其修遠(yuǎn)兮，吾將上下而求索”。

修宇亮在文中坦言：“我也是剛從學(xué)生身份切換過(guò)來(lái)，對(duì)博士生活的苦與樂(lè)感同身受，深知博士研究對(duì)于絕大多數(shù)人來(lái)講都是要扒一層皮的。作為導(dǎo)師，除了學(xué)術(shù)指導(dǎo)，也需要提供足夠的情緒價(jià)值，幫大家挺過(guò)那一個(gè)個(gè)捶胸頓足的夜晚，守得云開(kāi)見(jiàn)月明。”

從本科到博士，修宇亮從山東大學(xué)的數(shù)字傳媒技術(shù)專業(yè)起步，求學(xué)近十年，成為數(shù)字人領(lǐng)域的資深研究者。

修宇亮是一個(gè)地道的山東人，2016年，從山東大學(xué)本科畢業(yè)后，修宇亮走出山東，奔赴上海求學(xué)。2019年，修宇亮從上海交通大學(xué)獲得計(jì)算機(jī)碩士學(xué)位。

此后，他又遠(yuǎn)赴美國(guó)南加州大學(xué) (USC) 和德國(guó)馬普所 (MPI-IS)求學(xué)。獲得馬克斯·普朗克智能系統(tǒng)研究所（MPI-IS）感知系統(tǒng)專業(yè)博士學(xué)位。

修宇亮在視覺(jué)/圖形學(xué)/機(jī)器學(xué)習(xí)頂刊頂會(huì) TOG、SIGGRAPH、TPAMI、CVPR、ICCV、NeurIPS、ICLR 等發(fā)表論文 20余篇，谷歌學(xué)術(shù)引用 2800 余次，主導(dǎo)開(kāi)源項(xiàng)目獲 Github星標(biāo) 13000 余次。

修宇亮研究方向圍繞數(shù)字人、三維視覺(jué)、圖形學(xué)與虛擬現(xiàn)實(shí)等方向。2022年，修宇亮團(tuán)隊(duì)發(fā)表《ICON: Implicit Clothed humans Obtained from Normals》（以下簡(jiǎn)稱《ICON》）論文，顯著提高了單張圖像重建三維數(shù)字人的姿勢(shì)水平。

ICON 的任務(wù)是給一張彩色圖片，將二維紙片人，還原成擁有豐富幾何細(xì)節(jié)的三維數(shù)字人。在此之前，圍繞這一目標(biāo)，已經(jīng)有一些研究，但始終沒(méi)有很好解決速度慢和姿勢(shì)魯棒性差兩大難題。

修宇亮團(tuán)隊(duì)在 CVPR 發(fā)表的《ICON》論文為兩大難題提供了一個(gè)基礎(chǔ)的破局方案。ICON 在思路上借鑒了很多相關(guān)工作，包括 PIFuHD 里面的法向圖（Normal Image）， PaMIR 用 SMPL body 做幾何空間約束。SMPL body 提供了一個(gè)粗糙的人體幾何，而法向圖則包含了豐富的衣服褶皺細(xì)節(jié)。

大體上，ICON的思路是：SMPL 輔助 normal 預(yù)測(cè)；normal 幫助優(yōu)化 SMPL；舍棄 global encoder。

ICON簡(jiǎn)化了3D虛擬人的創(chuàng)建過(guò)程，不再需要大量藝術(shù)家的工作和昂貴的掃描設(shè)備。只需一到幾張圖片，就能生成3D穿著化身，這為混合現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用開(kāi)辟了新的道路，使得用戶能夠更便捷地自定義和操控自己的虛擬形象。

ICON只是修宇亮研究的一個(gè)起點(diǎn)。修宇亮團(tuán)隊(duì)在之后進(jìn)一步發(fā)表了《ECON: Explicit Clothed humans Optimized via Normal integration》，ECON解決了以往方法在重建寬松衣物或復(fù)雜姿態(tài)人體時(shí)易出現(xiàn)形狀畸變、拓?fù)淙毕莸葐?wèn)題。

實(shí)驗(yàn)室出發(fā)，決心做“會(huì)格斗的數(shù)字人”

一位高中生看到修宇亮在平臺(tái)發(fā)表的西湖大學(xué)招生貼（《【英雄帖】西湖大學(xué)遠(yuǎn)兮實(shí)驗(yàn)室招生》）后，在面試西湖大學(xué)的本科時(shí)表示，“研究會(huì)格斗的數(shù)字人，聽(tīng)起來(lái)就很有趣。”

在西湖大學(xué)個(gè)人主頁(yè)，修宇亮寫(xiě)道，“較長(zhǎng)期的，我們將嘗試把人工智能技術(shù)應(yīng)用于武術(shù)格斗領(lǐng)域。”

修宇亮認(rèn)為，格斗，是人類掌握的最復(fù)雜的交互動(dòng)作之一，在相同的肌肉強(qiáng)度和裝備下，戰(zhàn)力即智力。對(duì)武術(shù)機(jī)理的研究，將有助于我們更好地理解人體結(jié)構(gòu)，研究生物力學(xué)（Biomechanics），這對(duì)運(yùn)動(dòng)分析和醫(yī)療保健具有潛在的產(chǎn)業(yè)價(jià)值。

此前，修宇亮的代表成果 ICON 和 ECON 系列已經(jīng)被《紐約時(shí)報(bào)》應(yīng)用于2022 年世界杯和 2023 年超級(jí)碗的賽事報(bào)道中，輔助精彩進(jìn)球回放和戰(zhàn)術(shù)分析。

數(shù)字人研究課題可大致劃分為 “靜態(tài)” 與 “動(dòng)態(tài)” 兩大方向。其中，靜態(tài)方向核心聚焦人的外表（如服裝、頭發(fā)、人臉等），目標(biāo)是實(shí)現(xiàn) “栩栩如生” 的視覺(jué)效果；動(dòng)態(tài)方向則側(cè)重研究人的動(dòng)作（如手部操作、全身運(yùn)動(dòng)）及與環(huán)境物體的交互，目標(biāo)是達(dá)成 “活靈活現(xiàn)” 的動(dòng)態(tài)表現(xiàn)。

12 月 13 日上午 10:30-11:00 的世界模型分論壇上，修宇亮將帶來(lái)遠(yuǎn)兮實(shí)驗(yàn)室的最新研究成果，從靜態(tài)走向動(dòng)態(tài)，探索人與環(huán)境交互的可能性。

具體而言，修宇亮主要分享三項(xiàng)成果：一是，基于 “臟數(shù)據(jù)” 的個(gè)性化建模（UP2You）；二是，從三維著裝人物中精準(zhǔn)解析人體參數(shù)（ETCH）；三是，從海量互聯(lián)網(wǎng)視頻中實(shí)時(shí)、一步到位地完成人物動(dòng)作捕捉與三維環(huán)境重建（Human3R），該成果亦是探索人與環(huán)境交互、乃至構(gòu)建立體世界觀的關(guān)鍵基礎(chǔ)。

讓我們共同期待修宇亮12月13日帶來(lái)數(shù)字人領(lǐng)域的精彩分享。

12月13日上午，GAIR 2025 世界模型專場(chǎng)，眾多嘉賓將圍繞“走向可交互的 3D AI 世界模型”主題展開(kāi)精彩分享，敬請(qǐng)關(guān)注。

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.