![]()
修宇亮將在GAIR大會(huì)上帶來(lái)三項(xiàng)數(shù)字人領(lǐng)域的最新研究成果。
作者丨代聰飛
編輯丨馬曉寧
![]()
2025年 12 月 12-13 日,由 GAIR 研究院與雷峰網(wǎng)聯(lián)合主辦的「第八屆 GAIR 全球人工智能與機(jī)器人大會(huì)」,將在深圳南山·博林天瑞喜來(lái)登酒店舉辦。
今年大會(huì),將開(kāi)設(shè)三個(gè)主題論壇,聚焦大模型、算力變革、世界模型等多個(gè)議題,描繪 AI 最前沿的探索群像,折射學(xué)界與產(chǎn)業(yè)界共建的智能未來(lái)。
西湖大學(xué)助理教授、遠(yuǎn)兮實(shí)驗(yàn)室負(fù)責(zé)人修宇亮也將蒞臨 12 月 13 日《世界模型》論壇,帶來(lái)《走出蠟像館,交互新世界:開(kāi)拓三維數(shù)字人研究新疆域》的主題演講。
當(dāng) AI 生成技術(shù)重塑內(nèi)容創(chuàng)作生態(tài),數(shù)字人已從影視特效場(chǎng)景走向直播、運(yùn)動(dòng)、教育等領(lǐng)域,但多數(shù)模型仍存在不同的問(wèn)題,或是姿勢(shì)僵硬難以動(dòng)彈,或是動(dòng)作變形丟失細(xì)節(jié)。
12月13日,西湖大學(xué)助理教授、遠(yuǎn)兮實(shí)驗(yàn)室負(fù)責(zé)人修宇亮將帶來(lái)數(shù)字人研究領(lǐng)域的最新成果分享。
修宇亮一直致力于數(shù)字人方面的研究,從《ICON》破局三維數(shù)字人姿態(tài)重建方法的不足,到如今深入到數(shù)字人的交互模式。
2025年,修宇亮加入西湖大學(xué),擔(dān)任遠(yuǎn)兮實(shí)驗(yàn)室負(fù)責(zé)人。
01
打破常規(guī),90后西湖大學(xué)博導(dǎo)獲超高人氣
西湖大學(xué)一貫以博導(dǎo)姓名命名實(shí)驗(yàn)室,但修宇亮加入后,一改慣例,選擇用“遠(yuǎn)兮”為他的實(shí)驗(yàn)室命名。
修宇亮是西湖大學(xué)最年輕的博導(dǎo)之一,1993年出生的他加入西湖大學(xué)后,很快展示出極高的人氣。他在知乎上發(fā)的《【英雄帖】西湖大學(xué)遠(yuǎn)兮實(shí)驗(yàn)室招生》收獲了1000+的贊同,700+的收藏。
在文章中,修宇亮對(duì)“遠(yuǎn)兮”的來(lái)源這樣解釋,“遠(yuǎn)兮實(shí)驗(yàn)室”這個(gè)名字,取自“路漫漫其修遠(yuǎn)兮,吾將上下而求索”。
修宇亮在文中坦言:“我也是剛從學(xué)生身份切換過(guò)來(lái),對(duì)博士生活的苦與樂(lè)感同身受,深知博士研究對(duì)于絕大多數(shù)人來(lái)講都是要扒一層皮的。作為導(dǎo)師,除了學(xué)術(shù)指導(dǎo),也需要提供足夠的情緒價(jià)值,幫大家挺過(guò)那一個(gè)個(gè)捶胸頓足的夜晚,守得云開(kāi)見(jiàn)月明。”
從本科到博士,修宇亮從山東大學(xué)的數(shù)字傳媒技術(shù)專業(yè)起步,求學(xué)近十年,成為數(shù)字人領(lǐng)域的資深研究者。
修宇亮是一個(gè)地道的山東人,2016年,從山東大學(xué)本科畢業(yè)后,修宇亮走出山東, 奔赴上海求學(xué)。2019年,修宇亮從上海交通大學(xué)獲得計(jì)算機(jī)碩士學(xué)位。
此后,他又遠(yuǎn)赴美國(guó)南加州大學(xué) (USC) 和德國(guó)馬普所 (MPI-IS)求學(xué)。獲得馬克斯·普朗克智能系統(tǒng)研究所(MPI-IS)感知系統(tǒng)專業(yè)博士學(xué)位 。
修宇亮在視覺(jué)/圖形學(xué)/機(jī)器學(xué)習(xí)頂刊頂會(huì) TOG、SIGGRAPH、TPAMI、CVPR、ICCV、NeurIPS、ICLR 等發(fā)表論文 20余篇,谷歌學(xué)術(shù)引用 2800 余次,主導(dǎo)開(kāi)源項(xiàng)目獲 Github星標(biāo) 13000 余次。
修宇亮研究方向圍繞數(shù)字人、三維視覺(jué)、圖形學(xué)與虛擬現(xiàn)實(shí)等方向。2022年,修宇亮團(tuán)隊(duì)發(fā)表《ICON: Implicit Clothed humans Obtained from Normals》(以下簡(jiǎn)稱《ICON》)論文,顯著提高了單張圖像重建三維數(shù)字人的姿勢(shì)水平。
ICON 的任務(wù)是給一張彩色圖片,將二維紙片人,還原成擁有豐富幾何細(xì)節(jié)的三維數(shù)字人。在此之前,圍繞這一目標(biāo),已經(jīng)有一些研究,但始終沒(méi)有很好解決速度慢和姿勢(shì)魯棒性差兩大難題。
修宇亮團(tuán)隊(duì)在 CVPR 發(fā)表的《ICON》論文為兩大難題提供了一個(gè)基礎(chǔ)的破局方案。ICON 在思路上借鑒了很多相關(guān)工作,包括 PIFuHD 里面的法向圖(Normal Image), PaMIR 用 SMPL body 做幾何空間約束。SMPL body 提供了一個(gè)粗糙的人體幾何,而法向圖則包含了豐富的衣服褶皺細(xì)節(jié)。
大體上,ICON的思路是:SMPL 輔助 normal 預(yù)測(cè);normal 幫助優(yōu)化 SMPL;舍棄 global encoder。
ICON簡(jiǎn)化了3D虛擬人的創(chuàng)建過(guò)程,不再需要大量藝術(shù)家的工作和昂貴的掃描設(shè)備。只需一到幾張圖片,就能生成3D穿著化身,這為混合現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用開(kāi)辟了新的道路,使得用戶能夠更便捷地自定義和操控自己的虛擬形象。
ICON只是修宇亮研究的一個(gè)起點(diǎn)。修宇亮團(tuán)隊(duì)在之后進(jìn)一步發(fā)表了《ECON: Explicit Clothed humans Optimized via Normal integration》,ECON解決了以往方法在重建寬松衣物或復(fù)雜姿態(tài)人體時(shí)易出現(xiàn)形狀畸變、拓?fù)淙毕莸葐?wèn)題。
02
實(shí)驗(yàn)室出發(fā),決心做“會(huì)格斗的數(shù)字人”
一位高中生看到修宇亮在平臺(tái)發(fā)表的西湖大學(xué)招生貼(《【英雄帖】西湖大學(xué)遠(yuǎn)兮實(shí)驗(yàn)室招生》)后,在面試西湖大學(xué)的本科時(shí)表示,“研究會(huì)格斗的數(shù)字人,聽(tīng)起來(lái)就很有趣。”
在西湖大學(xué)個(gè)人主頁(yè),修宇亮寫(xiě)道,“較長(zhǎng)期的,我們將嘗試把人工智能技術(shù)應(yīng)用于武術(shù)格斗領(lǐng)域。”
修宇亮認(rèn)為,格斗,是人類掌握的最復(fù)雜的交互動(dòng)作之一,在相同的肌肉強(qiáng)度和裝備下,戰(zhàn)力即智力。對(duì)武術(shù)機(jī)理的研究,將有助于我們更好地理解人體結(jié)構(gòu),研究生物力學(xué)(Biomechanics),這對(duì)運(yùn)動(dòng)分析和醫(yī)療保健具有潛在的產(chǎn)業(yè)價(jià)值。
此前,修宇亮的代表成果 ICON 和 ECON 系列已經(jīng)被《紐約時(shí)報(bào)》應(yīng)用于2022 年世界杯和 2023 年超級(jí)碗的賽事報(bào)道中,輔助精彩進(jìn)球回放和戰(zhàn)術(shù)分析。
數(shù)字人研究課題可大致劃分為 “靜態(tài)” 與 “動(dòng)態(tài)” 兩大方向。其中,靜態(tài)方向核心聚焦人的外表(如服裝、頭發(fā)、人臉等),目標(biāo)是實(shí)現(xiàn) “栩栩如生” 的視覺(jué)效果;動(dòng)態(tài)方向則側(cè)重研究人的動(dòng)作(如手部操作、全身運(yùn)動(dòng))及與環(huán)境物體的交互,目標(biāo)是達(dá)成 “活靈活現(xiàn)” 的動(dòng)態(tài)表現(xiàn)。
12 月 13 日上午 10:30-11:00 的世界模型分論壇上,修宇亮將帶來(lái)遠(yuǎn)兮實(shí)驗(yàn)室的最新研究成果,從靜態(tài)走向動(dòng)態(tài),探索人與環(huán)境交互的可能性。
具體而言,修宇亮主要分享三項(xiàng)成果:一是,基于 “臟數(shù)據(jù)” 的個(gè)性化建模(UP2You);二是,從三維著裝人物中精準(zhǔn)解析人體參數(shù)(ETCH);三是,從海量互聯(lián)網(wǎng)視頻中實(shí)時(shí)、一步到位地完成人物動(dòng)作捕捉與三維環(huán)境重建(Human3R),該成果亦是探索人與環(huán)境交互、乃至構(gòu)建立體世界觀的關(guān)鍵基礎(chǔ)。
讓我們共同期待修宇亮12月13日帶來(lái)數(shù)字人領(lǐng)域的精彩分享。
12月13日上午,GAIR 2025 世界模型專場(chǎng),眾多嘉賓將圍繞“走向可交互的 3D AI 世界模型”主題展開(kāi)精彩分享,敬請(qǐng)關(guān)注。
![]()
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.