終于開始了。
文/修理
昨日,AilingZeng在X上公布了LPM 1.0,一個基于視頻的角色表演模型,能夠?qū)崟r說話、唱歌、傾聽、反應(yīng)和做表情。
根據(jù)信息顯示,LPM 1.0是面向單人全雙工音視頻對話的角色表演大模型,針對現(xiàn)有視頻生成模型難以兼顧高表現(xiàn)力、實(shí)時推理、長時身份穩(wěn)定性等挑戰(zhàn)研發(fā)。
團(tuán)隊(duì)構(gòu)建了以人為中心多模態(tài)數(shù)據(jù)集,訓(xùn)練17B參數(shù)的Base LPM并將其蒸餾為低延遲流式的Online LPM,實(shí)現(xiàn)實(shí)時視頻生成、無限時長身份一致生成與細(xì)膩擬人化表演。
同時打造出首個交互角色表演基準(zhǔn)LPM-Bench,在各項(xiàng)評估中取得SOTA結(jié)果,可作為對話代理、直播角色、游戲NPC的通用視覺引擎。
![]()
根據(jù)其個人主頁信息,AilingZeng隸屬于Anuttacon技術(shù)團(tuán)隊(duì)——就是蔡浩宇創(chuàng)辦的那個AI公司。她此前曾在騰訊混元團(tuán)隊(duì)與AI Lab實(shí)驗(yàn)室從事模型相關(guān)研究工作。
![]()
該模型的技術(shù)論文一共由24位研究人員參與,內(nèi)容很多,有興趣的朋友可以自行搜索查看。葡萄君也不懂技術(shù),這里就簡單展示一下,這個模型可以具體做什么事情吧。
首先,LPM 1.0為多模態(tài)輸入,你可通過1張圖片+參考圖片(可選)+ 說話/聽/靜音音頻+文本的方式,來生成一段角色表演。這個表演視頻可用于角色對話、角色直播和游戲NPC的視覺呈現(xiàn)。
通過下段視頻你可以看到,該模型在角色的言語、節(jié)奏、目光,以及猶豫、思考等微表情方面上,有著相當(dāng)多的真實(shí)細(xì)節(jié)。
![]()
LPM 1.0采用了多維度的角色身份穩(wěn)定要素:全局外觀參考、多視角身體圖像與面部表情參考素材。以此來規(guī)避模型對牙齒、表情紋路、側(cè)臉輪廓、未顯露的身體形態(tài)等未知細(xì)節(jié)進(jìn)行錯誤生成的問題,以實(shí)現(xiàn)角色身份的精準(zhǔn)保持。
![]()
![]()
同時該模型也支持不同角色風(fēng)格作為輸入:寫實(shí)、2D動漫、3D游戲和非類人生物等等,無需任何微調(diào)或領(lǐng)域特定訓(xùn)練。
![]()
![]()
并且LPM 1.0是支持實(shí)時互動的。根據(jù)官網(wǎng)的說法,該模型能在無限的交互時長下保持穩(wěn)定、身份一致的生成,并會有回應(yīng)前的停頓、身體節(jié)奏、目光轉(zhuǎn)移等細(xì)節(jié)。
這種對話支持全雙工(Full-duplex):就像真實(shí)的打電話或面對面聊天。雙方可以同時說話、傾聽,互相隨時打斷,直接反饋。
![]()
該GIF取自一段45分鐘的演示對話,基于Online LPM 480P型號生成
另外,在非對話場景中,角色獨(dú)處于某個環(huán)境時,也會有著真實(shí)的呼吸節(jié)奏、自然的表演與準(zhǔn)確的情感表達(dá)。
![]()
在Anuttacon團(tuán)隊(duì)看來,LPM 1.0主要優(yōu)勢在于:視覺忠實(shí)度、精準(zhǔn)口型、身份保護(hù)以及自然感,包括支持任意長度的內(nèi)容生成。(Kling-Avatar 2.0和OmniHuman 1.5最多限制為30秒)
![]()
所以LPM 1.0可能適用于以下情形:AI對話、游戲NPC互動、虛擬直播、教育輔導(dǎo)、游戲伴侶等等。長直播視頻生成。
![]()
不過值得注意的是,Anuttacon團(tuán)隊(duì)現(xiàn)在沒有計(jì)劃向公眾發(fā)布模型權(quán)重、源代碼、在線演示、API、產(chǎn)品或任何相關(guān)產(chǎn)品。
本次公開僅用于展示LPM 1.0當(dāng)前的研究進(jìn)展,供學(xué)術(shù)交流使用。該模型不會開源或?qū)ν忾_放。
![]()
所以葡萄君認(rèn)為,本次LPM 1.0對外披露的核心目的仍是招聘。之前不少相關(guān)人士都曾表示,蔡浩宇正在全力押注AI領(lǐng)域,且相關(guān)團(tuán)隊(duì)仍存在大量AI人才招聘缺口。而LPM大概率也不是Anuttacon唯一的技術(shù)探索方向,可以推測,他們未來很有可能還會推出更多的大模型。
看到這里,你大概就會發(fā)現(xiàn),在一眾游戲創(chuàng)始人中,蔡浩宇對AI的重視程度可能是最明顯的,會親自下場,在一線All in。
而不管是米哈游還是Anuttacon、Hoyoverse,他們近年來在AI領(lǐng)域的種種布局,其實(shí)已經(jīng)開始形成一條有跡可循的技術(shù)探索路線。
比如說Anuttacon成立之初就表示要打造一款A(yù)I原生的游戲引擎級平臺,開發(fā)者僅需輸入前提條件,即可一鍵生成可自由交互的智能NPC,并以此快速搭建完整游戲世界。
而從最開始試驗(yàn)性質(zhì)的AI游戲《Whispers from the Star》,再到后來的AI聊天產(chǎn)品AnuNeko,再到如今的LPM 1.0,這個技術(shù)的進(jìn)化進(jìn)度肉眼可見。
![]()
![]()
AnuNeko
包括米哈游或者Anuttacon近年來在各個AI領(lǐng)域的動作,看似分散,但現(xiàn)在也逐漸能串聯(lián)起來了:
《崩壞:星穹鐵道》團(tuán)隊(duì)早在2023年就已開始嘗試將AI工具應(yīng)用到角色行為管理、3D建模調(diào)優(yōu)、NPC臺詞等多個方面,并希望未來打造“對話永不重復(fù)的智能NPC”。
米哈游還在2025年發(fā)布了崩壞IP項(xiàng)目組AI專項(xiàng)招募計(jì)劃。該計(jì)劃面向AI人才,核心目的包括“AI驅(qū)動提效”(將AI應(yīng)用到游戲開發(fā)全流程)和“AI驅(qū)動創(chuàng)新”(通過AI帶來新的游戲體驗(yàn))。項(xiàng)目組已搭建AI Agent平臺Echo和多個游戲開發(fā)管線應(yīng)用。
前陣子,米哈游三位創(chuàng)始人蔡浩宇、劉偉、羅宇皓還通過劉偉代表,向上海交通大學(xué)捐款助力“AI未來基石基金”。不難猜想,這也是為后續(xù)的AI人才輸送鋪路。
而虛擬角色鹿鳴,米哈游與Hoyoverse聯(lián)合開發(fā)的《雨之城》(Varsapura),則都有可能作為AI技術(shù)的探索載體。
事實(shí)上,在米哈游生活模擬新作《星布谷地》的首次測試?yán)铮呀?jīng)推出了可支持玩家自由文字對話的AI NPC。
![]()
正如游戲葡萄此前的,每當(dāng)談及終極愿景時,蔡浩宇始終堅(jiān)定會地認(rèn)為,未來生成式的語言模型能跟游戲結(jié)合,做出非常酷的產(chǎn)品。
于他而言,虛擬世界是貫穿始終的燈塔。童年時對“被窩里的小電視”的幻想,因智能手機(jī)成為現(xiàn)實(shí);而如今看不清終點(diǎn)的虛擬世界賽道,所有的AI技術(shù)布局、產(chǎn)品試驗(yàn)與底層探索,都是他一步步靠近這個終極目標(biāo)的必經(jīng)之路。
游戲葡萄招聘商務(wù)經(jīng)理,
| |
| |
游戲行業(yè)書籍推薦: 葡萄書房
(星標(biāo)可第一時間收到推送和完整封面)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.