新腕兒漫劇大會(huì)報(bào)道
新腕兒漫劇大會(huì)結(jié)束后,近期將陸續(xù)發(fā)布嘉賓們的演講內(nèi)容。
3月20日,在新腕兒漫劇大會(huì)上,阿里云AI解決方案專家潘奕如上臺(tái)分享關(guān)于《為創(chuàng)意加速,阿里云短漫劇行業(yè)的解決方案分享》的主題演講。
![]()
以下為演講全文:
大家好,我今天分享的主題是《為創(chuàng)意加速,阿里云短漫劇行業(yè)的解決方案分享》,內(nèi)容是比較偏干貨,主要給大家講一下阿里模型的基本情況,還有我們新模型的預(yù)告。
![]()
首先講一下我們?nèi)f相視覺(jué)模型生成的能力,第二部分會(huì)講到短漫劇行業(yè)的一個(gè)最佳實(shí)踐,第三部分主要講我們?cè)诙搪⌒袠I(yè)的生態(tài)資源。
![]()
先看一下我們整個(gè)產(chǎn)品大圖。我們基座模型第一部分做的原生多模態(tài),支持文本、語(yǔ)音、圖像、視頻等多模態(tài)數(shù)據(jù)輸入、輸出;第二部分中,是我們整個(gè)模型基本迭代,能力持續(xù)進(jìn)步。通過(guò)文本、音頻、視頻多模態(tài)數(shù)據(jù)對(duì)齊的聯(lián)合訓(xùn)練,強(qiáng)化學(xué)習(xí)提升畫面生成質(zhì)感、視頻動(dòng)態(tài)和指令遵循的能力。第三個(gè)就是視頻生成部分,每次都會(huì)迭代、生成領(lǐng)域,還有編輯領(lǐng)域的迭代。
在生成領(lǐng)域,我們主要是為了遵循優(yōu)化程度、美學(xué)質(zhì)感、物理規(guī)律,保持人物的一致性,包括對(duì)整體畫面元素的精準(zhǔn)控制及局部編輯。
除了視頻生成模型,我們也可以迭代生圖模型,我稍后會(huì)對(duì)新模型做詳細(xì)介紹。
上面的第二層在各行各業(yè)都可以看到萬(wàn)相模型的身影,尤其在2025年,我們?cè)诙搪⌒袠I(yè)有了很多的頭部客戶,包括內(nèi)容、消費(fèi)電子、社交等領(lǐng)域,我們都有標(biāo)桿客戶。
![]()
視頻生成的2.6版本,就是原生多模態(tài)模型,偏向?qū)I(yè)創(chuàng)作者本身升級(jí)。分為三部分,我們主要是支持15秒時(shí)長(zhǎng),還有參考角色生視頻做了創(chuàng)新。
![]()
圖像生成方面,我們有通用的文生圖、圖生圖、圖像編輯,主要是像復(fù)雜的圖文排版、構(gòu)圖創(chuàng)意這類商用生圖,都用到我們的圖像模型。
有了這個(gè)后,我們省去了后期配音的過(guò)程,我們直接上傳人物的視頻,參考人物形象、聲音,所以我們整體加速了漫劇生成的流程。
下面就是我們的一些模型功能,一個(gè)是多鏡頭智能調(diào)度,可以看到通過(guò)分鏡1、分鏡2提示詞這樣的描述。
這個(gè)就是我們通過(guò)這個(gè)描述做的一個(gè)多鏡頭的效果。這個(gè)是我們用智能分鏡的功能,就相當(dāng)于我們的模型有一個(gè)參數(shù)可以控制是否開(kāi)啟智能分鏡,開(kāi)啟后即使對(duì)于小白用戶不會(huì)寫專業(yè)的分鏡提示詞,也能夠生成連貫的多鏡頭視頻。
![]()
像這種智能多鏡和多人對(duì)話的場(chǎng)景,在15秒的時(shí)長(zhǎng)下,對(duì)于人物一致性和多人的口型、人臉一致性保持要求比較高,而我們?cè)谶@個(gè)場(chǎng)景中受到各種用戶的認(rèn)可。
這個(gè)主要是給大家看一下我們?cè)谝恍〢SMR音效。因?yàn)楝F(xiàn)在這種視頻模型的主流發(fā)展是音畫同步的,除了這種人物的聲音BGM、還有這種ASMR,比如說(shuō)做這種電商帶貨視頻,還有做這種音效生成,我們的聲音特質(zhì)非常逼真。
![]()
這個(gè)我們千問(wèn)Image 2.0的預(yù)告,在過(guò)年前發(fā)布的模型,這個(gè)模型其實(shí)主要是幾個(gè)特點(diǎn):
一個(gè)是更專業(yè)的文字渲染能力,大家有一種體感是,國(guó)外的生圖模型如Nano Banana在中文文字的渲染方面不足,但是國(guó)內(nèi)的這些模型中,其實(shí)我們?cè)诟鼘I(yè)的中文文字渲染中,包括商用PPT、海報(bào)、復(fù)雜流程圖,現(xiàn)在都有了更強(qiáng)的能力。
第二是我們出圖分辨率是2K,之前差不多是720和1080P,現(xiàn)在直接就是用是商用高清2K分辨率。
第三是更強(qiáng)語(yǔ)義遵循能力,除了文生圖,圖生圖,圖像編輯,在一個(gè)模型就能做到。
![]()
我們優(yōu)化的模型架構(gòu)和推理加速,現(xiàn)在以更小的模型擁有更快的推理速度,出圖速度在10秒內(nèi)。
像做這種3D漫畫生圖,還有2D分鏡生圖,效果基本上在國(guó)內(nèi)生圖里是第一梯隊(duì)。像做真人劇的時(shí)候,這種生圖,人的肌膚紋理質(zhì)感、表情的細(xì)膩程度、光影都達(dá)到了商用。
![]()
下面是新模型預(yù)熱,我們迭代后會(huì)在這幾個(gè)指標(biāo)上加強(qiáng)。因?yàn)槲覀冇懈嗟亩嗄B(tài)數(shù)據(jù)和強(qiáng)化學(xué)習(xí)訓(xùn)練,在畫質(zhì)、聲音、動(dòng)態(tài)表現(xiàn),風(fēng)格化生成和一致性控制這些維度都大幅提升。
另外,模型的功能層面也有更強(qiáng)的能力,更適配短漫劇的創(chuàng)作流程,包括首尾幀生視頻,還有九宮格分鏡生視頻、還有主體與音色參考,視頻編輯支持對(duì)全局或局部元素的編輯,視頻復(fù)刻是時(shí)序特征遷移,支持參考視頻中動(dòng)作、特效、運(yùn)鏡、風(fēng)格的復(fù)刻。
![]()
對(duì)于整個(gè)漫劇創(chuàng)作來(lái)說(shuō),我們能力的提升意味著更高的可控性,還有更大的創(chuàng)作空間,能夠讓創(chuàng)作者做出更精彩的內(nèi)容。
下一步看一下短漫劇的實(shí)踐。其實(shí)這部分對(duì)于大部分漫劇公司來(lái)說(shuō),是很成熟的工作流。當(dāng)大家工作流都相同的情況下,如何能在工作流中生成更好的內(nèi)容?
用文本模型Qwen3-Max在整個(gè)小說(shuō)內(nèi)容中提取出角色、場(chǎng)景,并生成分鏡故事板,在這個(gè)環(huán)節(jié)中,我們通過(guò)強(qiáng)大的文本處理能力,將小說(shuō)分鏡的畫面描述、人物的對(duì)話,還有生圖的Prompt都結(jié)構(gòu)化生成,通過(guò)生成角色圖、場(chǎng)景圖作為資產(chǎn),再使用圖像編輯模型生成分鏡圖,使用好的圖像編輯模型能更好的把控整個(gè)分鏡環(huán)境質(zhì)感。最后在用圖生視頻,可以用到Wan2.2或者是2.6首幀生視頻、R2V,最后一步去做剪輯、合成和添加解說(shuō)。
整個(gè)工作流里,如果能每個(gè)環(huán)節(jié)用到SOTA模型,整個(gè)畫面內(nèi)容會(huì)有更好的體驗(yàn)。
![]()
下一個(gè)是我們「Wan2.6萬(wàn)物可主演:典型創(chuàng)作流程」,現(xiàn)在不光可以參考視頻生成結(jié)果,還可以多圖參考。傳統(tǒng)生成一個(gè)角色設(shè)定圖、道具設(shè)定圖、場(chǎng)景設(shè)定圖,三張圖生成一個(gè)分鏡片段,或者三個(gè)參考視頻,參考視頻維度會(huì)更加立體,把聲音一起作為參考。
![]()
這是一個(gè)「典型創(chuàng)作流程」,比如角色設(shè)定圖有兩個(gè)人物、道具加場(chǎng)景,用R2A后就能夠生成一個(gè)視頻。看了這么多漫劇行業(yè)客戶用AI后,現(xiàn)階段AI核心是劇本創(chuàng)作和漫劇制作,尤其劇本創(chuàng)作,是通過(guò)大量網(wǎng)文IP以文本模型進(jìn)行劇本改寫,包括劇本分鏡生成,到漫劇制作環(huán)節(jié),這個(gè)環(huán)節(jié)中的分鏡生成部分是最為重要的,且需要由分鏡師去觀察整個(gè)分鏡生成情況,效果不符合要求需要重新生成。
![]()
隨著模型能力提升,分鏡抽卡成功率越來(lái)越高,其實(shí)在后期剪輯部分,可以用到視頻編輯模型,比如動(dòng)作復(fù)刻、角色替換等。這樣的話,我們整個(gè)工作流每個(gè)環(huán)節(jié)都能夠去被AI賦能、提效,由原來(lái)只文本加視頻到現(xiàn)在有編輯模型后,整個(gè)鏈路都能夠讓AI賦能。
現(xiàn)在通過(guò)視頻模型,大概就是在各類平臺(tái)上,從最開(kāi)始的2D、3D漫劇到現(xiàn)在的解說(shuō)漫、真人短劇,我們現(xiàn)在又轉(zhuǎn)向AI仿真人劇。
![]()
下面是我們客戶在抖音平臺(tái)上一些AI仿真人短劇作品。
![]()
![]()
接下來(lái)給大家看下我們?cè)贏IGC創(chuàng)作領(lǐng)域米蘭冬奧會(huì)的效果,是我們找超創(chuàng)聯(lián)合米蘭冬奧會(huì)做的AIGP主題大會(huì):
![]()
收錄一些優(yōu)質(zhì)的超創(chuàng)作品,像過(guò)年的動(dòng)畫:
![]()
我們超創(chuàng)群體不僅是中國(guó)的創(chuàng)作者,Wan在美國(guó)硅谷也有很多超創(chuàng)群體喜歡我們的模型。可以看下國(guó)外創(chuàng)作者的作品:
![]()
這是我們?cè)?2月份Wan2.6首發(fā)時(shí),聯(lián)合海外超創(chuàng)群體一起做的首發(fā)視頻,現(xiàn)在新模型也快發(fā)布了,后面如果會(huì)場(chǎng)上有各位嘉賓對(duì)我們新模型感興趣的話,可以聯(lián)系我們商務(wù)同學(xué)參與新模型測(cè)試邀請(qǐng)。
另外就是我們短漫劇扶持活動(dòng),如果有漫劇承制方想拉IP資源,可以從書旗幫助到大家。平臺(tái)資源主要是優(yōu)酷漫劇、支付寶漫劇、淘寶漫劇,商務(wù)具體活動(dòng)可以跟商務(wù)同學(xué)對(duì)接。
![]()
我今天的演講就是給大家做一下新模型的預(yù)熱,讓大家對(duì)更強(qiáng)的視頻模型和創(chuàng)作領(lǐng)域有進(jìn)一步了解,如果對(duì)我們的Wan更感興趣,可以去體驗(yàn)一下新模型。謝謝大家!
![]()
了解短劇,請(qǐng)關(guān)注新腕兒。
加入新腕兒社群請(qǐng)掃碼。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.