網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

阿里云潘奕如：為創(chuàng)意加速，AI 重構(gòu)短漫劇全流程解決方案

2026-03-30 11:47:07　來(lái)源: 新腕兒

北京舉報(bào)

分享至

新腕兒漫劇大會(huì)報(bào)道

新腕兒漫劇大會(huì)結(jié)束后，近期將陸續(xù)發(fā)布嘉賓們的演講內(nèi)容。

3月20日，在新腕兒漫劇大會(huì)上，阿里云AI解決方案專家潘奕如上臺(tái)分享關(guān)于《為創(chuàng)意加速，阿里云短漫劇行業(yè)的解決方案分享》的主題演講。

以下為演講全文：

大家好，我今天分享的主題是《為創(chuàng)意加速，阿里云短漫劇行業(yè)的解決方案分享》，內(nèi)容是比較偏干貨，主要給大家講一下阿里模型的基本情況，還有我們新模型的預(yù)告。

首先講一下我們?nèi)f相視覺(jué)模型生成的能力，第二部分會(huì)講到短漫劇行業(yè)的一個(gè)最佳實(shí)踐，第三部分主要講我們?cè)诙搪⌒袠I(yè)的生態(tài)資源。

先看一下我們整個(gè)產(chǎn)品大圖。我們基座模型第一部分做的原生多模態(tài)，支持文本、語(yǔ)音、圖像、視頻等多模態(tài)數(shù)據(jù)輸入、輸出；第二部分中，是我們整個(gè)模型基本迭代，能力持續(xù)進(jìn)步。通過(guò)文本、音頻、視頻多模態(tài)數(shù)據(jù)對(duì)齊的聯(lián)合訓(xùn)練，強(qiáng)化學(xué)習(xí)提升畫面生成質(zhì)感、視頻動(dòng)態(tài)和指令遵循的能力。第三個(gè)就是視頻生成部分，每次都會(huì)迭代、生成領(lǐng)域，還有編輯領(lǐng)域的迭代。

在生成領(lǐng)域，我們主要是為了遵循優(yōu)化程度、美學(xué)質(zhì)感、物理規(guī)律，保持人物的一致性，包括對(duì)整體畫面元素的精準(zhǔn)控制及局部編輯。

除了視頻生成模型，我們也可以迭代生圖模型，我稍后會(huì)對(duì)新模型做詳細(xì)介紹。

上面的第二層在各行各業(yè)都可以看到萬(wàn)相模型的身影，尤其在2025年，我們?cè)诙搪⌒袠I(yè)有了很多的頭部客戶，包括內(nèi)容、消費(fèi)電子、社交等領(lǐng)域，我們都有標(biāo)桿客戶。

視頻生成的2.6版本，就是原生多模態(tài)模型，偏向?qū)I(yè)創(chuàng)作者本身升級(jí)。分為三部分，我們主要是支持15秒時(shí)長(zhǎng)，還有參考角色生視頻做了創(chuàng)新。

圖像生成方面，我們有通用的文生圖、圖生圖、圖像編輯，主要是像復(fù)雜的圖文排版、構(gòu)圖創(chuàng)意這類商用生圖，都用到我們的圖像模型。

有了這個(gè)后，我們省去了后期配音的過(guò)程，我們直接上傳人物的視頻，參考人物形象、聲音，所以我們整體加速了漫劇生成的流程。

下面就是我們的一些模型功能，一個(gè)是多鏡頭智能調(diào)度，可以看到通過(guò)分鏡1、分鏡2提示詞這樣的描述。

這個(gè)就是我們通過(guò)這個(gè)描述做的一個(gè)多鏡頭的效果。這個(gè)是我們用智能分鏡的功能，就相當(dāng)于我們的模型有一個(gè)參數(shù)可以控制是否開(kāi)啟智能分鏡，開(kāi)啟后即使對(duì)于小白用戶不會(huì)寫專業(yè)的分鏡提示詞，也能夠生成連貫的多鏡頭視頻。

像這種智能多鏡和多人對(duì)話的場(chǎng)景，在15秒的時(shí)長(zhǎng)下，對(duì)于人物一致性和多人的口型、人臉一致性保持要求比較高，而我們?cè)谶@個(gè)場(chǎng)景中受到各種用戶的認(rèn)可。

這個(gè)主要是給大家看一下我們?cè)谝恍〢SMR音效。因?yàn)楝F(xiàn)在這種視頻模型的主流發(fā)展是音畫同步的，除了這種人物的聲音BGM、還有這種ASMR，比如說(shuō)做這種電商帶貨視頻，還有做這種音效生成，我們的聲音特質(zhì)非常逼真。

這個(gè)我們千問(wèn)Image 2.0的預(yù)告，在過(guò)年前發(fā)布的模型，這個(gè)模型其實(shí)主要是幾個(gè)特點(diǎn)：

一個(gè)是更專業(yè)的文字渲染能力，大家有一種體感是，國(guó)外的生圖模型如Nano Banana在中文文字的渲染方面不足，但是國(guó)內(nèi)的這些模型中，其實(shí)我們?cè)诟鼘I(yè)的中文文字渲染中，包括商用PPT、海報(bào)、復(fù)雜流程圖，現(xiàn)在都有了更強(qiáng)的能力。

第二是我們出圖分辨率是2K，之前差不多是720和1080P，現(xiàn)在直接就是用是商用高清2K分辨率。

第三是更強(qiáng)語(yǔ)義遵循能力，除了文生圖，圖生圖，圖像編輯，在一個(gè)模型就能做到。

我們優(yōu)化的模型架構(gòu)和推理加速，現(xiàn)在以更小的模型擁有更快的推理速度，出圖速度在10秒內(nèi)。

像做這種3D漫畫生圖，還有2D分鏡生圖，效果基本上在國(guó)內(nèi)生圖里是第一梯隊(duì)。像做真人劇的時(shí)候，這種生圖，人的肌膚紋理質(zhì)感、表情的細(xì)膩程度、光影都達(dá)到了商用。

下面是新模型預(yù)熱，我們迭代后會(huì)在這幾個(gè)指標(biāo)上加強(qiáng)。因?yàn)槲覀冇懈嗟亩嗄B(tài)數(shù)據(jù)和強(qiáng)化學(xué)習(xí)訓(xùn)練，在畫質(zhì)、聲音、動(dòng)態(tài)表現(xiàn)，風(fēng)格化生成和一致性控制這些維度都大幅提升。

另外，模型的功能層面也有更強(qiáng)的能力，更適配短漫劇的創(chuàng)作流程，包括首尾幀生視頻，還有九宮格分鏡生視頻、還有主體與音色參考，視頻編輯支持對(duì)全局或局部元素的編輯，視頻復(fù)刻是時(shí)序特征遷移，支持參考視頻中動(dòng)作、特效、運(yùn)鏡、風(fēng)格的復(fù)刻。

對(duì)于整個(gè)漫劇創(chuàng)作來(lái)說(shuō)，我們能力的提升意味著更高的可控性，還有更大的創(chuàng)作空間，能夠讓創(chuàng)作者做出更精彩的內(nèi)容。

下一步看一下短漫劇的實(shí)踐。其實(shí)這部分對(duì)于大部分漫劇公司來(lái)說(shuō)，是很成熟的工作流。當(dāng)大家工作流都相同的情況下，如何能在工作流中生成更好的內(nèi)容？

用文本模型Qwen3-Max在整個(gè)小說(shuō)內(nèi)容中提取出角色、場(chǎng)景，并生成分鏡故事板，在這個(gè)環(huán)節(jié)中，我們通過(guò)強(qiáng)大的文本處理能力，將小說(shuō)分鏡的畫面描述、人物的對(duì)話，還有生圖的Prompt都結(jié)構(gòu)化生成，通過(guò)生成角色圖、場(chǎng)景圖作為資產(chǎn)，再使用圖像編輯模型生成分鏡圖，使用好的圖像編輯模型能更好的把控整個(gè)分鏡環(huán)境質(zhì)感。最后在用圖生視頻，可以用到Wan2.2或者是2.6首幀生視頻、R2V，最后一步去做剪輯、合成和添加解說(shuō)。

整個(gè)工作流里，如果能每個(gè)環(huán)節(jié)用到SOTA模型，整個(gè)畫面內(nèi)容會(huì)有更好的體驗(yàn)。

下一個(gè)是我們「Wan2.6萬(wàn)物可主演：典型創(chuàng)作流程」，現(xiàn)在不光可以參考視頻生成結(jié)果，還可以多圖參考。傳統(tǒng)生成一個(gè)角色設(shè)定圖、道具設(shè)定圖、場(chǎng)景設(shè)定圖，三張圖生成一個(gè)分鏡片段，或者三個(gè)參考視頻，參考視頻維度會(huì)更加立體，把聲音一起作為參考。

這是一個(gè)「典型創(chuàng)作流程」，比如角色設(shè)定圖有兩個(gè)人物、道具加場(chǎng)景，用R2A后就能夠生成一個(gè)視頻。看了這么多漫劇行業(yè)客戶用AI后，現(xiàn)階段AI核心是劇本創(chuàng)作和漫劇制作，尤其劇本創(chuàng)作，是通過(guò)大量網(wǎng)文IP以文本模型進(jìn)行劇本改寫，包括劇本分鏡生成，到漫劇制作環(huán)節(jié)，這個(gè)環(huán)節(jié)中的分鏡生成部分是最為重要的，且需要由分鏡師去觀察整個(gè)分鏡生成情況，效果不符合要求需要重新生成。

隨著模型能力提升，分鏡抽卡成功率越來(lái)越高，其實(shí)在后期剪輯部分，可以用到視頻編輯模型，比如動(dòng)作復(fù)刻、角色替換等。這樣的話，我們整個(gè)工作流每個(gè)環(huán)節(jié)都能夠去被AI賦能、提效，由原來(lái)只文本加視頻到現(xiàn)在有編輯模型后，整個(gè)鏈路都能夠讓AI賦能。

現(xiàn)在通過(guò)視頻模型，大概就是在各類平臺(tái)上，從最開(kāi)始的2D、3D漫劇到現(xiàn)在的解說(shuō)漫、真人短劇，我們現(xiàn)在又轉(zhuǎn)向AI仿真人劇。

下面是我們客戶在抖音平臺(tái)上一些AI仿真人短劇作品。

接下來(lái)給大家看下我們?cè)贏IGC創(chuàng)作領(lǐng)域米蘭冬奧會(huì)的效果，是我們找超創(chuàng)聯(lián)合米蘭冬奧會(huì)做的AIGP主題大會(huì)：

收錄一些優(yōu)質(zhì)的超創(chuàng)作品，像過(guò)年的動(dòng)畫：

我們超創(chuàng)群體不僅是中國(guó)的創(chuàng)作者，Wan在美國(guó)硅谷也有很多超創(chuàng)群體喜歡我們的模型。可以看下國(guó)外創(chuàng)作者的作品：

這是我們?cè)?2月份Wan2.6首發(fā)時(shí)，聯(lián)合海外超創(chuàng)群體一起做的首發(fā)視頻，現(xiàn)在新模型也快發(fā)布了，后面如果會(huì)場(chǎng)上有各位嘉賓對(duì)我們新模型感興趣的話，可以聯(lián)系我們商務(wù)同學(xué)參與新模型測(cè)試邀請(qǐng)。

另外就是我們短漫劇扶持活動(dòng)，如果有漫劇承制方想拉IP資源，可以從書旗幫助到大家。平臺(tái)資源主要是優(yōu)酷漫劇、支付寶漫劇、淘寶漫劇，商務(wù)具體活動(dòng)可以跟商務(wù)同學(xué)對(duì)接。

我今天的演講就是給大家做一下新模型的預(yù)熱，讓大家對(duì)更強(qiáng)的視頻模型和創(chuàng)作領(lǐng)域有進(jìn)一步了解，如果對(duì)我們的Wan更感興趣，可以去體驗(yàn)一下新模型。謝謝大家！

了解短劇，請(qǐng)關(guān)注新腕兒。

加入新腕兒社群請(qǐng)掃碼。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.