網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

《現(xiàn)代電影技術(shù)》｜賈云鵬等：創(chuàng)意影像生產(chǎn)中的可控視頻生成技術(shù)路徑及應(yīng)用研究

2026-04-30 10:54:58　來源: 電影技術(shù)微刊

北京舉報

分享至

本文刊發(fā)于《現(xiàn)代電影技術(shù)》2026年第4期

專家點評

王嵐君

研究員

天津大學(xué)新媒體與傳播學(xué)院教授、博士生導(dǎo)師

當(dāng)前，生成式視頻技術(shù)正經(jīng)歷從“能夠生成”到“可控生成”的關(guān)鍵躍遷。在這一進(jìn)程中，可控性是生成式人工智能技術(shù)能否真正進(jìn)入影視工業(yè)流程的關(guān)鍵門檻。缺乏可控性的生成結(jié)果本質(zhì)上仍是隨機采樣的產(chǎn)物，無法滿足導(dǎo)演對視覺風(fēng)格統(tǒng)一性、鏡頭語言精準(zhǔn)性和敘事節(jié)奏連貫性的專業(yè)要求。從技術(shù)演進(jìn)來看，可控視頻生成大致沿風(fēng)格控制、時序控制與空間控制三個方向展開，分別對應(yīng)影像創(chuàng)作中視覺美學(xué)、時間結(jié)構(gòu)與空間敘事的核心需求。其中，風(fēng)格遷移面臨時序穩(wěn)定性與內(nèi)容保真度的平衡難題，關(guān)鍵幀插值在劇烈語義跳變場景中仍易出現(xiàn)結(jié)構(gòu)扭曲，而相機運動引導(dǎo)則受制于三維一致性與遮擋推理的不足。未來，隨著大模型對空間結(jié)構(gòu)理解能力的增強以及生成流程與虛擬攝制、實時渲染引擎的進(jìn)一步打通，可控視頻生成有望從輔助工具演進(jìn)為創(chuàng)作合作者，催生融合算法邏輯與電影美學(xué)的新型影像語言。《創(chuàng)意影像生產(chǎn)中的可控視頻生成技術(shù)路徑及應(yīng)用研究》一文圍繞上述核心問題展開了系統(tǒng)性研究，對風(fēng)格遷移引導(dǎo)、關(guān)鍵幀引導(dǎo)與相機運動引導(dǎo)三條技術(shù)路徑的原理與前沿方法進(jìn)行了清晰梳理，并將各類技術(shù)路徑與《異人之下》《石頭剪刀布》《權(quán)利童話》等創(chuàng)作案例緊密結(jié)合，技術(shù)分析與創(chuàng)作實踐相互印證。同時，論文對當(dāng)前技術(shù)在多模態(tài)約束融合、三維一致性及長時序控制等方面的局限也作了客觀分析。綜上所述，本文兼具技術(shù)梳理的系統(tǒng)性與創(chuàng)作應(yīng)用的啟發(fā)性，對于理解和促進(jìn)生成式人工智能技術(shù)與電影語言和影像美學(xué)的融合創(chuàng)新具有較高的參考價值。

項目信息

北京市宣傳文化高層次人才培養(yǎng)資助項目“AIGC影像創(chuàng)意工作室”（京宣傳文化人才24-1）。

作者簡介

賈云鵬

教授，北京郵電大學(xué)數(shù)字媒體與設(shè)計藝術(shù)學(xué)院院長，主要研究方向：數(shù)字影像設(shè)計。

黃　慧

北京郵電大學(xué)數(shù)字媒體與設(shè)計藝術(shù)學(xué)院2023級碩士研究生，主要研究方向：數(shù)字媒體內(nèi)容設(shè)計。

摘要

本文圍繞創(chuàng)意影像生產(chǎn)中的可控生成問題，系統(tǒng)梳理了風(fēng)格遷移引導(dǎo)生成、關(guān)鍵幀引導(dǎo)生成與相機運動引導(dǎo)生成3類技術(shù)路徑的發(fā)展現(xiàn)狀。文章結(jié)合創(chuàng)意影像案例，分析上述技術(shù)路徑在藝術(shù)風(fēng)格塑造、復(fù)雜過渡構(gòu)建與敘事鏡頭調(diào)度中的具體應(yīng)用方式，并指出當(dāng)下仍存在多模態(tài)約束融合困難、三維一致性不足及長時序控制受限等問題。研究認(rèn)為，可控視頻生成正逐步成為連接生成式技術(shù)與電影語言的關(guān)鍵橋梁，將為未來數(shù)字影像的美學(xué)探索與創(chuàng)作生產(chǎn)流程帶來新的可能性。

關(guān)鍵詞

可控視頻生成；創(chuàng)意影像生產(chǎn)；生成式人工智能（GAI）；擴(kuò)散模型

引言

創(chuàng)意影像是一種藝術(shù)表現(xiàn)形式，其通過創(chuàng)新的思維和獨特的表現(xiàn)手法，結(jié)合現(xiàn)代技術(shù)手段，突破傳統(tǒng)影像創(chuàng)作的界限，以表達(dá)創(chuàng)作者的思想、情感和觀點。影像的發(fā)展史始終是技術(shù)與藝術(shù)交織的過程，每一次技術(shù)革新都會促使影像語言產(chǎn)生新形態(tài)，從攝影、動畫到數(shù)字影像，再到虛擬現(xiàn)實（VR）、增強現(xiàn)實（AR）等沉浸式媒介，都在不斷推動創(chuàng)意影像的表達(dá)邊界。隨著生成式人工智能（GAI）的崛起，視頻生成技術(shù)正成為推動影像創(chuàng)作方式變化的新動力，使影像從可記錄、可編輯進(jìn)一步走向可生成、可操控。

然而，當(dāng)下主流視頻生成模型雖已具備高質(zhì)量生成能力，但其輸出往往受限于模型自身的隨機性，在視覺風(fēng)格保持、時間連續(xù)性和鏡頭語言的可控性方面仍難以滿足影視創(chuàng)作的專業(yè)需求。生成式人工智能技術(shù)若要真正進(jìn)入電影、廣告、實驗影像等創(chuàng)作場景，必須從“能夠生成”邁向“可控生成”。基于這一現(xiàn)實需求，本文以創(chuàng)意影像生產(chǎn)為背景，聚焦視頻生成領(lǐng)域中3類關(guān)鍵的可控生成路徑即風(fēng)格遷移引導(dǎo)、關(guān)鍵幀引導(dǎo)與相機運動引導(dǎo)，系統(tǒng)梳理其技術(shù)原理、發(fā)展趨勢與在電影及相關(guān)影像創(chuàng)作中的創(chuàng)新應(yīng)用。本研究旨在闡明可控視頻生成在創(chuàng)作實踐中的作用機制，探討其在擴(kuò)展影像表現(xiàn)形式、增強敘事表達(dá)能力以及推動技術(shù)與創(chuàng)意融合方面的潛力，為未來GAI技術(shù)在影視創(chuàng)作領(lǐng)域的應(yīng)用提供理論基礎(chǔ)與實踐參考。

視頻生成技術(shù)發(fā)展

近年來，視頻生成技術(shù)經(jīng)歷了快速而深刻的演進(jìn)，其發(fā)展路徑大體可從3類關(guān)鍵模型體系梳理：以生成式對抗網(wǎng)絡(luò)（GAN）[1]和變分自編碼器（VAE）[2]為代表的早期階段，以擴(kuò)散模型（Diffusion Model）為突破口的中期階段，以及由Transformer結(jié)構(gòu)主導(dǎo)的擴(kuò)散變換器（Diffusion Transformer, DiT）時代。2021年前，GAN憑借生成器與判別器的對抗訓(xùn)練機制，推動了早期低分辨率視頻生成的發(fā)展，但其訓(xùn)練不穩(wěn)定、模式崩潰等問題始終難以完全克服。擴(kuò)散模型的出現(xiàn)標(biāo)志著生成建模的一次關(guān)鍵躍遷，其通過正向加噪和反向去噪的雙過程機制，在生成質(zhì)量、細(xì)節(jié)保真度和訓(xùn)練穩(wěn)定性方面優(yōu)于GAN，使視頻生成具備了穩(wěn)定、高質(zhì)量、可擴(kuò)展的基礎(chǔ)[3]。

隨著模型規(guī)模和算力的進(jìn)一步提升，擴(kuò)散模型逐漸與Transformer架構(gòu)深度融合，形成目前最常見的DiT[4—6]體系。與傳統(tǒng)的U型網(wǎng)絡(luò)（U?Net）不同，DiT以自注意力機制為核心，能在統(tǒng)一的時空表征中捕捉更長序列的時間依賴，同時維持高分辨率的空間細(xì)節(jié)[7]，因此尤其適合處理復(fù)雜、多物體、多運動的動態(tài)場景。當(dāng)前的主流視頻大模型，如混元視頻大模型等，均體現(xiàn)出這一技術(shù)方向的發(fā)展趨勢。2026年，Seedance系列模型則進(jìn)一步把視頻生成從單純追求高質(zhì)量輸出，推向更強調(diào)控制能力的新階段。尤其是Seedance 2.0，采用統(tǒng)一多模態(tài)音視頻聯(lián)合生成架構(gòu)，支持文本、圖像、視頻和音頻4類輸入，用戶還可同時輸入最多9張圖片、3段視頻和3段音頻，使構(gòu)圖、動作、鏡頭運動、視覺效果和聲音等信息都能作為生成條件參與控制[8]。同時，該模型還支持視頻編輯和視頻延展，使用戶能夠在已有結(jié)果上繼續(xù)修改和擴(kuò)展內(nèi)容，從而減少了早期視頻生成中較強的隨機性和不確定性，推動視頻生成逐步走向更穩(wěn)定、更可控，也更接近流程化制作的內(nèi)容生產(chǎn)方式。從系列演進(jìn)來看，Seedance 1.0[9]已強調(diào)原生多鏡頭生成、文本到視頻與圖像到視頻的統(tǒng)一建模，以及結(jié)構(gòu)穩(wěn)定和指令跟隨能力，而Seedance 1.5 Pro[10]又進(jìn)一步采用雙分支DiT、跨模態(tài)聯(lián)合模塊和多階段數(shù)據(jù)流程，強化了音畫同步、口型匹配和鏡頭控制，這也為后續(xù)Seedance 2.0的統(tǒng)一多模態(tài)控制能力提供了技術(shù)基礎(chǔ)。

不過，這類進(jìn)展并不意味著視頻生成中的基礎(chǔ)難題已被完全解決。盡管技術(shù)取得了顯著進(jìn)展，視頻生成仍面臨諸多挑戰(zhàn)，例如時間一致性難以長期保持，大幅運動會導(dǎo)致內(nèi)容漂移，以及三維結(jié)構(gòu)的重建仍不穩(wěn)定等[11]。在創(chuàng)意影像生產(chǎn)的實際場景中，這些問題會直接影響鏡頭段落的可用性和可編輯性。正因如此，可控視頻生成成為當(dāng)前研究的重點方向，即通過在生成過程中引入特定約束，對生成結(jié)果進(jìn)行引導(dǎo)與調(diào)節(jié)，使其在關(guān)鍵維度上更加可預(yù)測、可調(diào)度。

可控視頻生成的技術(shù)路徑及其創(chuàng)新應(yīng)用

在創(chuàng)意影像的制作實踐中，技術(shù)層面的可控性通常會被轉(zhuǎn)化為具體的影像表達(dá)控制方式。結(jié)合創(chuàng)作流程與影像語言特征，可控視頻生成中的核心控制點主要集中在3個方面，即整體視覺風(fēng)格、畫面過渡與段落連接，以及鏡頭視角與運動方式。圍繞上述控制點，可控生成大體可分為3類技術(shù)路徑，即風(fēng)格遷移引導(dǎo)生成、關(guān)鍵幀引導(dǎo)生成與相機運動引導(dǎo)生成，如圖1所示。風(fēng)格遷移引導(dǎo)生成的技術(shù)演進(jìn)路徑從早期的逐幀處理與時間平滑，到基于 GAN 的視頻風(fēng)格化方法，并進(jìn)一步發(fā)展到以擴(kuò)散模型為核心的渲染方法，同時在近年結(jié)合神經(jīng)輻射場（NeRF）將風(fēng)格化拓展至三維場景。關(guān)鍵幀引導(dǎo)生成的技術(shù)路徑從基于光流的傳統(tǒng)幀間插值，發(fā)展到基于擴(kuò)散模型的生成式幀間插值，并逐步引入雙向生成結(jié)構(gòu)與多模態(tài)條件約束。相機運動引導(dǎo)生成的研究在基于相機參數(shù)的擴(kuò)散模型這一主流技術(shù)路線的基礎(chǔ)上，分化出了強調(diào)相機姿態(tài)與3D場景一致性增強，面向多視角、多軌跡的一致視頻生成及相機主體動作與相機軌跡聯(lián)合控制等3個方向。

圖1　創(chuàng)意影像生產(chǎn)中的可控視頻生成技術(shù)路徑

在創(chuàng)意影像生產(chǎn)中，上述3條技術(shù)路徑直接作用于影像語言的不同層面。風(fēng)格遷移引導(dǎo)生成通過整體調(diào)控色彩與材質(zhì)，實現(xiàn)影像視覺語態(tài)的重構(gòu)；關(guān)鍵幀引導(dǎo)生成以生成連續(xù)中間畫面的方式，將鏡頭轉(zhuǎn)場轉(zhuǎn)化為畫面生成式過渡；相機運動引導(dǎo)生成則使鏡頭視角與運動軌跡能夠在生成過程中被直接設(shè)計，實現(xiàn)更高自由度的鏡頭調(diào)度。基于此，本章將分別圍繞上述3條技術(shù)路徑展開后續(xù)分析。

3.1 風(fēng)格遷移引導(dǎo)生成

3.1.1 風(fēng)格遷移引導(dǎo)生成的實現(xiàn)方法

風(fēng)格遷移引導(dǎo)生成將參考圖像、繪畫或視頻的藝術(shù)風(fēng)格遷移到目標(biāo)視頻中，使視頻呈現(xiàn)一致的視覺審美。早期方法通常采用逐幀風(fēng)格化后再進(jìn)行時間平滑處理[12,13]，雖然能夠在一定程度上保持內(nèi)容結(jié)構(gòu)，但在復(fù)雜運動或光照變化場景下仍然容易出現(xiàn)閃爍、紋理抖動和風(fēng)格漂移等問題。隨著GAN模型的成熟，出現(xiàn)了更具專業(yè)性的視頻卡通化[14]與視頻轉(zhuǎn)換[15]方法，在語義保持方面有所改進(jìn)，但訓(xùn)練穩(wěn)定性與跨域泛化能力仍存在局限。擴(kuò)散模型的引入則顯著提升了風(fēng)格遷移引導(dǎo)生成的上限，其高保真建模能力使風(fēng)格遷移可在保證結(jié)構(gòu)一致性的前提下，呈現(xiàn)更豐富的紋理、筆觸與光影特征，例如Rerender A Video[16]、StyleCrafter[17]等方法在統(tǒng)一的時空特征空間中對視頻進(jìn)行重新渲染。近年的研究在擴(kuò)散模型的技術(shù)上進(jìn)一步強調(diào)可控性與一致性，F(xiàn)RESCO[18]試圖通過引入顯式的時空對應(yīng)關(guān)系，在跨幀連貫性和內(nèi)容保真度等維度提供更精細(xì)的控制；StyleMaster[19]等框架試圖在風(fēng)格強度、區(qū)域范圍、內(nèi)容保持等維度提供更精細(xì)的調(diào)節(jié)空間。同時研究從二維圖像擴(kuò)展至三維場景建模，將NeRF與風(fēng)格遷移結(jié)合，開辟了一個全新的研究方向，即3D場景風(fēng)格化，從而生成具有任意視角一致性的風(fēng)格化視頻。ARF[20]與StyleNeRF[21]開啟了基于NeRF的場景風(fēng)格化方向，而后續(xù)方法如NeRFEdito[22]、MDS?NeRF[23]與CoARF[24]則進(jìn)一步提升了語義控制、內(nèi)容保真度與風(fēng)格可控性，使風(fēng)格遷移引導(dǎo)生成從圖像外觀替換邁向三維結(jié)構(gòu)層面的整體視覺重塑。

3.1.2 風(fēng)格遷移引導(dǎo)生成的創(chuàng)意應(yīng)用

在創(chuàng)意影像生產(chǎn)的語境中，風(fēng)格遷移引導(dǎo)生成為視覺語態(tài)的重構(gòu)提供了重要的技術(shù)基礎(chǔ)。其可在保持場景構(gòu)圖與敘事信息基本不變的前提下，對光影、色彩、材質(zhì)乃至心理氛圍進(jìn)行不同程度的重塑，從而直接介入影像表達(dá)。

首先，風(fēng)格遷移能夠建立敘事層次的分化。電影《異人之下》在拍攝之初，導(dǎo)演便希望回憶段落能呈現(xiàn)出區(qū)別于現(xiàn)實敘事部分的新風(fēng)格，以在視覺上構(gòu)筑明確的時間區(qū)隔。為實現(xiàn)這一效果，電影團(tuán)隊在傳統(tǒng)摹片動畫工藝的基礎(chǔ)上進(jìn)一步引入基于人工智能（AI）的風(fēng)格遷移，先通過真人摹片動畫將實拍表演逐幀摹寫，再利用經(jīng)原作漫畫風(fēng)格數(shù)據(jù)微調(diào)的AI風(fēng)格遷移模型，對每一幀進(jìn)行統(tǒng)一的二維漫畫化處理，最終打造出一種介于實拍與二維造型間的混合視覺語態(tài)[25]。AI的參與使寫實表演與漫畫式夸張得以在同一畫面中融合，使回憶段落既忠于原作的漫畫質(zhì)感，又保持動作與情緒的連貫性，從而在整部影片的敘事結(jié)構(gòu)中形成一個獨立而清晰的視覺層級。

其次，風(fēng)格遷移能夠強化影像表達(dá)的情緒。短片《烏鴉》以舞者的真實影像為基礎(chǔ)，讓模型將其轉(zhuǎn)譯為荒涼風(fēng)景中的烏鴉畫作，視覺風(fēng)格通過冷峻色調(diào)與象征性構(gòu)圖，營造出孤絕與荒涼的情緒氛圍，使影像獲得一種傳統(tǒng)攝影難以達(dá)到的美學(xué)張力。再如短片《石頭剪刀布》采用漫畫式風(fēng)格，在實拍素材的基礎(chǔ)上進(jìn)行AI風(fēng)格遷移，將每一幀真人影像轉(zhuǎn)化為具有高對比色彩、夸張輪廓與卡通化線條的動畫畫面。如圖2所示，動畫化的造型語言與真人表演相結(jié)合，使影像在視覺沖擊力、節(jié)奏感與情緒感染力上得到同步強化，形成一種更加外放、熾烈的觀看體驗。

圖2　短片《石頭剪刀布》截圖①

另外，在一些作品中，風(fēng)格成為心理狀態(tài)的外化機制。短片《致親愛的自己》以真人實拍為基礎(chǔ)，通過AI轉(zhuǎn)繪將影像整體置換為低飽和的藍(lán)色調(diào)與帶有繪畫紋理的動畫質(zhì)感，兩者共同營造出一種介于清醒與恍惚間的心理氛圍，使觀眾仿佛置身于記憶與內(nèi)心獨白構(gòu)成的主觀空間中。短片《遲滯現(xiàn)象》（Hysteresis）則以舞者的身體為載體，通過VQGAN、CLIP等生成式模型在實拍舞蹈影像上進(jìn)行多輪AI轉(zhuǎn)繪與投影，將身份不穩(wěn)定、情緒噪聲和感知錯位具象為覆蓋在皮膚表面的抽象線條與色塊，使身體本身成為心理狀態(tài)的顯示器。實驗性動畫短片LUCID通過一鏡到底的舞蹈實拍與多階段AI生成流程相結(jié)合，影片受益于Kaiber AI、Runway Gen?2、Midjourney和Stable Diffusion XL等AI工具的整合[26]，對原始舞蹈畫面進(jìn)行從強抽象到相對具象的逐級重繪。在影像中，視覺風(fēng)格從噪聲般的抽象紋理逐漸收束為可辨識的人物與空間形態(tài)，外化了主體情緒從混亂、失序到逐漸整合與自我對齊的心理運動，AI風(fēng)格遷移不再是視覺濾鏡，而是情緒生成過程本身的可視化軌跡。

3.2 關(guān)鍵幀引導(dǎo)生成

3.2.1 關(guān)鍵幀引導(dǎo)生成的實現(xiàn)方法

關(guān)鍵幀引導(dǎo)生成的方法旨在利用起始幀與結(jié)束幀或多個關(guān)鍵幀生成中間的連續(xù)影像，使畫面在時間上呈現(xiàn)自然過渡。傳統(tǒng)視頻插值主要依賴光流估計[27—29]，通過預(yù)測像素在不同幀之間的運動路徑來合成中間幀。然而，這種方法在遇到大幅動作、遮擋關(guān)系變化、快速旋轉(zhuǎn)等復(fù)雜場景時，往往難以精準(zhǔn)推斷真實運動，從而導(dǎo)致結(jié)構(gòu)扭曲、偽影與過渡不自然等問題[30]。擴(kuò)散模型的加入，使插值從運動預(yù)測轉(zhuǎn)向內(nèi)容重建。諸如MCVD[31]等模型證明擴(kuò)散機制既可用于視頻建模，也可用于插值，其多步迭代采樣能夠在潛在空間中重建更具語義合理性的中間狀態(tài)，而非僅依賴像素級運動推測。2024年的TRF模型[32]更進(jìn)一步提出通過雙向生成結(jié)構(gòu)從起始幀與結(jié)束幀同時出發(fā)，利用時間反轉(zhuǎn)采樣整合前后信息，在處理大跨度動作變化或顯著語義跳變時保持更高的穩(wěn)定性與連貫性。

在此基礎(chǔ)上，當(dāng)前關(guān)鍵幀引導(dǎo)插值的研究方向大部分在于提升生成的質(zhì)量，特別是在復(fù)雜動作的場景下以及提升生成的可控性。圍繞生成質(zhì)量與運動復(fù)雜度，VIDIM通過低分辨率生成和條件超分辨率的兩階段架構(gòu)，在復(fù)雜、非線性甚至含有運動歧義的場景中，仍能生成細(xì)節(jié)充分、結(jié)構(gòu)穩(wěn)定的中間序列[33]。VTG通過LoRA插值、雙向運動預(yù)測等多種技術(shù)讓鏡頭轉(zhuǎn)場的自然性更高[34]。在可控性方面，基于擴(kuò)散模型的插值方法的優(yōu)勢在于可在關(guān)鍵幀之外引入多模態(tài)條件，從而對插值過程施加更細(xì)粒度的結(jié)構(gòu)與語義約束。擴(kuò)散插值模型可通過適配器或注意力通路自然接入深度圖、語義分割、音頻、文本提示以及光流/軌跡等約束條件[35]，實現(xiàn)從結(jié)構(gòu)對齊到語義風(fēng)格的多層控制[30,36]。

3.2.2 關(guān)鍵幀引導(dǎo)生成的創(chuàng)意應(yīng)用

關(guān)鍵幀引導(dǎo)生成技術(shù)的核心價值在于其使影像中不可見的過渡段得以被生成，而非僅通過剪輯拼接。這意味著原本需要依賴疊化、跳切或鏡頭運動處理的時間、空間與情緒轉(zhuǎn)變，現(xiàn)在可以一種動態(tài)演化的方式被補寫出來。如圖3所示，以電影《深海》的一段疊化轉(zhuǎn)場為例，原片的轉(zhuǎn)場依賴于人物面部相似性，通過傳統(tǒng)的疊化方式將兩段情境連接，使時空的跳躍以一種平滑但相對靜態(tài)的方式呈現(xiàn)。相比之下，基于關(guān)鍵幀引導(dǎo)的生成式結(jié)果并未停留在靜態(tài)疊加層面，而是在保持人物哭泣這一情緒與表情連續(xù)性的前提下，引入了明確的鏡頭運動過程。生成序列中，鏡頭先向人物面部推進(jìn)，再逐步推出并完成場景切換，使轉(zhuǎn)場過程本身成為一個可感知的動態(tài)段落。

（a）電影《深海》的轉(zhuǎn)場截圖②

（b）使用AI工具生成的轉(zhuǎn)場截圖

圖3　傳統(tǒng)轉(zhuǎn)場與生成式轉(zhuǎn)場在時空連續(xù)性上的對比

在此基礎(chǔ)上，關(guān)鍵幀引導(dǎo)插值在當(dāng)代影像創(chuàng)作中逐漸形成了多樣化的應(yīng)用方向。一方面，其能表現(xiàn)時間、身份或狀態(tài)的跨越。第十五屆北京國際電影節(jié)AIGC電影單元優(yōu)秀影片《當(dāng)歸》中，老人回頭與青年形象間的轉(zhuǎn)換采用了生成式關(guān)鍵幀插值的方法。創(chuàng)作者以老人和青年2個姿態(tài)相近的關(guān)鍵幀為錨點，讓系統(tǒng)在其間生成連續(xù)中間幀，從而在保持動作連貫的前提下實現(xiàn)面容和服裝的平滑切換。另一方面，關(guān)鍵幀引導(dǎo)也能支撐大規(guī)模意象流動。宣傳片《AI我中華》的連續(xù)轉(zhuǎn)場便展示了這一點。影片畫面在每一幀中不斷吸收新的提示信息，使文物、景觀和時代在變形中被重建，像是一種在視覺空間中自然流動的文化溯源過程。當(dāng)轉(zhuǎn)場與旋轉(zhuǎn)、推進(jìn)等鏡頭運動結(jié)合時，畫面會呈現(xiàn)出雙重連續(xù)，空間在運動，畫面在變化，內(nèi)容也在生成，最終構(gòu)成的是一種傳統(tǒng)攝制手段難以達(dá)成的生成式視覺連續(xù)體。此外，關(guān)鍵幀引導(dǎo)還為高頻動作場景提供了新的制作路徑。在AI劇集《馬丁癥》的動作打斗段落中，創(chuàng)作者大量使用了漫畫式風(fēng)格、快速切換鏡頭與高密度動作信息。在制作流程中，創(chuàng)作團(tuán)隊借助可靈AI的首尾幀功能[37]，將復(fù)雜動作拆解為若干關(guān)鍵姿態(tài)，在起始幀與結(jié)束幀間自動生成過渡動作幀，同時配合腳本化的動作設(shè)計與圖像測試，不斷微調(diào)生成結(jié)果。通過這一閉環(huán)工作流，打斗鏡頭在保持漫畫風(fēng)格的同時，仍然具備流暢的運動節(jié)奏與明確的力學(xué)感，展示了生成式關(guān)鍵幀插值在高頻運動場景中的動態(tài)穩(wěn)定性與造型控制力。

3.3 相機運動引導(dǎo)生成

3.3.1 相機運動引導(dǎo)生成的實現(xiàn)方法

相機運動引導(dǎo)旨在通過模擬虛擬攝影機的運動軌跡以控制生成視頻的視角變化，從而實現(xiàn)推拉、搖移、環(huán)繞、變焦等多種鏡頭語言。與風(fēng)格或關(guān)鍵幀不同，相機運動的控制直接關(guān)系到三維空間一致性，因此難度更高。模型需同時理解攝影機的外參（旋轉(zhuǎn)R、平移T）、內(nèi)參（焦距等）以及場景的潛在三維結(jié)構(gòu)。

近期大量工作逐步形成了基于相機參數(shù)的擴(kuò)散模型這一主流技術(shù)路線，將完整的相機位姿序列作為附加控制信號，注入視頻擴(kuò)散模型的時間注意力或跨幀注意力中，從而在保持原有生成能力的前提下，顯式約束鏡頭路徑。在相機參數(shù)控制擴(kuò)散模型的框架之上，大致有3個方向。第一類側(cè)重精準(zhǔn)相機姿態(tài)控制與3D一致性增強。如CameraCtrl[38,39]系列通過像素級Plücker嵌入強化了視點與場景幾何間的對應(yīng)關(guān)系。第二類工作關(guān)注多視角、多軌跡的一致視頻生成。這類方法不僅要沿給定軌跡生成一個視頻，還要在同一場景下生成多條相機路徑對應(yīng)的多段視頻，并在它們之間保持三維一致，如ViewCrafter[40]和Cavia[41]。第三類則嘗試統(tǒng)一相機與對象運動的三維控制，即在同一生成框架中同時操控主體動作與鏡頭路徑，使運動邏輯與敘事目的更緊密地綁定。Cao等[42]提出聯(lián)合控制人物動作與相機軌跡的Uni3C框架；CineMaster[43]等模型則從影視生產(chǎn)需求出發(fā)，將鏡頭、角色與光源的控制統(tǒng)一在一個 3D場景級管線中，面向長時段、敘事性較強的鏡頭設(shè)計。

3.3.2 相機運動引導(dǎo)生成的創(chuàng)意應(yīng)用

生成式鏡頭運動為影像表達(dá)打開了全新的視聽維度。對于創(chuàng)作者而言，鏡頭不再只是記錄已存在空間的工具，而是一種可在潛在空間中自由書寫運動軌跡、重構(gòu)時空關(guān)系的表達(dá)手段。

一方面，AI可以極低成本模擬真實拍攝中難以完成甚至代價高昂的鏡頭運動。以經(jīng)典的子彈時間為例，傳統(tǒng)制作需在主體周圍搭建密集的攝影機陣列才能實現(xiàn)視角凝固式的繞拍效果，而在生成式視頻系統(tǒng)中，只需一張靜態(tài)照片或一段短視頻，模型便能推斷人物形態(tài)與環(huán)境深度，生成圍繞主體快速環(huán)繞的鏡頭，營造出時間被凍結(jié)、視角脫離物理限制的質(zhì)感。類似地，復(fù)雜的升降、前沖、環(huán)繞等運動在現(xiàn)實拍攝中受制于軌道、吊臂或場地條件，而在生成式系統(tǒng)中則可被轉(zhuǎn)化為一條可編輯、可隨時試驗的虛擬軌跡，使鏡頭運動本身成為高度可塑的創(chuàng)作資源。

另一方面，更具啟發(fā)性的是生成式模型借由鏡頭運動所創(chuàng)造出的新型敘事體驗。如科幻短片《第1001顆星球：AI重建地球檔案》中，通過首尾幀驅(qū)動與運動控制結(jié)合生成多段連續(xù)的首尾幀鏡頭，畫面在看似無限延展的場景中不斷向前推進(jìn)，既模擬了AI重建星球檔案的過程，又營造出一種意識流般連續(xù)不斷的觀看感受。這類無限延展的運動在實體空間幾乎不可實現(xiàn)，卻在生成式空間中成為自然且可重復(fù)的表達(dá)方式。第三十屆釜山國際電影節(jié)“未來影像——AI電影國際峰會”入選作品《權(quán)利童話》則將鏡頭運動與時間隱喻緊密融合，影片鏡頭圍繞蘋果不斷環(huán)繞，蘋果從鮮艷走向腐敗，背景隨之經(jīng)歷季節(jié)與時代的更迭，鏡頭運動在展示物體的同時，也生成了時間感、歷史感與寓言意味，使運動本身承擔(dān)敘事功能。短片Alzheimer借鑒魚缸視角，呈現(xiàn)類似魚眼鏡頭般的空間畸變感，強化了認(rèn)知錯位與記憶漂移的心理體驗。同時，短片應(yīng)用大量環(huán)繞鏡頭描繪阿爾茨海默癥老人迷失后的彷徨、焦慮與無助感，以鏡頭運動外化其內(nèi)部意識的破碎。

結(jié)語和展望

生成式視頻技術(shù)不僅是提升影像生產(chǎn)效率的技術(shù)工具，其以風(fēng)格遷移重塑視覺語態(tài)，以生成式轉(zhuǎn)場改寫時間過渡，以算法攝影機拓展鏡頭運動的可能，為創(chuàng)意影像生產(chǎn)提供了可控生成的路徑，使當(dāng)代影像獲得了前所未有的表現(xiàn)張力與形式想象空間。

與此同時，這些技術(shù)本身仍存在明顯局限，短期內(nèi)難以被視作成熟的工業(yè)標(biāo)準(zhǔn)方案。當(dāng)前風(fēng)格遷移引導(dǎo)仍然在解決時序穩(wěn)定性、內(nèi)容保真度和用戶可控性方面面臨挑戰(zhàn)；關(guān)鍵幀插值在復(fù)雜動作、劇烈語義跳變及遮擋關(guān)系頻繁變化的場景中，也依然可能出現(xiàn)結(jié)構(gòu)扭曲與運動邏輯不夠清晰的問題；相機引導(dǎo)仍然受到三維一致性不穩(wěn)定、遮擋錯誤、復(fù)雜運動難以解釋等挑戰(zhàn)的限制，但其在影視創(chuàng)作、虛擬鏡頭設(shè)計、動畫制作等創(chuàng)意影像生產(chǎn)場景中的應(yīng)用潛力已逐漸顯現(xiàn)。

面向未來，隨著人工智能大模型對三維結(jié)構(gòu)與多模態(tài)條件的理解能力增強，以及生成流程與虛擬攝制、實時渲染引擎等工業(yè)管線的進(jìn)一步打通，可控視頻生成有望從輔助工具走向創(chuàng)作合作者，在保障可控性與可預(yù)期性的前提下，孕育出一套新的電影語言與影像美學(xué)，為創(chuàng)意影像帶來更多尚未被命名的創(chuàng)新形式可能。

注釋、參考文獻(xiàn)

（向下滑動閱讀）

① 圖片來源：https://www.bilibili.com/video/BV1UY4y127Eb/?spm_id_from=333.337.search-card.all.click。

② 圖片來源：https://www.bilibili.com/bangumi/play/ss44496?spm_id_from=333.1391.0.0。

[1] GOODFELLOW I J, POUGET?ABADIE J, MIRZA M, et al. Generative adversarial nets[J]. Adv Neural Inf Process Syst，2014, 27.

[2] KINGMA D P, WELLING M. Auto?Encoding Variational Bayes[EB/OL]. (2013?12?20) [2025?11?28]. https://arxiv.org/abs/1312.6114.

[3] ZHU Z, WANG X, ZHAO W, et al. Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond[EB/OL]. (2024?05?06)[2025?11?25]. https://arxiv.org/abs/2405.03520.

[4] WAN T, WANG A, AI B, et al. WAN: Open and Advanced Large?Scale Video Generative Models[EB/OL]. (2025?03?27)[2025?11?26]. https://arxiv.org/abs/2503.20314.

[5] YANG Z, TENG J, ZHENG W, et al. CogVideoX: Text?to?Video Diffusion Models with an Expert Transformer[C]//Proceedings of the International Conference on Learning Representations (ICLR), 2025.

[6] YAN Z, MA Y, ZOU C, et al. EEdit: Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing[EB/OL]. (2025?03?14)[2025?11?26]. https://arxiv.org/abs/2503.10270.

[7] XIE W, HU A, XIE Q, et al. Bibliometric Analysis and Review of AI?Based Video Generation: Research Dynamics and Application Trends (2020–2025)[J]. Discover Computing, 2025, 28: 130.

[8] ByteDance Seed Team. Seedance 2.0 Official Launch[EB/OL]. (2026?02?12)[2026?04?08]. https://seed.bytedance.com/en/blog/official-launch-of-seedance-2-0.

[9] GAO Y, GUO H, HOANG T, et al. Seedance 1.0: Exploring the Boundaries of Video Generation Models[EB/OL]. (2025?06?10)[2026?04?08]. https://arxiv.org/abs/2506.09113.

[10] Seed Vision Team. Seedance 1.5 pro: A Native Audio?Visual Joint Generation Foundation Model[EB/OL]. (2025?12?15)[2026?04?08]. https://arxiv.org/abs/2512.13507.

[11] MA Y, FENG K, HU Z, et al. Controllable Video Generation: A Survey[EB/OL]. (2025?07?22)[2025?12?05]. https://arxiv.org/abs/2507.16869.

[12] CHEN D, LIAO J, YUAN L, et al. Coherent online video style transfer[C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017.

[13] HUANG H, WANG H, LUO W, et al. Real?time neural style transfer for videos[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.

[14] YANG S P, JIANG L, LIU Z, et al. VToonify: Controllable high?resolution portrait video style transfer[J]. ACM Transactions on Graphics (TOG), 2022.

[15] YANG S, JIANG L, LIU Z, et al. StyleGANEX: StyleGAN based manipulation beyond cropped aligned faces[C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2023.

[16] YANG S, ZHOU Y, LIU Z, et al. Rerender A Video: Zero?shot text?guided video?to?video translation[C]//SIGGRAPH Asia 2023 Conference Papers, 2023.

[17] LIU G, XIA M, ZHANG Y, et al. StyleCrafter: Enhancing stylized text?to?video generation with style adapter[EB/OL]. (2023?11?29)[2025?12?04]. https://arxiv.org/abs/2312.00330.

[18] YANG S, ZHOU Y, LIU Z, et al. FRESCO: Spatial?temporal correspondence for zero?shot video translation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024.

[19] YE Z, HUANG H, WANG X, et al. StyleMaster: Stylize your video with artistic generation and translation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2025: 2630?2640.

[20] ZHANG K, KOLKIN N, BI S, et al. ARF: Artistic radiance fields[C]//European Conference on Computer Vision (ECCV), Springer, 2022: 717?733.

[21] GU J, SHEN Y, LIN Z, et al. StyleNeRF: A Style?based 3D?Aware Generator for High?resolution Image Synthesis[EB/OL].(2021?11?18)[2025?12?04]. https://arxiv.org/abs/2111.09784.

[22] SUN C, LIU Y, HAN J, et al. NeRFEditor: Differentiable Style Decomposition for Full 3D Scene Editing[EB/OL]. (2022?12?07)[2025?12?04]. https://arxiv.org/abs/2212.03848.

[23] LI Z, LI S, MA W, et al. Multi?level Dynamic Style Transfer for NeRFs[EB/OL]. (2025?10?01)[2025?12?04]. https://arxiv.org/abs/2510.00592.

[24] ZHANG D, FERNANDEZ?LABRADOR C, SCHROERS C. CoARF: Controllable 3D artistic style transfer for radiance fields[C]//Proceedings of the International Conference on 3D Vision (3DV). IEEE Computer Society, 2024: 612?622.

[25] 央視網(wǎng). 幕后：結(jié)合AI 揭秘《異人之下》真人摹片動畫[EB/OL]. (2024?08?16)[2025?11?28]. https://tv.cctv.com/2024/08/16/VIDEzDIK6Vmd5lBfcKu3L7ld240816.shtml.

[26] PHAM C, WINTERSBERGER P, HAGLER J. Animation in the Age of AI: Creative Dialog With Algorithms[C]//ISEA2024: 29th International Symposium on Electronic Art, 2024.

[27] HU M, JIANG K, ZHONG Z, et al. IQ?VFI: Implicit quadratic motion estimation for video frame interpolation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024: 6410?6419.

[28] LI Z, ZHU Z L, HAN L H, et al. AMT: All?pairs multi?field transforms for efficient frame interpolation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023: 9801?9810.

[29] LIU C, ZHANG G, ZHAO R, et al. Sparse global matching for video frame interpolation with large motion[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024: 19125?19134.

[30] ZHU T, REN D, WANG Q, et al. Generative inbetweening through frame?wise conditions?driven video generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025: 27968?27978.

[31] VOLETI V, JOLICOEUR?MARTINEAU A, PAL C. MCVD: Masked conditional video diffusion for prediction, generation, and interpolation[J]. Advances in Neural Information Processing Systems, 2022, 35: 23371?23385.

[32] FENG H, DING Z, XIA Z, et al. Explorative inbetweening of time and space[C]// ECCV 2024: 18th European Conference, Milan. Springer, 2024: 378?395.

[33] JAIN S, WATSON D, TABELLION E, et al. Video interpolation with diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024: 7341?7351.

[34] YANG Z, ZHANG J, YU Y, et al. Versatile Transition Generation with Image?to?Video Diffusion[EB/OL]. (2025?08?03)[2025?12?05]. https://arxiv.org/abs/2508.01698.

[35] ZHANG M, ZHANG M, YAN Q, et al. AceVFI: A comprehensive survey of advances in video frame interpolation[EB/OL]. (2024?01?04)[2025?12?05]. https://arxiv.org/abs/2401.01712.

[36] ZHANG G, ZHU Y, CUI Y, et al. Motion?aware generative frame interpolation[EB/OL]. (2025?03?03)[2025?12?04]. https://arxiv.org/abs/2503.01532.

[37] 小新. AI影像的新世界正在加載[EB/OL]. (2025?07?02)[2025?12?04]. https://vv.lmtw.com/mzw/content/detail/id/243935.

[38] HE H, XU Y, GUO Y, et al. CameraCtrl: Enabling camera control for text?to?video generation[EB/OL]. (2024?04?02)[2025?12?08]. https://arxiv.org/abs/2404.02101.

[39] HE H, YANG C, LIN S, et al. CameraCtrl II: Dynamic scene exploration via camera?controlled video diffusion models[EB/OL]. (2025?03?15)[2025?12?04]. https://arxiv.org/abs/2503.10592.

[40] YU W, XING J, YUAN L, et al. ViewCrafter: Taming video diffusion models for high?fidelity novel view synthesis[EB/OL].（2025?09?23）[2026?02?02]. https://ieeexplore.ieee.org/document/11176446.

[41] XU D, JIANG Y, HUANG C, et al. Cavia: Camera?controllable multi?view video diffusion with view?integrated attention[EB/OL]. (2024?10?14)[2025?12?08]. https://arxiv.org/abs/2410.10774.

[42] CAO C, ZHOU J, LI S, et al. Uni3C: Unifying precisely 3D?enhanced camera and human motion controls for video generation[EB/OL]. (2025?04?21)[2025?12?08]. https://arxiv.org/abs/2504.14899.

[43] WANG Q, LUO Y, SHI X, et al. CineMaster: A 3D?aware and controllable framework for cinematic text?to?video generation[C]//Proceedings of the ACM Conference. ACM, 2025.

期刊導(dǎo)讀 |《現(xiàn)代電影技術(shù)》2026年第4期

中國電影電視技術(shù)學(xué)會電影創(chuàng)新技術(shù)獎交流會在京成功舉辦

中國電影科學(xué)技術(shù)研究所（電影技術(shù)質(zhì)量檢測所）參展CCBN2026，彰顯電影科技自主創(chuàng)新實力

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.