![]()
本文刊發(fā)于《現(xiàn)代電影技術(shù)》2026年第4期
專家點評
王嵐君
研究員
天津大學(xué)新媒體與傳播學(xué)院教授、博士生導(dǎo)師
當(dāng)前,生成式視頻技術(shù)正經(jīng)歷從“能夠生成”到“可控生成”的關(guān)鍵躍遷。在這一進(jìn)程中,可控性是生成式人工智能技術(shù)能否真正進(jìn)入影視工業(yè)流程的關(guān)鍵門檻。缺乏可控性的生成結(jié)果本質(zhì)上仍是隨機采樣的產(chǎn)物,無法滿足導(dǎo)演對視覺風(fēng)格統(tǒng)一性、鏡頭語言精準(zhǔn)性和敘事節(jié)奏連貫性的專業(yè)要求。從技術(shù)演進(jìn)來看,可控視頻生成大致沿風(fēng)格控制、時序控制與空間控制三個方向展開,分別對應(yīng)影像創(chuàng)作中視覺美學(xué)、時間結(jié)構(gòu)與空間敘事的核心需求。其中,風(fēng)格遷移面臨時序穩(wěn)定性與內(nèi)容保真度的平衡難題,關(guān)鍵幀插值在劇烈語義跳變場景中仍易出現(xiàn)結(jié)構(gòu)扭曲,而相機運動引導(dǎo)則受制于三維一致性與遮擋推理的不足。未來,隨著大模型對空間結(jié)構(gòu)理解能力的增強以及生成流程與虛擬攝制、實時渲染引擎的進(jìn)一步打通,可控視頻生成有望從輔助工具演進(jìn)為創(chuàng)作合作者,催生融合算法邏輯與電影美學(xué)的新型影像語言。《創(chuàng)意影像生產(chǎn)中的可控視頻生成技術(shù)路徑及應(yīng)用研究》一文圍繞上述核心問題展開了系統(tǒng)性研究,對風(fēng)格遷移引導(dǎo)、關(guān)鍵幀引導(dǎo)與相機運動引導(dǎo)三條技術(shù)路徑的原理與前沿方法進(jìn)行了清晰梳理,并將各類技術(shù)路徑與《異人之下》《石頭剪刀布》《權(quán)利童話》等創(chuàng)作案例緊密結(jié)合,技術(shù)分析與創(chuàng)作實踐相互印證。同時,論文對當(dāng)前技術(shù)在多模態(tài)約束融合、三維一致性及長時序控制等方面的局限也作了客觀分析。綜上所述,本文兼具技術(shù)梳理的系統(tǒng)性與創(chuàng)作應(yīng)用的啟發(fā)性,對于理解和促進(jìn)生成式人工智能技術(shù)與電影語言和影像美學(xué)的融合創(chuàng)新具有較高的參考價值。
項目信息
北京市宣傳文化高層次人才培養(yǎng)資助項目“AIGC影像創(chuàng)意工作室”(京宣傳文化人才24-1)。
作者簡介
![]()
賈云鵬
教授,北京郵電大學(xué)數(shù)字媒體與設(shè)計藝術(shù)學(xué)院院長,主要研究方向:數(shù)字影像設(shè)計。
黃 慧
北京郵電大學(xué)數(shù)字媒體與設(shè)計藝術(shù)學(xué)院2023級碩士研究生,主要研究方向:數(shù)字媒體內(nèi)容設(shè)計。
![]()
摘要
本文圍繞創(chuàng)意影像生產(chǎn)中的可控生成問題,系統(tǒng)梳理了風(fēng)格遷移引導(dǎo)生成、關(guān)鍵幀引導(dǎo)生成與相機運動引導(dǎo)生成3類技術(shù)路徑的發(fā)展現(xiàn)狀。文章結(jié)合創(chuàng)意影像案例,分析上述技術(shù)路徑在藝術(shù)風(fēng)格塑造、復(fù)雜過渡構(gòu)建與敘事鏡頭調(diào)度中的具體應(yīng)用方式,并指出當(dāng)下仍存在多模態(tài)約束融合困難、三維一致性不足及長時序控制受限等問題。研究認(rèn)為,可控視頻生成正逐步成為連接生成式技術(shù)與電影語言的關(guān)鍵橋梁,將為未來數(shù)字影像的美學(xué)探索與創(chuàng)作生產(chǎn)流程帶來新的可能性。
關(guān)鍵詞
可控視頻生成;創(chuàng)意影像生產(chǎn);生成式人工智能(GAI);擴(kuò)散模型
1
引言
創(chuàng)意影像是一種藝術(shù)表現(xiàn)形式,其通過創(chuàng)新的思維和獨特的表現(xiàn)手法,結(jié)合現(xiàn)代技術(shù)手段,突破傳統(tǒng)影像創(chuàng)作的界限,以表達(dá)創(chuàng)作者的思想、情感和觀點。影像的發(fā)展史始終是技術(shù)與藝術(shù)交織的過程,每一次技術(shù)革新都會促使影像語言產(chǎn)生新形態(tài),從攝影、動畫到數(shù)字影像,再到虛擬現(xiàn)實(VR)、增強現(xiàn)實(AR)等沉浸式媒介,都在不斷推動創(chuàng)意影像的表達(dá)邊界。隨著生成式人工智能(GAI)的崛起,視頻生成技術(shù)正成為推動影像創(chuàng)作方式變化的新動力,使影像從可記錄、可編輯進(jìn)一步走向可生成、可操控。
然而,當(dāng)下主流視頻生成模型雖已具備高質(zhì)量生成能力,但其輸出往往受限于模型自身的隨機性,在視覺風(fēng)格保持、時間連續(xù)性和鏡頭語言的可控性方面仍難以滿足影視創(chuàng)作的專業(yè)需求。生成式人工智能技術(shù)若要真正進(jìn)入電影、廣告、實驗影像等創(chuàng)作場景,必須從“能夠生成”邁向“可控生成”。基于這一現(xiàn)實需求,本文以創(chuàng)意影像生產(chǎn)為背景,聚焦視頻生成領(lǐng)域中3類關(guān)鍵的可控生成路徑即風(fēng)格遷移引導(dǎo)、關(guān)鍵幀引導(dǎo)與相機運動引導(dǎo),系統(tǒng)梳理其技術(shù)原理、發(fā)展趨勢與在電影及相關(guān)影像創(chuàng)作中的創(chuàng)新應(yīng)用。本研究旨在闡明可控視頻生成在創(chuàng)作實踐中的作用機制,探討其在擴(kuò)展影像表現(xiàn)形式、增強敘事表達(dá)能力以及推動技術(shù)與創(chuàng)意融合方面的潛力,為未來GAI技術(shù)在影視創(chuàng)作領(lǐng)域的應(yīng)用提供理論基礎(chǔ)與實踐參考。
2
視頻生成技術(shù)發(fā)展
近年來,視頻生成技術(shù)經(jīng)歷了快速而深刻的演進(jìn),其發(fā)展路徑大體可從3類關(guān)鍵模型體系梳理:以生成式對抗網(wǎng)絡(luò)(GAN)[1]和變分自編碼器(VAE)[2]為代表的早期階段,以擴(kuò)散模型(Diffusion Model)為突破口的中期階段,以及由Transformer結(jié)構(gòu)主導(dǎo)的擴(kuò)散變換器(Diffusion Transformer, DiT)時代。2021年前,GAN憑借生成器與判別器的對抗訓(xùn)練機制,推動了早期低分辨率視頻生成的發(fā)展,但其訓(xùn)練不穩(wěn)定、模式崩潰等問題始終難以完全克服。擴(kuò)散模型的出現(xiàn)標(biāo)志著生成建模的一次關(guān)鍵躍遷,其通過正向加噪和反向去噪的雙過程機制,在生成質(zhì)量、細(xì)節(jié)保真度和訓(xùn)練穩(wěn)定性方面優(yōu)于GAN,使視頻生成具備了穩(wěn)定、高質(zhì)量、可擴(kuò)展的基礎(chǔ)[3]。
隨著模型規(guī)模和算力的進(jìn)一步提升,擴(kuò)散模型逐漸與Transformer架構(gòu)深度融合,形成目前最常見的DiT[4—6]體系。與傳統(tǒng)的U型網(wǎng)絡(luò)(U?Net)不同,DiT以自注意力機制為核心,能在統(tǒng)一的時空表征中捕捉更長序列的時間依賴,同時維持高分辨率的空間細(xì)節(jié)[7],因此尤其適合處理復(fù)雜、多物體、多運動的動態(tài)場景。當(dāng)前的主流視頻大模型,如混元視頻大模型等,均體現(xiàn)出這一技術(shù)方向的發(fā)展趨勢。2026年,Seedance系列模型則進(jìn)一步把視頻生成從單純追求高質(zhì)量輸出,推向更強調(diào)控制能力的新階段。尤其是Seedance 2.0,采用統(tǒng)一多模態(tài)音視頻聯(lián)合生成架構(gòu),支持文本、圖像、視頻和音頻4類輸入,用戶還可同時輸入最多9張圖片、3段視頻和3段音頻,使構(gòu)圖、動作、鏡頭運動、視覺效果和聲音等信息都能作為生成條件參與控制[8]。同時,該模型還支持視頻編輯和視頻延展,使用戶能夠在已有結(jié)果上繼續(xù)修改和擴(kuò)展內(nèi)容,從而減少了早期視頻生成中較強的隨機性和不確定性,推動視頻生成逐步走向更穩(wěn)定、更可控,也更接近流程化制作的內(nèi)容生產(chǎn)方式。從系列演進(jìn)來看,Seedance 1.0[9]已強調(diào)原生多鏡頭生成、文本到視頻與圖像到視頻的統(tǒng)一建模,以及結(jié)構(gòu)穩(wěn)定和指令跟隨能力,而Seedance 1.5 Pro[10]又進(jìn)一步采用雙分支DiT、跨模態(tài)聯(lián)合模塊和多階段數(shù)據(jù)流程,強化了音畫同步、口型匹配和鏡頭控制,這也為后續(xù)Seedance 2.0的統(tǒng)一多模態(tài)控制能力提供了技術(shù)基礎(chǔ)。
不過,這類進(jìn)展并不意味著視頻生成中的基礎(chǔ)難題已被完全解決。盡管技術(shù)取得了顯著進(jìn)展,視頻生成仍面臨諸多挑戰(zhàn),例如時間一致性難以長期保持,大幅運動會導(dǎo)致內(nèi)容漂移,以及三維結(jié)構(gòu)的重建仍不穩(wěn)定等[11]。在創(chuàng)意影像生產(chǎn)的實際場景中,這些問題會直接影響鏡頭段落的可用性和可編輯性。正因如此,可控視頻生成成為當(dāng)前研究的重點方向,即通過在生成過程中引入特定約束,對生成結(jié)果進(jìn)行引導(dǎo)與調(diào)節(jié),使其在關(guān)鍵維度上更加可預(yù)測、可調(diào)度。
3
可控視頻生成的技術(shù)路徑及其創(chuàng)新應(yīng)用
在創(chuàng)意影像的制作實踐中,技術(shù)層面的可控性通常會被轉(zhuǎn)化為具體的影像表達(dá)控制方式。結(jié)合創(chuàng)作流程與影像語言特征,可控視頻生成中的核心控制點主要集中在3個方面,即整體視覺風(fēng)格、畫面過渡與段落連接,以及鏡頭視角與運動方式。圍繞上述控制點,可控生成大體可分為3類技術(shù)路徑,即風(fēng)格遷移引導(dǎo)生成、關(guān)鍵幀引導(dǎo)生成與相機運動引導(dǎo)生成,如圖1所示。風(fēng)格遷移引導(dǎo)生成的技術(shù)演進(jìn)路徑從早期的逐幀處理與時間平滑,到基于 GAN 的視頻風(fēng)格化方法,并進(jìn)一步發(fā)展到以擴(kuò)散模型為核心的渲染方法,同時在近年結(jié)合神經(jīng)輻射場(NeRF)將風(fēng)格化拓展至三維場景。關(guān)鍵幀引導(dǎo)生成的技術(shù)路徑從基于光流的傳統(tǒng)幀間插值,發(fā)展到基于擴(kuò)散模型的生成式幀間插值,并逐步引入雙向生成結(jié)構(gòu)與多模態(tài)條件約束。相機運動引導(dǎo)生成的研究在基于相機參數(shù)的擴(kuò)散模型這一主流技術(shù)路線的基礎(chǔ)上,分化出了強調(diào)相機姿態(tài)與3D場景一致性增強,面向多視角、多軌跡的一致視頻生成及相機主體動作與相機軌跡聯(lián)合控制等3個方向。
![]()
圖1 創(chuàng)意影像生產(chǎn)中的可控視頻生成技術(shù)路徑
在創(chuàng)意影像生產(chǎn)中,上述3條技術(shù)路徑直接作用于影像語言的不同層面。風(fēng)格遷移引導(dǎo)生成通過整體調(diào)控色彩與材質(zhì),實現(xiàn)影像視覺語態(tài)的重構(gòu);關(guān)鍵幀引導(dǎo)生成以生成連續(xù)中間畫面的方式,將鏡頭轉(zhuǎn)場轉(zhuǎn)化為畫面生成式過渡;相機運動引導(dǎo)生成則使鏡頭視角與運動軌跡能夠在生成過程中被直接設(shè)計,實現(xiàn)更高自由度的鏡頭調(diào)度。基于此,本章將分別圍繞上述3條技術(shù)路徑展開后續(xù)分析。
3.1 風(fēng)格遷移引導(dǎo)生成
3.1.1 風(fēng)格遷移引導(dǎo)生成的實現(xiàn)方法
風(fēng)格遷移引導(dǎo)生成將參考圖像、繪畫或視頻的藝術(shù)風(fēng)格遷移到目標(biāo)視頻中,使視頻呈現(xiàn)一致的視覺審美。早期方法通常采用逐幀風(fēng)格化后再進(jìn)行時間平滑處理[12,13],雖然能夠在一定程度上保持內(nèi)容結(jié)構(gòu),但在復(fù)雜運動或光照變化場景下仍然容易出現(xiàn)閃爍、紋理抖動和風(fēng)格漂移等問題。隨著GAN模型的成熟,出現(xiàn)了更具專業(yè)性的視頻卡通化[14]與視頻轉(zhuǎn)換[15]方法,在語義保持方面有所改進(jìn),但訓(xùn)練穩(wěn)定性與跨域泛化能力仍存在局限。擴(kuò)散模型的引入則顯著提升了風(fēng)格遷移引導(dǎo)生成的上限,其高保真建模能力使風(fēng)格遷移可在保證結(jié)構(gòu)一致性的前提下,呈現(xiàn)更豐富的紋理、筆觸與光影特征,例如Rerender A Video[16]、StyleCrafter[17]等方法在統(tǒng)一的時空特征空間中對視頻進(jìn)行重新渲染。近年的研究在擴(kuò)散模型的技術(shù)上進(jìn)一步強調(diào)可控性與一致性,F(xiàn)RESCO[18]試圖通過引入顯式的時空對應(yīng)關(guān)系,在跨幀連貫性和內(nèi)容保真度等維度提供更精細(xì)的控制;StyleMaster[19]等框架試圖在風(fēng)格強度、區(qū)域范圍、內(nèi)容保持等維度提供更精細(xì)的調(diào)節(jié)空間。同時研究從二維圖像擴(kuò)展至三維場景建模,將NeRF與風(fēng)格遷移結(jié)合,開辟了一個全新的研究方向,即3D場景風(fēng)格化,從而生成具有任意視角一致性的風(fēng)格化視頻。ARF[20]與StyleNeRF[21]開啟了基于NeRF的場景風(fēng)格化方向,而后續(xù)方法如NeRFEdito[22]、MDS?NeRF[23]與CoARF[24]則進(jìn)一步提升了語義控制、內(nèi)容保真度與風(fēng)格可控性,使風(fēng)格遷移引導(dǎo)生成從圖像外觀替換邁向三維結(jié)構(gòu)層面的整體視覺重塑。
3.1.2 風(fēng)格遷移引導(dǎo)生成的創(chuàng)意應(yīng)用
在創(chuàng)意影像生產(chǎn)的語境中,風(fēng)格遷移引導(dǎo)生成為視覺語態(tài)的重構(gòu)提供了重要的技術(shù)基礎(chǔ)。其可在保持場景構(gòu)圖與敘事信息基本不變的前提下,對光影、色彩、材質(zhì)乃至心理氛圍進(jìn)行不同程度的重塑,從而直接介入影像表達(dá)。
首先,風(fēng)格遷移能夠建立敘事層次的分化。電影《異人之下》在拍攝之初,導(dǎo)演便希望回憶段落能呈現(xiàn)出區(qū)別于現(xiàn)實敘事部分的新風(fēng)格,以在視覺上構(gòu)筑明確的時間區(qū)隔。為實現(xiàn)這一效果,電影團(tuán)隊在傳統(tǒng)摹片動畫工藝的基礎(chǔ)上進(jìn)一步引入基于人工智能(AI)的風(fēng)格遷移,先通過真人摹片動畫將實拍表演逐幀摹寫,再利用經(jīng)原作漫畫風(fēng)格數(shù)據(jù)微調(diào)的AI風(fēng)格遷移模型,對每一幀進(jìn)行統(tǒng)一的二維漫畫化處理,最終打造出一種介于實拍與二維造型間的混合視覺語態(tài)[25]。AI的參與使寫實表演與漫畫式夸張得以在同一畫面中融合,使回憶段落既忠于原作的漫畫質(zhì)感,又保持動作與情緒的連貫性,從而在整部影片的敘事結(jié)構(gòu)中形成一個獨立而清晰的視覺層級。
其次,風(fēng)格遷移能夠強化影像表達(dá)的情緒。短片《烏鴉》以舞者的真實影像為基礎(chǔ),讓模型將其轉(zhuǎn)譯為荒涼風(fēng)景中的烏鴉畫作,視覺風(fēng)格通過冷峻色調(diào)與象征性構(gòu)圖,營造出孤絕與荒涼的情緒氛圍,使影像獲得一種傳統(tǒng)攝影難以達(dá)到的美學(xué)張力。再如短片《石頭剪刀布》采用漫畫式風(fēng)格,在實拍素材的基礎(chǔ)上進(jìn)行AI風(fēng)格遷移,將每一幀真人影像轉(zhuǎn)化為具有高對比色彩、夸張輪廓與卡通化線條的動畫畫面。如圖2所示,動畫化的造型語言與真人表演相結(jié)合,使影像在視覺沖擊力、節(jié)奏感與情緒感染力上得到同步強化,形成一種更加外放、熾烈的觀看體驗。
![]()
圖2 短片《石頭剪刀布》截圖①
另外,在一些作品中,風(fēng)格成為心理狀態(tài)的外化機制。短片《致親愛的自己》以真人實拍為基礎(chǔ),通過AI轉(zhuǎn)繪將影像整體置換為低飽和的藍(lán)色調(diào)與帶有繪畫紋理的動畫質(zhì)感,兩者共同營造出一種介于清醒與恍惚間的心理氛圍,使觀眾仿佛置身于記憶與內(nèi)心獨白構(gòu)成的主觀空間中。短片《遲滯現(xiàn)象》(Hysteresis)則以舞者的身體為載體,通過VQGAN、CLIP等生成式模型在實拍舞蹈影像上進(jìn)行多輪AI轉(zhuǎn)繪與投影,將身份不穩(wěn)定、情緒噪聲和感知錯位具象為覆蓋在皮膚表面的抽象線條與色塊,使身體本身成為心理狀態(tài)的顯示器。實驗性動畫短片LUCID通過一鏡到底的舞蹈實拍與多階段AI生成流程相結(jié)合,影片受益于Kaiber AI、Runway Gen?2、Midjourney和Stable Diffusion XL等AI工具的整合[26],對原始舞蹈畫面進(jìn)行從強抽象到相對具象的逐級重繪。在影像中,視覺風(fēng)格從噪聲般的抽象紋理逐漸收束為可辨識的人物與空間形態(tài),外化了主體情緒從混亂、失序到逐漸整合與自我對齊的心理運動,AI風(fēng)格遷移不再是視覺濾鏡,而是情緒生成過程本身的可視化軌跡。
3.2 關(guān)鍵幀引導(dǎo)生成
3.2.1 關(guān)鍵幀引導(dǎo)生成的實現(xiàn)方法
關(guān)鍵幀引導(dǎo)生成的方法旨在利用起始幀與結(jié)束幀或多個關(guān)鍵幀生成中間的連續(xù)影像,使畫面在時間上呈現(xiàn)自然過渡。傳統(tǒng)視頻插值主要依賴光流估計[27—29],通過預(yù)測像素在不同幀之間的運動路徑來合成中間幀。然而,這種方法在遇到大幅動作、遮擋關(guān)系變化、快速旋轉(zhuǎn)等復(fù)雜場景時,往往難以精準(zhǔn)推斷真實運動,從而導(dǎo)致結(jié)構(gòu)扭曲、偽影與過渡不自然等問題[30]。擴(kuò)散模型的加入,使插值從運動預(yù)測轉(zhuǎn)向內(nèi)容重建。諸如MCVD[31]等模型證明擴(kuò)散機制既可用于視頻建模,也可用于插值,其多步迭代采樣能夠在潛在空間中重建更具語義合理性的中間狀態(tài),而非僅依賴像素級運動推測。2024年的TRF模型[32]更進(jìn)一步提出通過雙向生成結(jié)構(gòu)從起始幀與結(jié)束幀同時出發(fā),利用時間反轉(zhuǎn)采樣整合前后信息,在處理大跨度動作變化或顯著語義跳變時保持更高的穩(wěn)定性與連貫性。
在此基礎(chǔ)上,當(dāng)前關(guān)鍵幀引導(dǎo)插值的研究方向大部分在于提升生成的質(zhì)量,特別是在復(fù)雜動作的場景下以及提升生成的可控性。圍繞生成質(zhì)量與運動復(fù)雜度,VIDIM通過低分辨率生成和條件超分辨率的兩階段架構(gòu),在復(fù)雜、非線性甚至含有運動歧義的場景中,仍能生成細(xì)節(jié)充分、結(jié)構(gòu)穩(wěn)定的中間序列[33]。VTG通過LoRA插值、雙向運動預(yù)測等多種技術(shù)讓鏡頭轉(zhuǎn)場的自然性更高[34]。在可控性方面,基于擴(kuò)散模型的插值方法的優(yōu)勢在于可在關(guān)鍵幀之外引入多模態(tài)條件,從而對插值過程施加更細(xì)粒度的結(jié)構(gòu)與語義約束。擴(kuò)散插值模型可通過適配器或注意力通路自然接入深度圖、語義分割、音頻、文本提示以及光流/軌跡等約束條件[35],實現(xiàn)從結(jié)構(gòu)對齊到語義風(fēng)格的多層控制[30,36]。
3.2.2 關(guān)鍵幀引導(dǎo)生成的創(chuàng)意應(yīng)用
關(guān)鍵幀引導(dǎo)生成技術(shù)的核心價值在于其使影像中不可見的過渡段得以被生成,而非僅通過剪輯拼接。這意味著原本需要依賴疊化、跳切或鏡頭運動處理的時間、空間與情緒轉(zhuǎn)變,現(xiàn)在可以一種動態(tài)演化的方式被補寫出來。如圖3所示,以電影《深海》的一段疊化轉(zhuǎn)場為例,原片的轉(zhuǎn)場依賴于人物面部相似性,通過傳統(tǒng)的疊化方式將兩段情境連接,使時空的跳躍以一種平滑但相對靜態(tài)的方式呈現(xiàn)。相比之下,基于關(guān)鍵幀引導(dǎo)的生成式結(jié)果并未停留在靜態(tài)疊加層面,而是在保持人物哭泣這一情緒與表情連續(xù)性的前提下,引入了明確的鏡頭運動過程。生成序列中,鏡頭先向人物面部推進(jìn),再逐步推出并完成場景切換,使轉(zhuǎn)場過程本身成為一個可感知的動態(tài)段落。
![]()
(a)電影《深海》的轉(zhuǎn)場截圖②
![]()
(b)使用AI工具生成的轉(zhuǎn)場截圖
圖3 傳統(tǒng)轉(zhuǎn)場與生成式轉(zhuǎn)場在時空連續(xù)性上的對比
在此基礎(chǔ)上,關(guān)鍵幀引導(dǎo)插值在當(dāng)代影像創(chuàng)作中逐漸形成了多樣化的應(yīng)用方向。一方面,其能表現(xiàn)時間、身份或狀態(tài)的跨越。第十五屆北京國際電影節(jié)AIGC電影單元優(yōu)秀影片《當(dāng)歸》中,老人回頭與青年形象間的轉(zhuǎn)換采用了生成式關(guān)鍵幀插值的方法。創(chuàng)作者以老人和青年2個姿態(tài)相近的關(guān)鍵幀為錨點,讓系統(tǒng)在其間生成連續(xù)中間幀,從而在保持動作連貫的前提下實現(xiàn)面容和服裝的平滑切換。另一方面,關(guān)鍵幀引導(dǎo)也能支撐大規(guī)模意象流動。宣傳片《AI我中華》的連續(xù)轉(zhuǎn)場便展示了這一點。影片畫面在每一幀中不斷吸收新的提示信息,使文物、景觀和時代在變形中被重建,像是一種在視覺空間中自然流動的文化溯源過程。當(dāng)轉(zhuǎn)場與旋轉(zhuǎn)、推進(jìn)等鏡頭運動結(jié)合時,畫面會呈現(xiàn)出雙重連續(xù),空間在運動,畫面在變化,內(nèi)容也在生成,最終構(gòu)成的是一種傳統(tǒng)攝制手段難以達(dá)成的生成式視覺連續(xù)體。此外,關(guān)鍵幀引導(dǎo)還為高頻動作場景提供了新的制作路徑。在AI劇集《馬丁癥》的動作打斗段落中,創(chuàng)作者大量使用了漫畫式風(fēng)格、快速切換鏡頭與高密度動作信息。在制作流程中,創(chuàng)作團(tuán)隊借助可靈AI的首尾幀功能[37],將復(fù)雜動作拆解為若干關(guān)鍵姿態(tài),在起始幀與結(jié)束幀間自動生成過渡動作幀,同時配合腳本化的動作設(shè)計與圖像測試,不斷微調(diào)生成結(jié)果。通過這一閉環(huán)工作流,打斗鏡頭在保持漫畫風(fēng)格的同時,仍然具備流暢的運動節(jié)奏與明確的力學(xué)感,展示了生成式關(guān)鍵幀插值在高頻運動場景中的動態(tài)穩(wěn)定性與造型控制力。
3.3 相機運動引導(dǎo)生成
3.3.1 相機運動引導(dǎo)生成的實現(xiàn)方法
相機運動引導(dǎo)旨在通過模擬虛擬攝影機的運動軌跡以控制生成視頻的視角變化,從而實現(xiàn)推拉、搖移、環(huán)繞、變焦等多種鏡頭語言。與風(fēng)格或關(guān)鍵幀不同,相機運動的控制直接關(guān)系到三維空間一致性,因此難度更高。模型需同時理解攝影機的外參(旋轉(zhuǎn)R、平移T)、內(nèi)參(焦距等)以及場景的潛在三維結(jié)構(gòu)。
近期大量工作逐步形成了基于相機參數(shù)的擴(kuò)散模型這一主流技術(shù)路線,將完整的相機位姿序列作為附加控制信號,注入視頻擴(kuò)散模型的時間注意力或跨幀注意力中,從而在保持原有生成能力的前提下,顯式約束鏡頭路徑。在相機參數(shù)控制擴(kuò)散模型的框架之上,大致有3個方向。第一類側(cè)重精準(zhǔn)相機姿態(tài)控制與3D一致性增強。如CameraCtrl[38,39]系列通過像素級Plücker嵌入強化了視點與場景幾何間的對應(yīng)關(guān)系。第二類工作關(guān)注多視角、多軌跡的一致視頻生成。這類方法不僅要沿給定軌跡生成一個視頻,還要在同一場景下生成多條相機路徑對應(yīng)的多段視頻,并在它們之間保持三維一致,如ViewCrafter[40]和Cavia[41]。第三類則嘗試統(tǒng)一相機與對象運動的三維控制,即在同一生成框架中同時操控主體動作與鏡頭路徑,使運動邏輯與敘事目的更緊密地綁定。Cao等[42]提出聯(lián)合控制人物動作與相機軌跡的Uni3C框架;CineMaster[43]等模型則從影視生產(chǎn)需求出發(fā),將鏡頭、角色與光源的控制統(tǒng)一在一個 3D場景級管線中,面向長時段、敘事性較強的鏡頭設(shè)計。
3.3.2 相機運動引導(dǎo)生成的創(chuàng)意應(yīng)用
生成式鏡頭運動為影像表達(dá)打開了全新的視聽維度。對于創(chuàng)作者而言,鏡頭不再只是記錄已存在空間的工具,而是一種可在潛在空間中自由書寫運動軌跡、重構(gòu)時空關(guān)系的表達(dá)手段。
一方面,AI可以極低成本模擬真實拍攝中難以完成甚至代價高昂的鏡頭運動。以經(jīng)典的子彈時間為例,傳統(tǒng)制作需在主體周圍搭建密集的攝影機陣列才能實現(xiàn)視角凝固式的繞拍效果,而在生成式視頻系統(tǒng)中,只需一張靜態(tài)照片或一段短視頻,模型便能推斷人物形態(tài)與環(huán)境深度,生成圍繞主體快速環(huán)繞的鏡頭,營造出時間被凍結(jié)、視角脫離物理限制的質(zhì)感。類似地,復(fù)雜的升降、前沖、環(huán)繞等運動在現(xiàn)實拍攝中受制于軌道、吊臂或場地條件,而在生成式系統(tǒng)中則可被轉(zhuǎn)化為一條可編輯、可隨時試驗的虛擬軌跡,使鏡頭運動本身成為高度可塑的創(chuàng)作資源。
另一方面,更具啟發(fā)性的是生成式模型借由鏡頭運動所創(chuàng)造出的新型敘事體驗。如科幻短片《第1001顆星球:AI重建地球檔案》中,通過首尾幀驅(qū)動與運動控制結(jié)合生成多段連續(xù)的首尾幀鏡頭,畫面在看似無限延展的場景中不斷向前推進(jìn),既模擬了AI重建星球檔案的過程,又營造出一種意識流般連續(xù)不斷的觀看感受。這類無限延展的運動在實體空間幾乎不可實現(xiàn),卻在生成式空間中成為自然且可重復(fù)的表達(dá)方式。第三十屆釜山國際電影節(jié)“未來影像——AI電影國際峰會”入選作品《權(quán)利童話》則將鏡頭運動與時間隱喻緊密融合,影片鏡頭圍繞蘋果不斷環(huán)繞,蘋果從鮮艷走向腐敗,背景隨之經(jīng)歷季節(jié)與時代的更迭,鏡頭運動在展示物體的同時,也生成了時間感、歷史感與寓言意味,使運動本身承擔(dān)敘事功能。短片Alzheimer借鑒魚缸視角,呈現(xiàn)類似魚眼鏡頭般的空間畸變感,強化了認(rèn)知錯位與記憶漂移的心理體驗。同時,短片應(yīng)用大量環(huán)繞鏡頭描繪阿爾茨海默癥老人迷失后的彷徨、焦慮與無助感,以鏡頭運動外化其內(nèi)部意識的破碎。
4
結(jié)語和展望
生成式視頻技術(shù)不僅是提升影像生產(chǎn)效率的技術(shù)工具,其以風(fēng)格遷移重塑視覺語態(tài),以生成式轉(zhuǎn)場改寫時間過渡,以算法攝影機拓展鏡頭運動的可能,為創(chuàng)意影像生產(chǎn)提供了可控生成的路徑,使當(dāng)代影像獲得了前所未有的表現(xiàn)張力與形式想象空間。
與此同時,這些技術(shù)本身仍存在明顯局限,短期內(nèi)難以被視作成熟的工業(yè)標(biāo)準(zhǔn)方案。當(dāng)前風(fēng)格遷移引導(dǎo)仍然在解決時序穩(wěn)定性、內(nèi)容保真度和用戶可控性方面面臨挑戰(zhàn);關(guān)鍵幀插值在復(fù)雜動作、劇烈語義跳變及遮擋關(guān)系頻繁變化的場景中,也依然可能出現(xiàn)結(jié)構(gòu)扭曲與運動邏輯不夠清晰的問題;相機引導(dǎo)仍然受到三維一致性不穩(wěn)定、遮擋錯誤、復(fù)雜運動難以解釋等挑戰(zhàn)的限制,但其在影視創(chuàng)作、虛擬鏡頭設(shè)計、動畫制作等創(chuàng)意影像生產(chǎn)場景中的應(yīng)用潛力已逐漸顯現(xiàn)。
面向未來,隨著人工智能大模型對三維結(jié)構(gòu)與多模態(tài)條件的理解能力增強,以及生成流程與虛擬攝制、實時渲染引擎等工業(yè)管線的進(jìn)一步打通,可控視頻生成有望從輔助工具走向創(chuàng)作合作者,在保障可控性與可預(yù)期性的前提下,孕育出一套新的電影語言與影像美學(xué),為創(chuàng)意影像帶來更多尚未被命名的創(chuàng)新形式可能。
注釋、參考文獻(xiàn)
(向下滑動閱讀)
① 圖片來源:https://www.bilibili.com/video/BV1UY4y127Eb/?spm_id_from=333.337.search-card.all.click。
② 圖片來源:https://www.bilibili.com/bangumi/play/ss44496?spm_id_from=333.1391.0.0。
[1] GOODFELLOW I J, POUGET?ABADIE J, MIRZA M, et al. Generative adversarial nets[J]. Adv Neural Inf Process Syst,2014, 27.
[2] KINGMA D P, WELLING M. Auto?Encoding Variational Bayes[EB/OL]. (2013?12?20) [2025?11?28]. https://arxiv.org/abs/1312.6114.
[3] ZHU Z, WANG X, ZHAO W, et al. Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond[EB/OL]. (2024?05?06)[2025?11?25]. https://arxiv.org/abs/2405.03520.
[4] WAN T, WANG A, AI B, et al. WAN: Open and Advanced Large?Scale Video Generative Models[EB/OL]. (2025?03?27)[2025?11?26]. https://arxiv.org/abs/2503.20314.
[5] YANG Z, TENG J, ZHENG W, et al. CogVideoX: Text?to?Video Diffusion Models with an Expert Transformer[C]//Proceedings of the International Conference on Learning Representations (ICLR), 2025.
[6] YAN Z, MA Y, ZOU C, et al. EEdit: Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing[EB/OL]. (2025?03?14)[2025?11?26]. https://arxiv.org/abs/2503.10270.
[7] XIE W, HU A, XIE Q, et al. Bibliometric Analysis and Review of AI?Based Video Generation: Research Dynamics and Application Trends (2020–2025)[J]. Discover Computing, 2025, 28: 130.
[8] ByteDance Seed Team. Seedance 2.0 Official Launch[EB/OL]. (2026?02?12)[2026?04?08]. https://seed.bytedance.com/en/blog/official-launch-of-seedance-2-0.
[9] GAO Y, GUO H, HOANG T, et al. Seedance 1.0: Exploring the Boundaries of Video Generation Models[EB/OL]. (2025?06?10)[2026?04?08]. https://arxiv.org/abs/2506.09113.
[10] Seed Vision Team. Seedance 1.5 pro: A Native Audio?Visual Joint Generation Foundation Model[EB/OL]. (2025?12?15)[2026?04?08]. https://arxiv.org/abs/2512.13507.
[11] MA Y, FENG K, HU Z, et al. Controllable Video Generation: A Survey[EB/OL]. (2025?07?22)[2025?12?05]. https://arxiv.org/abs/2507.16869.
[12] CHEN D, LIAO J, YUAN L, et al. Coherent online video style transfer[C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017.
[13] HUANG H, WANG H, LUO W, et al. Real?time neural style transfer for videos[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[14] YANG S P, JIANG L, LIU Z, et al. VToonify: Controllable high?resolution portrait video style transfer[J]. ACM Transactions on Graphics (TOG), 2022.
[15] YANG S, JIANG L, LIU Z, et al. StyleGANEX: StyleGAN based manipulation beyond cropped aligned faces[C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2023.
[16] YANG S, ZHOU Y, LIU Z, et al. Rerender A Video: Zero?shot text?guided video?to?video translation[C]//SIGGRAPH Asia 2023 Conference Papers, 2023.
[17] LIU G, XIA M, ZHANG Y, et al. StyleCrafter: Enhancing stylized text?to?video generation with style adapter[EB/OL]. (2023?11?29)[2025?12?04]. https://arxiv.org/abs/2312.00330.
[18] YANG S, ZHOU Y, LIU Z, et al. FRESCO: Spatial?temporal correspondence for zero?shot video translation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024.
[19] YE Z, HUANG H, WANG X, et al. StyleMaster: Stylize your video with artistic generation and translation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2025: 2630?2640.
[20] ZHANG K, KOLKIN N, BI S, et al. ARF: Artistic radiance fields[C]//European Conference on Computer Vision (ECCV), Springer, 2022: 717?733.
[21] GU J, SHEN Y, LIN Z, et al. StyleNeRF: A Style?based 3D?Aware Generator for High?resolution Image Synthesis[EB/OL].(2021?11?18)[2025?12?04]. https://arxiv.org/abs/2111.09784.
[22] SUN C, LIU Y, HAN J, et al. NeRFEditor: Differentiable Style Decomposition for Full 3D Scene Editing[EB/OL]. (2022?12?07)[2025?12?04]. https://arxiv.org/abs/2212.03848.
[23] LI Z, LI S, MA W, et al. Multi?level Dynamic Style Transfer for NeRFs[EB/OL]. (2025?10?01)[2025?12?04]. https://arxiv.org/abs/2510.00592.
[24] ZHANG D, FERNANDEZ?LABRADOR C, SCHROERS C. CoARF: Controllable 3D artistic style transfer for radiance fields[C]//Proceedings of the International Conference on 3D Vision (3DV). IEEE Computer Society, 2024: 612?622.
[25] 央視網(wǎng). 幕后:結(jié)合AI 揭秘《異人之下》真人摹片動畫[EB/OL]. (2024?08?16)[2025?11?28]. https://tv.cctv.com/2024/08/16/VIDEzDIK6Vmd5lBfcKu3L7ld240816.shtml.
[26] PHAM C, WINTERSBERGER P, HAGLER J. Animation in the Age of AI: Creative Dialog With Algorithms[C]//ISEA2024: 29th International Symposium on Electronic Art, 2024.
[27] HU M, JIANG K, ZHONG Z, et al. IQ?VFI: Implicit quadratic motion estimation for video frame interpolation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024: 6410?6419.
[28] LI Z, ZHU Z L, HAN L H, et al. AMT: All?pairs multi?field transforms for efficient frame interpolation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023: 9801?9810.
[29] LIU C, ZHANG G, ZHAO R, et al. Sparse global matching for video frame interpolation with large motion[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024: 19125?19134.
[30] ZHU T, REN D, WANG Q, et al. Generative inbetweening through frame?wise conditions?driven video generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025: 27968?27978.
[31] VOLETI V, JOLICOEUR?MARTINEAU A, PAL C. MCVD: Masked conditional video diffusion for prediction, generation, and interpolation[J]. Advances in Neural Information Processing Systems, 2022, 35: 23371?23385.
[32] FENG H, DING Z, XIA Z, et al. Explorative inbetweening of time and space[C]// ECCV 2024: 18th European Conference, Milan. Springer, 2024: 378?395.
[33] JAIN S, WATSON D, TABELLION E, et al. Video interpolation with diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024: 7341?7351.
[34] YANG Z, ZHANG J, YU Y, et al. Versatile Transition Generation with Image?to?Video Diffusion[EB/OL]. (2025?08?03)[2025?12?05]. https://arxiv.org/abs/2508.01698.
[35] ZHANG M, ZHANG M, YAN Q, et al. AceVFI: A comprehensive survey of advances in video frame interpolation[EB/OL]. (2024?01?04)[2025?12?05]. https://arxiv.org/abs/2401.01712.
[36] ZHANG G, ZHU Y, CUI Y, et al. Motion?aware generative frame interpolation[EB/OL]. (2025?03?03)[2025?12?04]. https://arxiv.org/abs/2503.01532.
[37] 小新. AI影像的新世界正在加載[EB/OL]. (2025?07?02)[2025?12?04]. https://vv.lmtw.com/mzw/content/detail/id/243935.
[38] HE H, XU Y, GUO Y, et al. CameraCtrl: Enabling camera control for text?to?video generation[EB/OL]. (2024?04?02)[2025?12?08]. https://arxiv.org/abs/2404.02101.
[39] HE H, YANG C, LIN S, et al. CameraCtrl II: Dynamic scene exploration via camera?controlled video diffusion models[EB/OL]. (2025?03?15)[2025?12?04]. https://arxiv.org/abs/2503.10592.
[40] YU W, XING J, YUAN L, et al. ViewCrafter: Taming video diffusion models for high?fidelity novel view synthesis[EB/OL].(2025?09?23)[2026?02?02]. https://ieeexplore.ieee.org/document/11176446.
[41] XU D, JIANG Y, HUANG C, et al. Cavia: Camera?controllable multi?view video diffusion with view?integrated attention[EB/OL]. (2024?10?14)[2025?12?08]. https://arxiv.org/abs/2410.10774.
[42] CAO C, ZHOU J, LI S, et al. Uni3C: Unifying precisely 3D?enhanced camera and human motion controls for video generation[EB/OL]. (2025?04?21)[2025?12?08]. https://arxiv.org/abs/2504.14899.
[43] WANG Q, LUO Y, SHI X, et al. CineMaster: A 3D?aware and controllable framework for cinematic text?to?video generation[C]//Proceedings of the ACM Conference. ACM, 2025.
期刊導(dǎo)讀 |《現(xiàn)代電影技術(shù)》2026年第4期
中國電影電視技術(shù)學(xué)會電影創(chuàng)新技術(shù)獎交流會在京成功舉辦
中國電影科學(xué)技術(shù)研究所(電影技術(shù)質(zhì)量檢測所)參展CCBN2026,彰顯電影科技自主創(chuàng)新實力
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.