![]()
這項由谷歌公司研發(fā)團隊主導完成的研究,發(fā)表于2026年4月,論文編號為arXiv:2604.24842,有興趣深入了解的讀者可通過該編號在arXiv平臺查詢完整論文。
一、一個讓無數(shù)創(chuàng)作者頭疼的問題
假設你是一位剛剛創(chuàng)業(yè)的小企業(yè)主,手里只有一款產品、一個簡短的廣告語和幾張產品圖。你希望制作一段像樣的視頻廣告,但專業(yè)制作團隊的報價讓你望而卻步,AI工具生成的視頻又總是前言不搭后語——明明第一個鏡頭里的主角還是個棕發(fā)年輕女性,到了第二個鏡頭卻突然變成了銀發(fā)老人;或者故事講到一半,整個場景莫名其妙地從海灘跳到了辦公室。這種"人格分裂"式的視頻,不僅無法用于商業(yè)推廣,還讓人哭笑不得。
這正是當前AI視頻生成技術面臨的核心困境。現(xiàn)有的視頻擴散模型(可以把它理解為一種能"憑空畫出視頻"的AI技術)雖然能生成畫質驚人的單段視頻,但一旦需要把多個鏡頭拼成一個有完整故事的視頻,各種不一致問題就會接踵而來:人物身份前后不符、場景之間毫無邏輯關聯(lián)、整體敘事支離破碎。更糟糕的是,現(xiàn)有的"多智能體流水線"方案——也就是讓多個AI模塊依次接力完成各自的工作——雖然試圖解決這個問題,但由于每個模塊都各自為政,早期出現(xiàn)的錯誤會像多米諾骨牌一樣,沿著整條流水線一路放大,最終導致災難性的輸出結果。
谷歌的研究團隊為此構建了一套名為**Co-Director**(聯(lián)合導演)的系統(tǒng),這套系統(tǒng)的設計哲學,是把視頻創(chuàng)作的全過程視為一個需要統(tǒng)一協(xié)調的全局優(yōu)化問題,而不是各自獨立的子任務的簡單拼接。
二、一位真正懂全局的"總導演"
要理解Co-Director的核心思路,可以把整個視頻制作過程比作拍攝一部商業(yè)短片。傳統(tǒng)的AI流水線就像是一個沒有總導演的劇組:編劇寫完劇本就走人,攝影師拿到劇本自顧自拍攝,后期剪輯師從未見過原始素材就開始拼接。每個人都在做自己的事,但沒有人關心整體效果是否協(xié)調。
Co-Director的做法截然不同。它在整個制作流程的最頂端,設置了一個"總指揮"——稱為**編排智能體**(Orchestrator Agent)。這位"總指揮"不僅負責統(tǒng)籌全局,還承擔了一項獨特的創(chuàng)意決策職責:在每一輪視頻生成開始之前,它會像一位資深導演一樣,率先確定整部廣告的創(chuàng)意方向,然后把這個統(tǒng)一的方向層層傳達給所有下屬模塊,確保從劇本到畫面、從鏡頭運動到背景音樂,每一個環(huán)節(jié)都朝著同一個目標努力。
這套系統(tǒng)在架構上共分為三個主要層級,依次對應影視制作中的前期制作、拍攝制作和后期制作三個階段。
**前期制作智能體**是整個故事的"策劃組"。它拿到用戶提供的簡短產品描述和幾張參考圖片之后,會依次完成四項工作:首先進行"深度研究",把產品信息和目標人群的文化背景、生活方式融合起來,形成一份詳細的創(chuàng)意簡報;然后根據(jù)這份簡報,一場景一場景地寫出完整劇情;接著針對劇本里出現(xiàn)的每一個人物、道具和場景,生成相應的視覺素材(如果用戶沒有提供的話);最后把劇情展開成一份詳細的分鏡表,規(guī)定每個鏡頭的視角、運動方式、時間長度,以及背景音樂的節(jié)奏和情緒。
**制作智能體**是把分鏡表變成真實影像的"拍攝組"。它內部又分成三個專屬小組:關鍵幀小組負責為每個場景生成第一幀畫面,相當于在正式拍攝前先拍一張"定妝照",用來鎖定人物外貌和場景風格,防止后續(xù)視頻生成時人物"變臉";視頻小組以這些"定妝照"為起點,驅動視頻擴散模型生成每個場景的完整動態(tài)畫面;音頻小組則根據(jù)分鏡表里的音樂指令,生成統(tǒng)一的旁白和背景音樂,合并成一軌完整的音頻。
**后期制作智能體**是最終的"剪輯組",負責把所有視頻片段按照分鏡表規(guī)定的時序拼接起來,再把音頻精準對齊到視頻上,輸出最終成品。
三、兩套"糾錯機制":既治標又治本
光有這套流水線還不夠。即便每個模塊都在努力工作,局部錯誤依然有可能溜進來。Co-Director為此設計了兩套相互配合的糾錯機制,一套負責在局部及時發(fā)現(xiàn)并修復問題,另一套負責在全局層面找到最優(yōu)的創(chuàng)意方向。
**局部自我修正**的邏輯,像是給流水線上的每道工序都配備了一位質檢員。這位質檢員會在產品交付到下一道工序之前,先對當前成果打分,如果分數(shù)不達標,就提供具體的改進意見,讓當前模塊重新生成,直到質量過關或者達到嘗試次數(shù)上限為止。
在劇本環(huán)節(jié),AI會扮演資深創(chuàng)意總監(jiān)的角色,從開場吸引力、敘事連貫性、產品融合度、情感共鳴度和對原始要求的貼合度五個維度對劇本打分。一旦發(fā)現(xiàn)劇本把某款電腦機箱錯誤地描述成了電動升降桌(這種"張冠李戴"的幻覺在AI生成文本中并不罕見),質檢員就會發(fā)出明確的糾錯指令,要求重新生成一版聚焦正確產品的劇本。
在關鍵幀環(huán)節(jié),質檢員換成了一個能同時看圖的AI,它不會單獨審查每一張畫面,而是把所有場景的畫面放在一起統(tǒng)一審視,專門檢查那些跨場景的連貫性問題:主角的發(fā)色在第一個場景和第四個場景是否一致?產品的顏色和外形從始至終有沒有變化?背景從豪華住宅區(qū)突然跳到無菌實驗室有沒有邏輯支撐?如果發(fā)現(xiàn)問題,質檢員會精準指出哪幾張圖需要重新生成,而不是推倒重來,這樣就保留了已經(jīng)合格的畫面,只修復真正有問題的部分。
四、用"老虎機"找到最佳創(chuàng)意配方
局部糾錯解決的是執(zhí)行層面的問題,但還有一個更根本的問題沒有解決:即便每個場景都執(zhí)行得無懈可擊,整體的創(chuàng)意方向選得對不對?畢竟,同一款運動飲料,既可以拍成勵志的健身故事,也可以拍成清新的生活方式短片,還可以拍成硬核的產品性能對比。哪種方向最能打動目標消費者?
Co-Director用一種叫做**多臂老虎機**的決策算法來回答這個問題。這個算法的名字來自賭場里那種有多個拉桿的老虎機——你不知道哪個拉桿的中獎概率最高,于是你需要在"多試幾個不同拉桿積累信息"和"反復拉已知中獎率最高的拉桿"之間找到平衡。
在Co-Director里,每一個"拉桿"對應一種具體的創(chuàng)意配置,由三個維度共同定義。第一個維度是**創(chuàng)意策略**,決定廣告的核心訴求是什么:是理性地強調產品功能(信息型策略),還是感性地渲染生活方式和心理認同(變革型策略),還是通過與競品對比來突顯優(yōu)勢(比較型策略)。第二個維度是**敘事模式**,決定故事怎么講:是邏輯分析式的直接陳述(無情節(jié)弧線),是幾個氛圍各異的生活片段的拼接(片段式),還是有起承轉合的完整角色故事(敘事戲劇式)。第三個維度是**美學風格**,決定視頻的整體視覺感受:是高亮度、快剪輯、高節(jié)奏的活力感;是強光影對比、慢運鏡、古典配樂的電影質感;是純凈背景、微觀特寫、ASMR音效的極簡風;還是低調光、手持鏡頭、電子合成音效的粗糲真實感。
三個維度分別有若干選項,組合起來總共有36種不同的創(chuàng)意配置。系統(tǒng)不會窮舉每一種組合,而是通過多臂老虎機算法,在幾輪迭代中找到效果最好的配置。每一輪生成完成之后,AI評分員會從創(chuàng)意策略、敘事模式、美學風格三個維度分別打分,把這三個獨立的分數(shù)反饋給老虎機算法,幫助它判斷哪些維度的選擇有效、哪些需要調整。這種分維度打分的設計非常關鍵——如果只給一個總分,系統(tǒng)就無法知道是策略選錯了還是風格選錯了,只能整體放棄重來;而分維度打分,則讓系統(tǒng)能精準地識別出每個決策軸上的好壞,大幅提升了學習效率。
為了避免在最初幾輪就把時間浪費在明顯不合適的方向上,系統(tǒng)還加入了一個"暖機啟動"機制:在第一輪生成開始之前,先讓一個通用AI分析產品特性和目標人群,對各種創(chuàng)意配置的潛在效果做出初步預判,以此作為算法的起點,把早期探索引導到相對合理的方向上。
五、一個專門為"新品牌"設計的測試場
研究團隊不僅構建了Co-Director這套系統(tǒng),還為評估它的表現(xiàn)設計了一套全新的測試基準,命名為**GenAd-Bench**。
這套測試集之所以值得單獨介紹,是因為它解決了一個評估AI視頻生成系統(tǒng)時普遍存在的"作弊"問題。現(xiàn)有的評測數(shù)據(jù)集大多使用真實品牌的產品,比如讓AI生成一段可口可樂或者耐克的廣告。問題在于,這些品牌的視覺風格、品牌故事和廣告范式在AI的訓練數(shù)據(jù)中大量存在,模型很可能只是在"背答案"——它不是真的在理解需求并創(chuàng)作,而是在復現(xiàn)訓練時見過的內容。
GenAd-Bench的解決方案是:全部使用虛構品牌和虛構產品。研究團隊用AI生成了50個完全不存在的品牌,每個品牌配有4款產品,產品類型跨度極大,從小型消費品到重型工業(yè)設備一應俱全。每款產品都配備了一套AI生成的品牌標志和產品參考圖,生成后經(jīng)過人工審核(約15%的圖片因為各種問題被重新生成),以確保這些視覺素材足夠獨特,不會與現(xiàn)實中的任何品牌產生混淆。
在場景設計上,每款產品都對應兩種截然不同的目標人群設定:一種是"符合刻板印象的"典型用戶(比如給老年人推銷保健品),另一種是"打破刻板印象的"非典型用戶(比如給18歲的滑板少年推銷同款保健品)。這種配對設計專門用來測試AI系統(tǒng)能不能擺脫對"典型用戶"的固有認知,靈活地為各種意想不到的目標群體創(chuàng)作合適的廣告。
最終,這套測試集共涵蓋400個獨立場景,對應183個全球地理位置,在年齡、性別、地域上都保持了均衡分布。歐洲和亞洲的場景數(shù)量最多,但具體涵蓋的地點從北歐小鎮(zhèn)到東南亞海濱城市,從中東集市到南美山區(qū),刻意避免了以西方視角為中心的文化偏向。
評估時,研究團隊使用一個能同時處理視頻畫面和音頻的多模態(tài)AI擔任評分員,從四個維度對生成視頻打分:視覺資產保真度(生成視頻中的品牌標志和產品圖像與原始參考圖的相似程度)、人群定向準確度(視頻的人物選角、場景環(huán)境和敘事基調是否精準對應目標人群的性別、年齡、地域和興趣愛好)、營銷吸引力(廣告能否抓住注意力、清晰傳遞價值主張、激發(fā)情感共鳴)、視覺質量(畫面是否存在AI特有的變形、閃爍、物理規(guī)律違反等問題)。
為了驗證AI評分員的可靠性,研究團隊還專門組織了一項人工評估實驗,邀請5位獨立評分者對50個場景的視頻進行人工打分,然后把人工打分結果和AI打分結果進行對比。結果顯示,AI評分員在敘事質量類指標(人群定向準確度和營銷吸引力)上與人類評分者的判斷高度吻合,但在視覺質量指標上略有差異——人類評分者在實時觀看視頻時,對短暫出現(xiàn)的畫面異常往往沒那么敏感;而AI評分員逐幀分析,對任何細微的畫面瑕疵都毫不寬容。
六、數(shù)字說話:Co-Director到底強在哪里
研究團隊把Co-Director與市場上形形色色的視頻生成系統(tǒng)放在一起進行了系統(tǒng)比較,涵蓋了專有商業(yè)平臺(包括Creatify、HeyGen兩款專門面向廣告制作的商業(yè)產品,以及Kling 3.0 Omni、Veo 3.1、Wan 2.6三款通用視頻生成模型)和開源多智能體系統(tǒng)(AniMaker、MovieAgent以及Co-Director自身的簡化版本)。
在100分滿分的評分體系下,兩款專門做廣告的商業(yè)平臺表現(xiàn)反而墊底——Creatify平均得分僅22.1分,HeyGen也只有46.7分。這并不奇怪,因為這類平臺依賴的是"說話頭像配靜態(tài)圖片"的拼接方式,面對需要動態(tài)敘事的復雜廣告任務時,先天存在結構性局限。通用視頻模型的表現(xiàn)明顯好得多,Wan 2.6以65.0分領先于同類,Veo 3.1拿到了63.6分。開源多智能體系統(tǒng)AniMaker得到62.2分,MovieAgent稍好為65.3分。
Co-Director僅使用基礎架構(不開啟任何優(yōu)化機制)時就達到了68.5分,證明了它的核心流程設計本身就優(yōu)于現(xiàn)有多智能體方案。開啟4輪隨機搜索(每輪隨機選擇一種創(chuàng)意配置)后,得分躍升至75.7分——這說明多次嘗試、擇優(yōu)選用的策略本身是有價值的,但隨機搜索的效率不高。最終完整版的Co-Director(啟用多臂老虎機優(yōu)化和暖機啟動)在4輪迭代中就達到了81.4分,顯著超過了隨機搜索在相同輪次下的表現(xiàn)。
特別值得一提的是視覺質量這個維度。這是一個與提示詞內容無關的純粹技術質量指標,Co-Director在這里得到了70.2分,而它所使用的底層視頻生成模型Veo 3.1單獨使用時只有50.5分。換句話說,Co-Director的優(yōu)化機制不只是在故事層面起作用,還實實在在地提升了底層生成模型的輸出穩(wěn)定性——通過關鍵幀質檢和多輪優(yōu)化,系統(tǒng)會主動淘汰掉那些物理規(guī)律失真或者畫面跳變嚴重的視頻片段,只把真正質量過關的成品交付出去。
人工評分(MOS)實驗的結果與自動評分高度一致:Co-Director在5位真實人類評分者眼中的綜合得分為3.96分(滿分5分),超過了Veo 3.1的3.71分,大幅領先于AniMaker的3.07分和MovieAgent的3.22分,并且在四個單項維度上全面領先。
消融實驗(也就是逐一"拆掉"某個功能模塊,觀察對總體表現(xiàn)的影響)進一步驗證了每個設計決策的必要性。去掉關鍵幀質檢環(huán)節(jié),視覺資產保真度分數(shù)暴跌9.8分,說明這一環(huán)節(jié)對于保持產品形象一致性至關重要。去掉劇本質檢環(huán)節(jié),營銷吸引力和人群定向準確度明顯下滑,說明故事質量直接決定了廣告的說服力。把多維度獎勵信號壓縮成單一總分,視覺資產保真度下降5分,證明分維度打分的設計確實讓算法的學習更加精準。把暖機啟動換成冷啟動,系統(tǒng)在前幾輪的探索方向更加隨機,收斂效率下降。把整個優(yōu)化機制全部關閉(只保留基礎流水線),綜合得分降至67.2分,比完整版低了整整17.6%。
七、不只是廣告:向通用視頻敘事的延伸
研究團隊還進一步驗證了Co-Director的核心能力能否推廣到廣告以外的視頻敘事場景。他們選取了ViStoryBench這個專門評估視頻故事可視化的學術基準進行測試。由于這個基準的輸入是詳細的分鏡腳本和角色參考圖,輸出是靜態(tài)圖像序列而非視頻,研究團隊對Co-Director進行了相應的簡化:跳過劇本生成模塊,只保留關鍵幀生成、局部自我修正和全局優(yōu)化三個核心機制。
在這個相對陌生的測試場景下,Co-Director在風格一致性(跨場景風格得分0.499,單場景內部一致性0.743)和角色一致性(跨場景得分0.499)兩個維度上依然領先于所有對比系統(tǒng),在對分鏡描述的執(zhí)行準確度上也達到了最高的平均分3.166分。這說明Co-Director維持視覺連貫性和精準執(zhí)行創(chuàng)意方向的能力,確實來自系統(tǒng)架構本身,而不只是對廣告場景的過度定制。
在那些測試中有一個有趣的觀察:Co-Director有時會為"熱鬧的城市街道"場景自動補充一些路人背景角色,這讓畫面看起來更有生活氣息,卻也因此在"場景中實際出現(xiàn)的角色數(shù)量是否與腳本完全匹配"這一指標上失分——因為腳本里沒有專門寫這些路人。這個小插曲恰好說明了Co-Director的創(chuàng)作邏輯:它不是在機械地把文字翻譯成畫面,而是在理解敘事意圖的基礎上,主動作出有利于視覺效果的創(chuàng)作判斷。
八、結語
歸根結底,Co-Director做的事情,是把原本只有大型制作團隊才能完成的"統(tǒng)一創(chuàng)意方向、層層傳達、全程把關"這套工作流,壓縮進了一套可以由單個用戶在幾輪迭代內完成的自動化系統(tǒng)。以往,這種協(xié)調工作需要導演、編劇、美術指導、后期督導之間反復溝通才能實現(xiàn),而Co-Director通過多臂老虎機算法在頂層統(tǒng)一決策,通過層層注入的創(chuàng)意指令在各模塊間保持一致,通過局部質檢在執(zhí)行層面及時糾偏,用算法模擬了這套協(xié)作機制。
當然,這套系統(tǒng)目前還有明顯的局限性。每完成一輪視頻生成需要消耗相當可觀的計算資源,4輪迭代在實際場景中意味著可觀的時間和成本開銷。生成的視頻固定為12秒4個鏡頭,無法滿足更長敘事的需求。底層視頻生成模型偶爾仍會產生細微的物理規(guī)律違反(比如短暫出現(xiàn)的手部變形),這些問題無法通過上層優(yōu)化完全消除。
不過,這項研究真正有價值的地方,或許不只是那些具體的評分數(shù)字,而是它提供了一個思考框架:當我們希望AI能夠完成復雜的創(chuàng)意性任務時,與其反復堆疊更多獨立的AI模塊,不如認真設計各模塊之間的協(xié)調機制,把全局一致性作為首要設計目標。
對于有興趣進一步了解技術細節(jié)的讀者,可以在arXiv上通過論文編號2604.24842找到完整論文,研究團隊也已承諾開源Co-Director的實現(xiàn)代碼和GenAd-Bench數(shù)據(jù)集,屆時可通過論文中提供的項目主頁獲取。
Q&A
Q1:Co-Director和普通的AI視頻生成工具有什么區(qū)別?
A:Co-Director的根本區(qū)別在于它把整個視頻創(chuàng)作過程當成一個需要統(tǒng)一協(xié)調的整體來處理,而不是把多個獨立AI模塊簡單串聯(lián)。它頂層有一個"總指揮"智能體,負責先確定創(chuàng)意方向,再把這個統(tǒng)一方向傳達給所有下屬模塊,確保劇本、畫面、音樂都朝同一個目標走,從而避免了普通多模塊系統(tǒng)中常見的"人物變臉"和"場景亂跳"問題。
Q2:多臂老虎機算法是怎么幫Co-Director找到最好的廣告創(chuàng)意方向的?
A:多臂老虎機算法的核心是在"探索新方向"和"利用已知最好方向"之間找平衡。Co-Director每完成一輪視頻生成,就讓AI評分員從創(chuàng)意策略、敘事模式、視覺風格三個維度分別打分,這三個分數(shù)分別反饋給算法,讓它能精準判斷哪個維度的選擇有效、哪個需要調整。同時系統(tǒng)在第一輪之前就用通用AI預判哪些方向可能更適合當前產品,避免早期浪費在明顯不合適的方向上。
Q3:GenAd-Bench為什么要用虛構品牌而不是真實品牌來測試?
A:使用真實品牌測試AI系統(tǒng)存在一個根本問題:這些品牌在AI的訓練數(shù)據(jù)里大量出現(xiàn)過,模型很可能只是在"背答案"而不是真正在創(chuàng)作。用完全虛構的品牌和產品,可以確保模型無法依賴記憶中的已有信息,必須真正理解需求并從頭創(chuàng)作,這樣測出來的成績才是真實能力的體現(xiàn),而不是記憶檢索的結果。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.