谷歌打造"AI副導演"：讓普通人也能用AI制作出專業(yè)級視頻廣告

2026-05-06 20:20:31　來源: 科技行者

天津舉報

分享至

這項由谷歌公司研發(fā)團隊主導完成的研究，發(fā)表于2026年4月，論文編號為arXiv:2604.24842，有興趣深入了解的讀者可通過該編號在arXiv平臺查詢完整論文。

一、一個讓無數(shù)創(chuàng)作者頭疼的問題

假設你是一位剛剛創(chuàng)業(yè)的小企業(yè)主，手里只有一款產品、一個簡短的廣告語和幾張產品圖。你希望制作一段像樣的視頻廣告，但專業(yè)制作團隊的報價讓你望而卻步，AI工具生成的視頻又總是前言不搭后語——明明第一個鏡頭里的主角還是個棕發(fā)年輕女性，到了第二個鏡頭卻突然變成了銀發(fā)老人；或者故事講到一半，整個場景莫名其妙地從海灘跳到了辦公室。這種"人格分裂"式的視頻，不僅無法用于商業(yè)推廣，還讓人哭笑不得。

這正是當前AI視頻生成技術面臨的核心困境。現(xiàn)有的視頻擴散模型（可以把它理解為一種能"憑空畫出視頻"的AI技術）雖然能生成畫質驚人的單段視頻，但一旦需要把多個鏡頭拼成一個有完整故事的視頻，各種不一致問題就會接踵而來：人物身份前后不符、場景之間毫無邏輯關聯(lián)、整體敘事支離破碎。更糟糕的是，現(xiàn)有的"多智能體流水線"方案——也就是讓多個AI模塊依次接力完成各自的工作——雖然試圖解決這個問題，但由于每個模塊都各自為政，早期出現(xiàn)的錯誤會像多米諾骨牌一樣，沿著整條流水線一路放大，最終導致災難性的輸出結果。

谷歌的研究團隊為此構建了一套名為**Co-Director**（聯(lián)合導演）的系統(tǒng)，這套系統(tǒng)的設計哲學，是把視頻創(chuàng)作的全過程視為一個需要統(tǒng)一協(xié)調的全局優(yōu)化問題，而不是各自獨立的子任務的簡單拼接。

二、一位真正懂全局的"總導演"

要理解Co-Director的核心思路，可以把整個視頻制作過程比作拍攝一部商業(yè)短片。傳統(tǒng)的AI流水線就像是一個沒有總導演的劇組：編劇寫完劇本就走人，攝影師拿到劇本自顧自拍攝，后期剪輯師從未見過原始素材就開始拼接。每個人都在做自己的事，但沒有人關心整體效果是否協(xié)調。

Co-Director的做法截然不同。它在整個制作流程的最頂端，設置了一個"總指揮"——稱為**編排智能體**（Orchestrator Agent）。這位"總指揮"不僅負責統(tǒng)籌全局，還承擔了一項獨特的創(chuàng)意決策職責：在每一輪視頻生成開始之前，它會像一位資深導演一樣，率先確定整部廣告的創(chuàng)意方向，然后把這個統(tǒng)一的方向層層傳達給所有下屬模塊，確保從劇本到畫面、從鏡頭運動到背景音樂，每一個環(huán)節(jié)都朝著同一個目標努力。

這套系統(tǒng)在架構上共分為三個主要層級，依次對應影視制作中的前期制作、拍攝制作和后期制作三個階段。

**前期制作智能體**是整個故事的"策劃組"。它拿到用戶提供的簡短產品描述和幾張參考圖片之后，會依次完成四項工作：首先進行"深度研究"，把產品信息和目標人群的文化背景、生活方式融合起來，形成一份詳細的創(chuàng)意簡報；然后根據(jù)這份簡報，一場景一場景地寫出完整劇情；接著針對劇本里出現(xiàn)的每一個人物、道具和場景，生成相應的視覺素材（如果用戶沒有提供的話）；最后把劇情展開成一份詳細的分鏡表，規(guī)定每個鏡頭的視角、運動方式、時間長度，以及背景音樂的節(jié)奏和情緒。

**制作智能體**是把分鏡表變成真實影像的"拍攝組"。它內部又分成三個專屬小組：關鍵幀小組負責為每個場景生成第一幀畫面，相當于在正式拍攝前先拍一張"定妝照"，用來鎖定人物外貌和場景風格，防止后續(xù)視頻生成時人物"變臉"；視頻小組以這些"定妝照"為起點，驅動視頻擴散模型生成每個場景的完整動態(tài)畫面；音頻小組則根據(jù)分鏡表里的音樂指令，生成統(tǒng)一的旁白和背景音樂，合并成一軌完整的音頻。

**后期制作智能體**是最終的"剪輯組"，負責把所有視頻片段按照分鏡表規(guī)定的時序拼接起來，再把音頻精準對齊到視頻上，輸出最終成品。

三、兩套"糾錯機制"：既治標又治本

光有這套流水線還不夠。即便每個模塊都在努力工作，局部錯誤依然有可能溜進來。Co-Director為此設計了兩套相互配合的糾錯機制，一套負責在局部及時發(fā)現(xiàn)并修復問題，另一套負責在全局層面找到最優(yōu)的創(chuàng)意方向。

**局部自我修正**的邏輯，像是給流水線上的每道工序都配備了一位質檢員。這位質檢員會在產品交付到下一道工序之前，先對當前成果打分，如果分數(shù)不達標，就提供具體的改進意見，讓當前模塊重新生成，直到質量過關或者達到嘗試次數(shù)上限為止。

在劇本環(huán)節(jié)，AI會扮演資深創(chuàng)意總監(jiān)的角色，從開場吸引力、敘事連貫性、產品融合度、情感共鳴度和對原始要求的貼合度五個維度對劇本打分。一旦發(fā)現(xiàn)劇本把某款電腦機箱錯誤地描述成了電動升降桌（這種"張冠李戴"的幻覺在AI生成文本中并不罕見），質檢員就會發(fā)出明確的糾錯指令，要求重新生成一版聚焦正確產品的劇本。

在關鍵幀環(huán)節(jié)，質檢員換成了一個能同時看圖的AI，它不會單獨審查每一張畫面，而是把所有場景的畫面放在一起統(tǒng)一審視，專門檢查那些跨場景的連貫性問題：主角的發(fā)色在第一個場景和第四個場景是否一致？產品的顏色和外形從始至終有沒有變化？背景從豪華住宅區(qū)突然跳到無菌實驗室有沒有邏輯支撐？如果發(fā)現(xiàn)問題，質檢員會精準指出哪幾張圖需要重新生成，而不是推倒重來，這樣就保留了已經(jīng)合格的畫面，只修復真正有問題的部分。

四、用"老虎機"找到最佳創(chuàng)意配方

局部糾錯解決的是執(zhí)行層面的問題，但還有一個更根本的問題沒有解決：即便每個場景都執(zhí)行得無懈可擊，整體的創(chuàng)意方向選得對不對？畢竟，同一款運動飲料，既可以拍成勵志的健身故事，也可以拍成清新的生活方式短片，還可以拍成硬核的產品性能對比。哪種方向最能打動目標消費者？

Co-Director用一種叫做**多臂老虎機**的決策算法來回答這個問題。這個算法的名字來自賭場里那種有多個拉桿的老虎機——你不知道哪個拉桿的中獎概率最高，于是你需要在"多試幾個不同拉桿積累信息"和"反復拉已知中獎率最高的拉桿"之間找到平衡。

在Co-Director里，每一個"拉桿"對應一種具體的創(chuàng)意配置，由三個維度共同定義。第一個維度是**創(chuàng)意策略**，決定廣告的核心訴求是什么：是理性地強調產品功能（信息型策略），還是感性地渲染生活方式和心理認同（變革型策略），還是通過與競品對比來突顯優(yōu)勢（比較型策略）。第二個維度是**敘事模式**，決定故事怎么講：是邏輯分析式的直接陳述（無情節(jié)弧線），是幾個氛圍各異的生活片段的拼接（片段式），還是有起承轉合的完整角色故事（敘事戲劇式）。第三個維度是**美學風格**，決定視頻的整體視覺感受：是高亮度、快剪輯、高節(jié)奏的活力感；是強光影對比、慢運鏡、古典配樂的電影質感；是純凈背景、微觀特寫、ASMR音效的極簡風；還是低調光、手持鏡頭、電子合成音效的粗糲真實感。

三個維度分別有若干選項，組合起來總共有36種不同的創(chuàng)意配置。系統(tǒng)不會窮舉每一種組合，而是通過多臂老虎機算法，在幾輪迭代中找到效果最好的配置。每一輪生成完成之后，AI評分員會從創(chuàng)意策略、敘事模式、美學風格三個維度分別打分，把這三個獨立的分數(shù)反饋給老虎機算法，幫助它判斷哪些維度的選擇有效、哪些需要調整。這種分維度打分的設計非常關鍵——如果只給一個總分，系統(tǒng)就無法知道是策略選錯了還是風格選錯了，只能整體放棄重來；而分維度打分，則讓系統(tǒng)能精準地識別出每個決策軸上的好壞，大幅提升了學習效率。

為了避免在最初幾輪就把時間浪費在明顯不合適的方向上，系統(tǒng)還加入了一個"暖機啟動"機制：在第一輪生成開始之前，先讓一個通用AI分析產品特性和目標人群，對各種創(chuàng)意配置的潛在效果做出初步預判，以此作為算法的起點，把早期探索引導到相對合理的方向上。

五、一個專門為"新品牌"設計的測試場

研究團隊不僅構建了Co-Director這套系統(tǒng)，還為評估它的表現(xiàn)設計了一套全新的測試基準，命名為**GenAd-Bench**。

這套測試集之所以值得單獨介紹，是因為它解決了一個評估AI視頻生成系統(tǒng)時普遍存在的"作弊"問題。現(xiàn)有的評測數(shù)據(jù)集大多使用真實品牌的產品，比如讓AI生成一段可口可樂或者耐克的廣告。問題在于，這些品牌的視覺風格、品牌故事和廣告范式在AI的訓練數(shù)據(jù)中大量存在，模型很可能只是在"背答案"——它不是真的在理解需求并創(chuàng)作，而是在復現(xiàn)訓練時見過的內容。

GenAd-Bench的解決方案是：全部使用虛構品牌和虛構產品。研究團隊用AI生成了50個完全不存在的品牌，每個品牌配有4款產品，產品類型跨度極大，從小型消費品到重型工業(yè)設備一應俱全。每款產品都配備了一套AI生成的品牌標志和產品參考圖，生成后經(jīng)過人工審核（約15%的圖片因為各種問題被重新生成），以確保這些視覺素材足夠獨特，不會與現(xiàn)實中的任何品牌產生混淆。

在場景設計上，每款產品都對應兩種截然不同的目標人群設定：一種是"符合刻板印象的"典型用戶（比如給老年人推銷保健品），另一種是"打破刻板印象的"非典型用戶（比如給18歲的滑板少年推銷同款保健品）。這種配對設計專門用來測試AI系統(tǒng)能不能擺脫對"典型用戶"的固有認知，靈活地為各種意想不到的目標群體創(chuàng)作合適的廣告。

最終，這套測試集共涵蓋400個獨立場景，對應183個全球地理位置，在年齡、性別、地域上都保持了均衡分布。歐洲和亞洲的場景數(shù)量最多，但具體涵蓋的地點從北歐小鎮(zhèn)到東南亞海濱城市，從中東集市到南美山區(qū)，刻意避免了以西方視角為中心的文化偏向。

評估時，研究團隊使用一個能同時處理視頻畫面和音頻的多模態(tài)AI擔任評分員，從四個維度對生成視頻打分：視覺資產保真度（生成視頻中的品牌標志和產品圖像與原始參考圖的相似程度）、人群定向準確度（視頻的人物選角、場景環(huán)境和敘事基調是否精準對應目標人群的性別、年齡、地域和興趣愛好）、營銷吸引力（廣告能否抓住注意力、清晰傳遞價值主張、激發(fā)情感共鳴）、視覺質量（畫面是否存在AI特有的變形、閃爍、物理規(guī)律違反等問題）。

為了驗證AI評分員的可靠性，研究團隊還專門組織了一項人工評估實驗，邀請5位獨立評分者對50個場景的視頻進行人工打分，然后把人工打分結果和AI打分結果進行對比。結果顯示，AI評分員在敘事質量類指標（人群定向準確度和營銷吸引力）上與人類評分者的判斷高度吻合，但在視覺質量指標上略有差異——人類評分者在實時觀看視頻時，對短暫出現(xiàn)的畫面異常往往沒那么敏感；而AI評分員逐幀分析，對任何細微的畫面瑕疵都毫不寬容。

六、數(shù)字說話：Co-Director到底強在哪里

研究團隊把Co-Director與市場上形形色色的視頻生成系統(tǒng)放在一起進行了系統(tǒng)比較，涵蓋了專有商業(yè)平臺（包括Creatify、HeyGen兩款專門面向廣告制作的商業(yè)產品，以及Kling 3.0 Omni、Veo 3.1、Wan 2.6三款通用視頻生成模型）和開源多智能體系統(tǒng)（AniMaker、MovieAgent以及Co-Director自身的簡化版本）。

在100分滿分的評分體系下，兩款專門做廣告的商業(yè)平臺表現(xiàn)反而墊底——Creatify平均得分僅22.1分，HeyGen也只有46.7分。這并不奇怪，因為這類平臺依賴的是"說話頭像配靜態(tài)圖片"的拼接方式，面對需要動態(tài)敘事的復雜廣告任務時，先天存在結構性局限。通用視頻模型的表現(xiàn)明顯好得多，Wan 2.6以65.0分領先于同類，Veo 3.1拿到了63.6分。開源多智能體系統(tǒng)AniMaker得到62.2分，MovieAgent稍好為65.3分。

Co-Director僅使用基礎架構（不開啟任何優(yōu)化機制）時就達到了68.5分，證明了它的核心流程設計本身就優(yōu)于現(xiàn)有多智能體方案。開啟4輪隨機搜索（每輪隨機選擇一種創(chuàng)意配置）后，得分躍升至75.7分——這說明多次嘗試、擇優(yōu)選用的策略本身是有價值的，但隨機搜索的效率不高。最終完整版的Co-Director（啟用多臂老虎機優(yōu)化和暖機啟動）在4輪迭代中就達到了81.4分，顯著超過了隨機搜索在相同輪次下的表現(xiàn)。

特別值得一提的是視覺質量這個維度。這是一個與提示詞內容無關的純粹技術質量指標，Co-Director在這里得到了70.2分，而它所使用的底層視頻生成模型Veo 3.1單獨使用時只有50.5分。換句話說，Co-Director的優(yōu)化機制不只是在故事層面起作用，還實實在在地提升了底層生成模型的輸出穩(wěn)定性——通過關鍵幀質檢和多輪優(yōu)化，系統(tǒng)會主動淘汰掉那些物理規(guī)律失真或者畫面跳變嚴重的視頻片段，只把真正質量過關的成品交付出去。

人工評分（MOS）實驗的結果與自動評分高度一致：Co-Director在5位真實人類評分者眼中的綜合得分為3.96分（滿分5分），超過了Veo 3.1的3.71分，大幅領先于AniMaker的3.07分和MovieAgent的3.22分，并且在四個單項維度上全面領先。

消融實驗（也就是逐一"拆掉"某個功能模塊，觀察對總體表現(xiàn)的影響）進一步驗證了每個設計決策的必要性。去掉關鍵幀質檢環(huán)節(jié)，視覺資產保真度分數(shù)暴跌9.8分，說明這一環(huán)節(jié)對于保持產品形象一致性至關重要。去掉劇本質檢環(huán)節(jié)，營銷吸引力和人群定向準確度明顯下滑，說明故事質量直接決定了廣告的說服力。把多維度獎勵信號壓縮成單一總分，視覺資產保真度下降5分，證明分維度打分的設計確實讓算法的學習更加精準。把暖機啟動換成冷啟動，系統(tǒng)在前幾輪的探索方向更加隨機，收斂效率下降。把整個優(yōu)化機制全部關閉（只保留基礎流水線），綜合得分降至67.2分，比完整版低了整整17.6%。

七、不只是廣告：向通用視頻敘事的延伸

研究團隊還進一步驗證了Co-Director的核心能力能否推廣到廣告以外的視頻敘事場景。他們選取了ViStoryBench這個專門評估視頻故事可視化的學術基準進行測試。由于這個基準的輸入是詳細的分鏡腳本和角色參考圖，輸出是靜態(tài)圖像序列而非視頻，研究團隊對Co-Director進行了相應的簡化：跳過劇本生成模塊，只保留關鍵幀生成、局部自我修正和全局優(yōu)化三個核心機制。

在這個相對陌生的測試場景下，Co-Director在風格一致性（跨場景風格得分0.499，單場景內部一致性0.743）和角色一致性（跨場景得分0.499）兩個維度上依然領先于所有對比系統(tǒng)，在對分鏡描述的執(zhí)行準確度上也達到了最高的平均分3.166分。這說明Co-Director維持視覺連貫性和精準執(zhí)行創(chuàng)意方向的能力，確實來自系統(tǒng)架構本身，而不只是對廣告場景的過度定制。

在那些測試中有一個有趣的觀察：Co-Director有時會為"熱鬧的城市街道"場景自動補充一些路人背景角色，這讓畫面看起來更有生活氣息，卻也因此在"場景中實際出現(xiàn)的角色數(shù)量是否與腳本完全匹配"這一指標上失分——因為腳本里沒有專門寫這些路人。這個小插曲恰好說明了Co-Director的創(chuàng)作邏輯：它不是在機械地把文字翻譯成畫面，而是在理解敘事意圖的基礎上，主動作出有利于視覺效果的創(chuàng)作判斷。

八、結語

歸根結底，Co-Director做的事情，是把原本只有大型制作團隊才能完成的"統(tǒng)一創(chuàng)意方向、層層傳達、全程把關"這套工作流，壓縮進了一套可以由單個用戶在幾輪迭代內完成的自動化系統(tǒng)。以往，這種協(xié)調工作需要導演、編劇、美術指導、后期督導之間反復溝通才能實現(xiàn)，而Co-Director通過多臂老虎機算法在頂層統(tǒng)一決策，通過層層注入的創(chuàng)意指令在各模塊間保持一致，通過局部質檢在執(zhí)行層面及時糾偏，用算法模擬了這套協(xié)作機制。

當然，這套系統(tǒng)目前還有明顯的局限性。每完成一輪視頻生成需要消耗相當可觀的計算資源，4輪迭代在實際場景中意味著可觀的時間和成本開銷。生成的視頻固定為12秒4個鏡頭，無法滿足更長敘事的需求。底層視頻生成模型偶爾仍會產生細微的物理規(guī)律違反（比如短暫出現(xiàn)的手部變形），這些問題無法通過上層優(yōu)化完全消除。

不過，這項研究真正有價值的地方，或許不只是那些具體的評分數(shù)字，而是它提供了一個思考框架：當我們希望AI能夠完成復雜的創(chuàng)意性任務時，與其反復堆疊更多獨立的AI模塊，不如認真設計各模塊之間的協(xié)調機制，把全局一致性作為首要設計目標。

對于有興趣進一步了解技術細節(jié)的讀者，可以在arXiv上通過論文編號2604.24842找到完整論文，研究團隊也已承諾開源Co-Director的實現(xiàn)代碼和GenAd-Bench數(shù)據(jù)集，屆時可通過論文中提供的項目主頁獲取。

Q&A

Q1：Co-Director和普通的AI視頻生成工具有什么區(qū)別？

A：Co-Director的根本區(qū)別在于它把整個視頻創(chuàng)作過程當成一個需要統(tǒng)一協(xié)調的整體來處理，而不是把多個獨立AI模塊簡單串聯(lián)。它頂層有一個"總指揮"智能體，負責先確定創(chuàng)意方向，再把這個統(tǒng)一方向傳達給所有下屬模塊，確保劇本、畫面、音樂都朝同一個目標走，從而避免了普通多模塊系統(tǒng)中常見的"人物變臉"和"場景亂跳"問題。

Q2：多臂老虎機算法是怎么幫Co-Director找到最好的廣告創(chuàng)意方向的？

A：多臂老虎機算法的核心是在"探索新方向"和"利用已知最好方向"之間找平衡。Co-Director每完成一輪視頻生成，就讓AI評分員從創(chuàng)意策略、敘事模式、視覺風格三個維度分別打分，這三個分數(shù)分別反饋給算法，讓它能精準判斷哪個維度的選擇有效、哪個需要調整。同時系統(tǒng)在第一輪之前就用通用AI預判哪些方向可能更適合當前產品，避免早期浪費在明顯不合適的方向上。

Q3：GenAd-Bench為什么要用虛構品牌而不是真實品牌來測試？

A：使用真實品牌測試AI系統(tǒng)存在一個根本問題：這些品牌在AI的訓練數(shù)據(jù)里大量出現(xiàn)過，模型很可能只是在"背答案"而不是真正在創(chuàng)作。用完全虛構的品牌和產品，可以確保模型無法依賴記憶中的已有信息，必須真正理解需求并從頭創(chuàng)作，這樣測出來的成績才是真實能力的體現(xiàn)，而不是記憶檢索的結果。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.