![]()
AI視頻模型進(jìn)入“三國(guó)殺”。
AIX財(cái)經(jīng)(AIXcaijing)原創(chuàng)
作者 | 陳丹
編輯 | 魏佳
隨著HappyHorse的正式公測(cè),中國(guó)視頻生成模型進(jìn)入“三國(guó)殺”時(shí)代。
在過(guò)去半年里,字節(jié)的即夢(mèng)(Seedance 2.0)、快手的可靈3.0、阿里的HappyHorse先后登頂 Artificial Analysis視頻模型榜單第一。
「AIX財(cái)經(jīng)」用六段統(tǒng)一的提示詞對(duì)三款模型進(jìn)行了橫向測(cè)試——四組古典藝術(shù)題材、兩組現(xiàn)代落地題材。這六組覆蓋了AI視頻生成關(guān)鍵的能力維度:動(dòng)作敘事、靜態(tài)情緒、多人調(diào)度、文化符號(hào)還原、現(xiàn)代寫實(shí)質(zhì)感、商業(yè)可用性等。
三家模型在敘事密度、鏡頭語(yǔ)言、文化辨識(shí)度上,給出了三種完全不同的解法,也在不同的環(huán)節(jié)翻車,如中文文字亂碼、多人面孔的“克隆人”現(xiàn)象,以及對(duì)特定文化符號(hào)的還原失誤等。
以下是完整的測(cè)試報(bào)告。
01.
測(cè)試一:趙子龍單騎救幼主
提示詞:0-3秒:遠(yuǎn)景。黃昏戰(zhàn)場(chǎng),煙塵彌漫,殘陽(yáng)如血。一員白袍銀甲的年輕將軍單騎自遠(yuǎn)處疾馳而來(lái),白馬奔騰,紅色披風(fēng)在身后獵獵飛揚(yáng)。他懷中緊抱一個(gè)襁褓嬰兒,一手緊握長(zhǎng)槍。
3-6秒:中景。鏡頭跟隨推近,白袍上已濺有斑斑血跡,銀甲反射夕陽(yáng)余暉。他長(zhǎng)槍一挑,挑落迎面而來(lái)的一名敵將,動(dòng)作迅猛如梨花紛飛。四周曹軍黑甲紅旗如潮水般涌動(dòng),他穿插其中。
6-10秒:近景特寫。將軍回首一望,目光堅(jiān)毅決絕,韁繩一帶,白馬長(zhǎng)嘶人立,他低頭看了一眼懷中嬰孩,隨即揚(yáng)槍策馬,沖入更深的塵煙之中。鏡頭定格于他沖入塵霧的背影。
整體:中國(guó)古典戰(zhàn)爭(zhēng)電影質(zhì)感,冷暖對(duì)比強(qiáng)烈——白袍銀甲與黃沙血色的對(duì)比,慢動(dòng)作與實(shí)時(shí)動(dòng)作交錯(cuò),塵土飛揚(yáng),膠片顆粒感,自然光。參考《赤壁》《影》《滿城盡帶黃金甲》戰(zhàn)場(chǎng)鏡頭美學(xué),4K。
難點(diǎn):多鏡頭、多景別、連續(xù)敘事;高速動(dòng)作與慢動(dòng)作交錯(cuò);密集群體交互;特定歷史風(fēng)格與畫面質(zhì)感。
戰(zhàn)爭(zhēng)戲是影視拍攝難度最高的場(chǎng)面之一。模型生成單鏡頭大片感畫面并不難,難的是連續(xù)切換景別還能保持?jǐn)⑹逻B續(xù)——馬的顏色變了、披風(fēng)消失、人物面孔在鏡頭切換間漂移,是這類生成最常見(jiàn)的翻車方式。
這段提示詞把難度疊在了一起:景別從遠(yuǎn)景到近景,節(jié)奏實(shí)時(shí)與慢動(dòng)作交錯(cuò),趙子龍、白馬等多主體調(diào)度,三層挑戰(zhàn)同時(shí)存在。任何一層失控,畫面就垮。
![]()
視頻:長(zhǎng)坂坡趙子龍(即夢(mèng)版)
Seedance2.0的執(zhí)行最完整。白馬、銀甲、紅披風(fēng)、懷抱襁褓、長(zhǎng)槍、敵軍紅旗、夕陽(yáng)戰(zhàn)場(chǎng)這些提示詞里的視覺(jué)要素幾乎全部命中;趙子龍臉頰的傷痕、銀甲上的血跡這類細(xì)節(jié)也按提示詞如實(shí)生成。最關(guān)鍵的是敘事密度,它在10秒內(nèi)完成了沖入戰(zhàn)場(chǎng)—挑落敵將—回首決絕—沖入塵煙的完整動(dòng)作弧線,幾乎是對(duì)提示詞的逐句還原。
![]()
視頻:長(zhǎng)坂坡趙子龍(可靈版)
可靈3.0單幀畫面質(zhì)感好,第5秒那一幀,盔甲花紋、披風(fēng)紋理、群演調(diào)度等細(xì)節(jié)非常充實(shí)。但它實(shí)際敘事內(nèi)容只完成了“沖入戰(zhàn)場(chǎng)”這一個(gè)動(dòng)作,即夢(mèng)用4秒講完的事,可靈用5秒只講了一半。
![]()
視頻:長(zhǎng)坂坡趙子龍(HappyHorse)
HappyHorse在畫面風(fēng)格上偏離了提示詞。提示詞要求的是《赤壁》《影》一類的實(shí)拍電影質(zhì)感,HappyHorse給出的卻是3D游戲的CG畫風(fēng),煙塵飽和度過(guò)高、寫實(shí)感偏弱、背景群演面目模糊。在敘事密度上,它最弱。
02.
測(cè)試二:黛玉焚稿
提示詞:燭光昏暗的臥房?jī)?nèi),一名病弱的年輕女子(林黛玉)坐于火盆前,手持詩(shī)稿緩緩?fù)度牖鹬小;鸸庥痴账n白消瘦的面容,紙灰隨熱氣飛起。鏡頭近景固定,極淺景深,光影對(duì)比強(qiáng)烈。
難點(diǎn):靜態(tài)情緒表演、"哀而不傷"的復(fù)雜情緒傳達(dá);古典室內(nèi)空間的光影氛圍;火焰與紙張的物理表現(xiàn)。
![]()
視頻:黛玉焚稿(依次是Seedance2.0、可靈3.0、HappyHorse)
如果說(shuō)趙子龍考驗(yàn)的是模型的動(dòng)作能力,那黛玉焚稿考驗(yàn)的就是模型的表演能力。它沒(méi)有劇烈動(dòng)作、沒(méi)有復(fù)雜場(chǎng)景,幾乎所有信息都靠一張臉表達(dá)。這一組的真正難度在于復(fù)雜情緒的層次,模型必須在10秒內(nèi),通過(guò)面部微表情而不是動(dòng)作來(lái)傳達(dá)人物情感的復(fù)雜性。
Seedance2.0的表演水準(zhǔn)接近古裝劇的演員特寫。視頻中的黛玉情緒是克制、壓抑的哀。后段有一幀人物含淚帶笑、似哭非哭,表現(xiàn)出了黛玉“哀而不傷”的復(fù)雜感情。
可靈3.0把燭光、火盆、淡青色衣襟、深色木結(jié)構(gòu)組成了一個(gè)冷暖對(duì)比的工整構(gòu)圖。它處理“焚稿”這個(gè)動(dòng)作時(shí)給出了一個(gè)比即夢(mèng)更具敘事鋪墊的鏡頭——先凝視詩(shī)稿,再放入火焰,表達(dá)黛玉焚稿前的猶豫,但人物表演的層次稍弱。
HappyHorse開(kāi)場(chǎng)把火焰直接擋在人物面前,后段鏡頭才切換到人物正面,人物眉頭微蹙、眼眶泛紅、神情哀痛,比可靈的人物情緒更有帶動(dòng)性,但更像是一種動(dòng)漫女主式的夸張表達(dá)。
03.
測(cè)試三:溫酒斬華雄
提示詞:溫酒斬華雄,關(guān)羽推簾而入。古代軍帳內(nèi),眾將領(lǐng)圍坐于桌前神情凝重。帳外遠(yuǎn)處傳來(lái)馬蹄聲與金鼓聲。一員紅袍長(zhǎng)髯的將軍掀開(kāi)帳簾大步而入,將手中物件擲于桌上。鏡頭從帳內(nèi)眾人轉(zhuǎn)向帳門,跟隨入帳之人轉(zhuǎn)身回到桌前。
難點(diǎn):多場(chǎng)景跨越敘事(帳內(nèi)等候-關(guān)羽歸來(lái));關(guān)羽人物形象的精確還原;多人凝視一人的場(chǎng)面調(diào)度;暗示性敘事(斬華雄不直接展示)。
![]()
視頻:溫酒斬華雄(依次是Seedance2.0、可靈3.0、HappyHorse)
這段提示詞要求模型完成一個(gè)真正的電影敘事:兩個(gè)空間(帳內(nèi)、帳外)、兩個(gè)時(shí)間(關(guān)羽離去、歸來(lái))、一組角色關(guān)系(凝重的眾將VS歸來(lái)的關(guān)羽),要講一個(gè)事件。
主角辨識(shí)度也是難點(diǎn)之一。關(guān)羽是中國(guó)文化里高度符號(hào)化的形象,青龍偃月刀、長(zhǎng)髯過(guò)腹、丹鳳眼,任何一項(xiàng)缺失,這個(gè)人物就立不住。
這一組,三家模型都翻車了。
Seedance2.0幾乎呈現(xiàn)了關(guān)羽的所有視覺(jué)符號(hào)。但視頻后半段出現(xiàn)了空間穿模,關(guān)羽將手中物件原本擱在桌面靠近自己的一側(cè),下一幀卻跳到了桌面另一側(cè),身旁眾將的視線也隨之轉(zhuǎn)向另一邊。主體一致性在10秒內(nèi)出現(xiàn)了斷裂。此外,提示詞中“溫酒”這一關(guān)鍵細(xì)節(jié),即夢(mèng)完全沒(méi)有表現(xiàn)。
可靈3.0和HappyHorse的關(guān)羽辨識(shí)度都不足,紅袍是有的,但長(zhǎng)髯過(guò)腹這些關(guān)羽的核心視覺(jué)符號(hào)缺失。“斬首歸來(lái)”這一核心動(dòng)作兩家也都沒(méi)有表現(xiàn)。關(guān)羽手中之物被理解為酒壺,而不是華雄的首級(jí)。動(dòng)作也變成了“溫酒入帳”,敘事的核心反轉(zhuǎn)完全消失。
值得專門指出的是,這一組鏡頭幾乎集中暴露了AI生成多人時(shí)的標(biāo)志性問(wèn)題:幾位將軍的面孔高度雷同,同樣的胡須、同樣的發(fā)型、同樣的盔甲,這是典型的“克隆人”翻車。
04.
測(cè)試四:元妃省親
提示詞:夜晚的中國(guó)古典園林,亭臺(tái)樓閣燈火通明,處處懸掛紅色宮燈。香煙繚繞,花影婆娑。仕女們身著華麗古裝在長(zhǎng)廊中緩步行走。鏡頭緩慢橫移,展現(xiàn)園林全景。柔和暖光,中國(guó)古典電影美學(xué)。
難點(diǎn):多元素靜態(tài)場(chǎng)景調(diào)度;復(fù)雜建筑空間還原;群體仕女形態(tài)一致性;古典園林夜景的光影氛圍。
![]()
視頻:元妃省親(依次是Seedance2.0、可靈3.0、HappyHorse)
這組測(cè)試考驗(yàn)的是模型的東方美學(xué)還原能力,它不像戰(zhàn)場(chǎng)戲那樣靠動(dòng)作密度贏得視覺(jué)刺激,而是靠靜態(tài)畫面里的元素精度。飛檐、雕梁、宮燈、長(zhǎng)廊、香煙、水面倒影、人物服裝,這些元素中任何一項(xiàng)出錯(cuò),整個(gè)畫面就會(huì)“塑料化”。
Seedance2.0的畫面以人物為主體,敘事感最強(qiáng)。一隊(duì)仕女緩步行進(jìn)于水邊長(zhǎng)廊,服色錯(cuò)落有致,發(fā)髻整齊統(tǒng)一。鏡頭從水面倒影開(kāi)始,逐步帶出建筑、燈籠、再到行進(jìn)的隊(duì)列,信息密度層層遞進(jìn)。
可靈3.0的建筑更有質(zhì)感,池塘霧氣和水面倒影更是接近實(shí)拍。但開(kāi)篇近5秒幾乎是建筑空鏡,人物只在畫面邊緣晃過(guò);直到后半段鏡頭切換才出現(xiàn)仕女特寫。在這組鏡頭設(shè)計(jì)上更重場(chǎng)景,輕人物。
HappyHorse前7秒全是空鏡,仰拍燈籠、煙霧、閣樓,鏡頭在建筑間游移,完全沒(méi)有人物。到最后2秒才讓兩位紅衣綠裙的仕女緩步入畫。雖然后兩秒人物的服飾精度、面容質(zhì)感、回廊光影都可圈可點(diǎn),但整個(gè)視頻沒(méi)有表現(xiàn)出省親主題。
05.
測(cè)試五:早高峰地鐵
提示詞:早高峰的地鐵車廂,鏡頭緩慢橫移掃過(guò)幾位乘客。有人低頭看手機(jī),有人靠窗打盹,有人帶著耳機(jī)望向窗外。車廂輕微搖晃,窗外隧道燈光快速掠過(guò)。
難點(diǎn):現(xiàn)代城市場(chǎng)景的真實(shí)質(zhì)感;多人物群像;通勤者狀態(tài)的精準(zhǔn)刻畫;地鐵車廂內(nèi)部細(xì)節(jié)。
![]()
視頻:早高峰地鐵(依次是Seedance2.0、可靈3.0、HappyHorse)
這組測(cè)試的是純現(xiàn)代寫實(shí)場(chǎng)景,任何一處違和,如錯(cuò)誤的扶手形制、錯(cuò)位的廣告牌、不像中國(guó)人的面孔、不真實(shí)的擁擠密度,都會(huì)讓觀眾出戲。尤其值得指出的是,這組測(cè)試具有高度的地域性,北上廣深的地鐵幾乎都有自己的車廂風(fēng)格,人群的構(gòu)成、車廂廣告等細(xì)節(jié)很容易出現(xiàn)錯(cuò)位。
Seedance2.0在地域上出現(xiàn)了明顯偏移。它的車廂內(nèi)部精度接近實(shí)拍,不銹鋼扶手、白色拉環(huán)、車門、廣告位、座椅藍(lán)色、人物姿態(tài)也很自然。但問(wèn)題在于,畫面整體看起來(lái)像韓國(guó)地鐵,廣告牌上的疑似韓文、車廂風(fēng)格、人物面孔都偏韓系。
可靈3.0是三家中地域識(shí)別最準(zhǔn)確的,車廂風(fēng)格、宣傳海報(bào)、廣告LED屏、“禁止吸煙”標(biāo)識(shí)等,都是國(guó)內(nèi)地鐵的標(biāo)準(zhǔn)配置。可靈的畫面同樣精度高,人物狀態(tài)也真實(shí)。但它的問(wèn)題是另一個(gè)維度的,車廂太空曠,不像早高峰。
HappyHorse是這一組的意外反超者。它最準(zhǔn)確還原了早高峰的擁擠感,密集的站立通勤者、西裝上班族在低頭刷手機(jī)、戴圍巾的中年女士、座位上閉眼休息的乘客。
06.
測(cè)試六:林黛玉直播帶貨
提示詞:現(xiàn)代直播間內(nèi),一位古裝少女(林黛玉)坐于精美中式書房布景前,身著月白色繡花襦裙,手持一瓶護(hù)膚精華,面帶淺笑娓娓而談。她體態(tài)柔弱清瘦,眉間略帶憂郁。背景有書架、瓷瓶、綠植,環(huán)形補(bǔ)光燈打在她臉上,桌前可見(jiàn)彈幕飄過(guò)的屏幕剪影。
難點(diǎn):古今元素融合的合理性;直播間布景的現(xiàn)代真實(shí)感;古典人物氣質(zhì)的精確還原;產(chǎn)品特寫的商業(yè)可用性;直播表演的微表情。
![]()
視頻:林黛玉帶貨(依次是Seedance2.0、可靈3.0、HappyHorse)
這段提示詞的難點(diǎn)不在于任何單一元素,而在于合不能讓觀眾笑場(chǎng),也不能顯得違和。
即夢(mèng)的完成度最高,人物辨識(shí)度也最準(zhǔn)。清雅氣質(zhì)、憂郁眉眼,黛玉的人物特征被準(zhǔn)確捕捉。同時(shí),環(huán)形補(bǔ)光燈、蘋果筆記本、iPhone取景器、產(chǎn)品禮盒、新中式書房布景也全部到位。人物的口型自然、眼神溫和、刺繡細(xì)節(jié)清晰可見(jiàn)。它讓黛玉和直播間在同一個(gè)畫面里看起來(lái)是合理的,而不是滑稽的。
可靈3.0在鏡頭視角上做了最大膽的設(shè)計(jì)。它沒(méi)有正面拍“穿古裝的人在直播”,而是給出了一個(gè)直播間外的觀眾視角:前景是一臺(tái)顯示著密密麻麻彈幕的屏幕,后景才是身著古裝的少女在直播。這種視角設(shè)計(jì)還原了直播間這個(gè)空間的層次感,沒(méi)有把它當(dāng)成一個(gè)普通背景。但人物氣質(zhì)偏離了黛玉。
HappyHorse人物鏡頭出現(xiàn)了嚴(yán)重翻車。主播臉部被一塊發(fā)光的白色光斑遮擋,可能是模型把環(huán)形補(bǔ)光燈的反射誤生成在了人物面部上;產(chǎn)品特寫鏡頭中又出現(xiàn)了三只手,這是AI生成手部時(shí)最常見(jiàn)的物理翻車之一。
值得注意的是,中文文字生成這個(gè)公認(rèn)的軟肋。可靈3.0和HappyHorse模型都給出了帶彈幕屏的畫面,但所有彈幕文字都是糊的亂碼。
07.
結(jié)語(yǔ)
這六組測(cè)試打下來(lái),三家模型的水平差距明顯。
Seedance 2.0是這次測(cè)試?yán)锞C合完成度最高的,核心優(yōu)勢(shì)在于敘事密度,能在10秒內(nèi)把提示詞里的動(dòng)作弧線基本跑完,趙子龍一戰(zhàn)幾乎是逐句還原,黛玉焚稿也給出了哀而不傷的情緒層次。但它并非沒(méi)有短板,溫酒斬華雄出現(xiàn)了空間穿模。
可靈3.0的單幀質(zhì)量是三家里最穩(wěn)的,黛玉焚稿的燭光構(gòu)圖、元妃省親的水面倒影、地鐵場(chǎng)景的標(biāo)識(shí)細(xì)節(jié),每一幀單獨(dú)截出來(lái)都經(jīng)得住放大看。但在連續(xù)敘事上仍有所欠缺,有時(shí)場(chǎng)景交代充分,人物和事件姍姍來(lái)遲。
HappyHorse作為三家里最新公測(cè)的模型,它在局部精度與某些場(chǎng)景表現(xiàn)突出,但整體穩(wěn)定性與風(fēng)格仍有待探索,例如,在趙子龍測(cè)試中給出3D游戲CG風(fēng)格,元妃省親前七秒全是空鏡。
需要注意的是,不同效果背后,各家的收費(fèi)也有差異。「AIX財(cái)經(jīng)」同時(shí)購(gòu)買了即夢(mèng)、HappyHorse最高等級(jí)會(huì)員、可靈鉑金會(huì)員,價(jià)格分別為499元、188元和186元,生成一段視頻三家分別需要330積分、160積分和96積分。
另外,三家模型存在共同沒(méi)有解決的問(wèn)題,也代表著當(dāng)前AI視頻生成的天花板。例如,沒(méi)有一家能在畫面里穩(wěn)定生成可讀的中文,多人面孔一致性也是集體翻車點(diǎn)。
總結(jié)來(lái)看,三家模型都能生成好看的畫面,但還沒(méi)有一家能穩(wěn)定生成一個(gè)完整的故事。AI視頻生成要邁向“精準(zhǔn)敘事”的專業(yè)創(chuàng)作門檻,還需要時(shí)間。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.