網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

即夢(mèng)、可靈、HappyHorse三強(qiáng)測(cè)評(píng)，誰(shuí)翻車了？

2026-04-28 23:30:29　來(lái)源: AIX財(cái)經(jīng)

北京舉報(bào)

分享至

AI視頻模型進(jìn)入“三國(guó)殺”。

AIX財(cái)經(jīng)（AIXcaijing）原創(chuàng)

作者 | 陳丹

編輯 | 魏佳

隨著HappyHorse的正式公測(cè)，中國(guó)視頻生成模型進(jìn)入“三國(guó)殺”時(shí)代。

在過(guò)去半年里，字節(jié)的即夢(mèng)（Seedance 2.0）、快手的可靈3.0、阿里的HappyHorse先后登頂 Artificial Analysis視頻模型榜單第一。

「AIX財(cái)經(jīng)」用六段統(tǒng)一的提示詞對(duì)三款模型進(jìn)行了橫向測(cè)試——四組古典藝術(shù)題材、兩組現(xiàn)代落地題材。這六組覆蓋了AI視頻生成關(guān)鍵的能力維度：動(dòng)作敘事、靜態(tài)情緒、多人調(diào)度、文化符號(hào)還原、現(xiàn)代寫實(shí)質(zhì)感、商業(yè)可用性等。

三家模型在敘事密度、鏡頭語(yǔ)言、文化辨識(shí)度上，給出了三種完全不同的解法，也在不同的環(huán)節(jié)翻車，如中文文字亂碼、多人面孔的“克隆人”現(xiàn)象，以及對(duì)特定文化符號(hào)的還原失誤等。

以下是完整的測(cè)試報(bào)告。

01.

測(cè)試一：趙子龍單騎救幼主

提示詞：0-3秒：遠(yuǎn)景。黃昏戰(zhàn)場(chǎng)，煙塵彌漫，殘陽(yáng)如血。一員白袍銀甲的年輕將軍單騎自遠(yuǎn)處疾馳而來(lái)，白馬奔騰，紅色披風(fēng)在身后獵獵飛揚(yáng)。他懷中緊抱一個(gè)襁褓嬰兒，一手緊握長(zhǎng)槍。

3-6秒：中景。鏡頭跟隨推近，白袍上已濺有斑斑血跡，銀甲反射夕陽(yáng)余暉。他長(zhǎng)槍一挑，挑落迎面而來(lái)的一名敵將，動(dòng)作迅猛如梨花紛飛。四周曹軍黑甲紅旗如潮水般涌動(dòng)，他穿插其中。

6-10秒：近景特寫。將軍回首一望，目光堅(jiān)毅決絕，韁繩一帶，白馬長(zhǎng)嘶人立，他低頭看了一眼懷中嬰孩，隨即揚(yáng)槍策馬，沖入更深的塵煙之中。鏡頭定格于他沖入塵霧的背影。

整體：中國(guó)古典戰(zhàn)爭(zhēng)電影質(zhì)感，冷暖對(duì)比強(qiáng)烈——白袍銀甲與黃沙血色的對(duì)比，慢動(dòng)作與實(shí)時(shí)動(dòng)作交錯(cuò)，塵土飛揚(yáng)，膠片顆粒感，自然光。參考《赤壁》《影》《滿城盡帶黃金甲》戰(zhàn)場(chǎng)鏡頭美學(xué)，4K。

難點(diǎn)：多鏡頭、多景別、連續(xù)敘事；高速動(dòng)作與慢動(dòng)作交錯(cuò)；密集群體交互；特定歷史風(fēng)格與畫面質(zhì)感。

戰(zhàn)爭(zhēng)戲是影視拍攝難度最高的場(chǎng)面之一。模型生成單鏡頭大片感畫面并不難，難的是連續(xù)切換景別還能保持?jǐn)⑹逻B續(xù)——馬的顏色變了、披風(fēng)消失、人物面孔在鏡頭切換間漂移，是這類生成最常見(jiàn)的翻車方式。

這段提示詞把難度疊在了一起：景別從遠(yuǎn)景到近景，節(jié)奏實(shí)時(shí)與慢動(dòng)作交錯(cuò)，趙子龍、白馬等多主體調(diào)度，三層挑戰(zhàn)同時(shí)存在。任何一層失控，畫面就垮。

視頻：長(zhǎng)坂坡趙子龍（即夢(mèng)版）

Seedance2.0的執(zhí)行最完整。白馬、銀甲、紅披風(fēng)、懷抱襁褓、長(zhǎng)槍、敵軍紅旗、夕陽(yáng)戰(zhàn)場(chǎng)這些提示詞里的視覺(jué)要素幾乎全部命中；趙子龍臉頰的傷痕、銀甲上的血跡這類細(xì)節(jié)也按提示詞如實(shí)生成。最關(guān)鍵的是敘事密度，它在10秒內(nèi)完成了沖入戰(zhàn)場(chǎng)—挑落敵將—回首決絕—沖入塵煙的完整動(dòng)作弧線，幾乎是對(duì)提示詞的逐句還原。

視頻：長(zhǎng)坂坡趙子龍（可靈版）

可靈3.0單幀畫面質(zhì)感好，第5秒那一幀，盔甲花紋、披風(fēng)紋理、群演調(diào)度等細(xì)節(jié)非常充實(shí)。但它實(shí)際敘事內(nèi)容只完成了“沖入戰(zhàn)場(chǎng)”這一個(gè)動(dòng)作，即夢(mèng)用4秒講完的事，可靈用5秒只講了一半。

視頻：長(zhǎng)坂坡趙子龍（HappyHorse）

HappyHorse在畫面風(fēng)格上偏離了提示詞。提示詞要求的是《赤壁》《影》一類的實(shí)拍電影質(zhì)感，HappyHorse給出的卻是3D游戲的CG畫風(fēng)，煙塵飽和度過(guò)高、寫實(shí)感偏弱、背景群演面目模糊。在敘事密度上，它最弱。

02.

測(cè)試二：黛玉焚稿

提示詞：燭光昏暗的臥房?jī)?nèi)，一名病弱的年輕女子（林黛玉）坐于火盆前，手持詩(shī)稿緩緩?fù)度牖鹬小；鸸庥痴账n白消瘦的面容，紙灰隨熱氣飛起。鏡頭近景固定，極淺景深，光影對(duì)比強(qiáng)烈。

難點(diǎn)：靜態(tài)情緒表演、"哀而不傷"的復(fù)雜情緒傳達(dá)；古典室內(nèi)空間的光影氛圍；火焰與紙張的物理表現(xiàn)。

視頻：黛玉焚稿（依次是Seedance2.0、可靈3.0、HappyHorse）

如果說(shuō)趙子龍考驗(yàn)的是模型的動(dòng)作能力，那黛玉焚稿考驗(yàn)的就是模型的表演能力。它沒(méi)有劇烈動(dòng)作、沒(méi)有復(fù)雜場(chǎng)景，幾乎所有信息都靠一張臉表達(dá)。這一組的真正難度在于復(fù)雜情緒的層次，模型必須在10秒內(nèi)，通過(guò)面部微表情而不是動(dòng)作來(lái)傳達(dá)人物情感的復(fù)雜性。

Seedance2.0的表演水準(zhǔn)接近古裝劇的演員特寫。視頻中的黛玉情緒是克制、壓抑的哀。后段有一幀人物含淚帶笑、似哭非哭，表現(xiàn)出了黛玉“哀而不傷”的復(fù)雜感情。

可靈3.0把燭光、火盆、淡青色衣襟、深色木結(jié)構(gòu)組成了一個(gè)冷暖對(duì)比的工整構(gòu)圖。它處理“焚稿”這個(gè)動(dòng)作時(shí)給出了一個(gè)比即夢(mèng)更具敘事鋪墊的鏡頭——先凝視詩(shī)稿，再放入火焰，表達(dá)黛玉焚稿前的猶豫，但人物表演的層次稍弱。

HappyHorse開(kāi)場(chǎng)把火焰直接擋在人物面前，后段鏡頭才切換到人物正面，人物眉頭微蹙、眼眶泛紅、神情哀痛，比可靈的人物情緒更有帶動(dòng)性，但更像是一種動(dòng)漫女主式的夸張表達(dá)。

03.

測(cè)試三：溫酒斬華雄

提示詞：溫酒斬華雄，關(guān)羽推簾而入。古代軍帳內(nèi)，眾將領(lǐng)圍坐于桌前神情凝重。帳外遠(yuǎn)處傳來(lái)馬蹄聲與金鼓聲。一員紅袍長(zhǎng)髯的將軍掀開(kāi)帳簾大步而入，將手中物件擲于桌上。鏡頭從帳內(nèi)眾人轉(zhuǎn)向帳門，跟隨入帳之人轉(zhuǎn)身回到桌前。

難點(diǎn)：多場(chǎng)景跨越敘事（帳內(nèi)等候-關(guān)羽歸來(lái)）；關(guān)羽人物形象的精確還原；多人凝視一人的場(chǎng)面調(diào)度；暗示性敘事（斬華雄不直接展示）。

視頻：溫酒斬華雄（依次是Seedance2.0、可靈3.0、HappyHorse）

這段提示詞要求模型完成一個(gè)真正的電影敘事：兩個(gè)空間（帳內(nèi)、帳外）、兩個(gè)時(shí)間（關(guān)羽離去、歸來(lái)）、一組角色關(guān)系（凝重的眾將VS歸來(lái)的關(guān)羽），要講一個(gè)事件。

主角辨識(shí)度也是難點(diǎn)之一。關(guān)羽是中國(guó)文化里高度符號(hào)化的形象，青龍偃月刀、長(zhǎng)髯過(guò)腹、丹鳳眼，任何一項(xiàng)缺失，這個(gè)人物就立不住。

這一組，三家模型都翻車了。

Seedance2.0幾乎呈現(xiàn)了關(guān)羽的所有視覺(jué)符號(hào)。但視頻后半段出現(xiàn)了空間穿模，關(guān)羽將手中物件原本擱在桌面靠近自己的一側(cè)，下一幀卻跳到了桌面另一側(cè)，身旁眾將的視線也隨之轉(zhuǎn)向另一邊。主體一致性在10秒內(nèi)出現(xiàn)了斷裂。此外，提示詞中“溫酒”這一關(guān)鍵細(xì)節(jié)，即夢(mèng)完全沒(méi)有表現(xiàn)。

可靈3.0和HappyHorse的關(guān)羽辨識(shí)度都不足，紅袍是有的，但長(zhǎng)髯過(guò)腹這些關(guān)羽的核心視覺(jué)符號(hào)缺失。“斬首歸來(lái)”這一核心動(dòng)作兩家也都沒(méi)有表現(xiàn)。關(guān)羽手中之物被理解為酒壺，而不是華雄的首級(jí)。動(dòng)作也變成了“溫酒入帳”，敘事的核心反轉(zhuǎn)完全消失。

值得專門指出的是，這一組鏡頭幾乎集中暴露了AI生成多人時(shí)的標(biāo)志性問(wèn)題：幾位將軍的面孔高度雷同，同樣的胡須、同樣的發(fā)型、同樣的盔甲，這是典型的“克隆人”翻車。

04.

測(cè)試四：元妃省親

提示詞：夜晚的中國(guó)古典園林，亭臺(tái)樓閣燈火通明，處處懸掛紅色宮燈。香煙繚繞，花影婆娑。仕女們身著華麗古裝在長(zhǎng)廊中緩步行走。鏡頭緩慢橫移，展現(xiàn)園林全景。柔和暖光，中國(guó)古典電影美學(xué)。

難點(diǎn)：多元素靜態(tài)場(chǎng)景調(diào)度；復(fù)雜建筑空間還原；群體仕女形態(tài)一致性；古典園林夜景的光影氛圍。

視頻：元妃省親（依次是Seedance2.0、可靈3.0、HappyHorse）

這組測(cè)試考驗(yàn)的是模型的東方美學(xué)還原能力，它不像戰(zhàn)場(chǎng)戲那樣靠動(dòng)作密度贏得視覺(jué)刺激，而是靠靜態(tài)畫面里的元素精度。飛檐、雕梁、宮燈、長(zhǎng)廊、香煙、水面倒影、人物服裝，這些元素中任何一項(xiàng)出錯(cuò)，整個(gè)畫面就會(huì)“塑料化”。

Seedance2.0的畫面以人物為主體，敘事感最強(qiáng)。一隊(duì)仕女緩步行進(jìn)于水邊長(zhǎng)廊，服色錯(cuò)落有致，發(fā)髻整齊統(tǒng)一。鏡頭從水面倒影開(kāi)始，逐步帶出建筑、燈籠、再到行進(jìn)的隊(duì)列，信息密度層層遞進(jìn)。

可靈3.0的建筑更有質(zhì)感，池塘霧氣和水面倒影更是接近實(shí)拍。但開(kāi)篇近5秒幾乎是建筑空鏡，人物只在畫面邊緣晃過(guò)；直到后半段鏡頭切換才出現(xiàn)仕女特寫。在這組鏡頭設(shè)計(jì)上更重場(chǎng)景，輕人物。

HappyHorse前7秒全是空鏡，仰拍燈籠、煙霧、閣樓，鏡頭在建筑間游移，完全沒(méi)有人物。到最后2秒才讓兩位紅衣綠裙的仕女緩步入畫。雖然后兩秒人物的服飾精度、面容質(zhì)感、回廊光影都可圈可點(diǎn)，但整個(gè)視頻沒(méi)有表現(xiàn)出省親主題。

05.

測(cè)試五：早高峰地鐵

提示詞：早高峰的地鐵車廂，鏡頭緩慢橫移掃過(guò)幾位乘客。有人低頭看手機(jī)，有人靠窗打盹，有人帶著耳機(jī)望向窗外。車廂輕微搖晃，窗外隧道燈光快速掠過(guò)。

難點(diǎn)：現(xiàn)代城市場(chǎng)景的真實(shí)質(zhì)感；多人物群像；通勤者狀態(tài)的精準(zhǔn)刻畫；地鐵車廂內(nèi)部細(xì)節(jié)。

視頻：早高峰地鐵（依次是Seedance2.0、可靈3.0、HappyHorse）

這組測(cè)試的是純現(xiàn)代寫實(shí)場(chǎng)景，任何一處違和，如錯(cuò)誤的扶手形制、錯(cuò)位的廣告牌、不像中國(guó)人的面孔、不真實(shí)的擁擠密度，都會(huì)讓觀眾出戲。尤其值得指出的是，這組測(cè)試具有高度的地域性，北上廣深的地鐵幾乎都有自己的車廂風(fēng)格，人群的構(gòu)成、車廂廣告等細(xì)節(jié)很容易出現(xiàn)錯(cuò)位。

Seedance2.0在地域上出現(xiàn)了明顯偏移。它的車廂內(nèi)部精度接近實(shí)拍，不銹鋼扶手、白色拉環(huán)、車門、廣告位、座椅藍(lán)色、人物姿態(tài)也很自然。但問(wèn)題在于，畫面整體看起來(lái)像韓國(guó)地鐵，廣告牌上的疑似韓文、車廂風(fēng)格、人物面孔都偏韓系。

可靈3.0是三家中地域識(shí)別最準(zhǔn)確的，車廂風(fēng)格、宣傳海報(bào)、廣告LED屏、“禁止吸煙”標(biāo)識(shí)等，都是國(guó)內(nèi)地鐵的標(biāo)準(zhǔn)配置。可靈的畫面同樣精度高，人物狀態(tài)也真實(shí)。但它的問(wèn)題是另一個(gè)維度的，車廂太空曠，不像早高峰。

HappyHorse是這一組的意外反超者。它最準(zhǔn)確還原了早高峰的擁擠感，密集的站立通勤者、西裝上班族在低頭刷手機(jī)、戴圍巾的中年女士、座位上閉眼休息的乘客。

06.

測(cè)試六：林黛玉直播帶貨

提示詞：現(xiàn)代直播間內(nèi)，一位古裝少女（林黛玉）坐于精美中式書房布景前，身著月白色繡花襦裙，手持一瓶護(hù)膚精華，面帶淺笑娓娓而談。她體態(tài)柔弱清瘦，眉間略帶憂郁。背景有書架、瓷瓶、綠植，環(huán)形補(bǔ)光燈打在她臉上，桌前可見(jiàn)彈幕飄過(guò)的屏幕剪影。

難點(diǎn)：古今元素融合的合理性；直播間布景的現(xiàn)代真實(shí)感；古典人物氣質(zhì)的精確還原；產(chǎn)品特寫的商業(yè)可用性；直播表演的微表情。

視頻：林黛玉帶貨（依次是Seedance2.0、可靈3.0、HappyHorse）

這段提示詞的難點(diǎn)不在于任何單一元素，而在于合不能讓觀眾笑場(chǎng)，也不能顯得違和。

即夢(mèng)的完成度最高，人物辨識(shí)度也最準(zhǔn)。清雅氣質(zhì)、憂郁眉眼，黛玉的人物特征被準(zhǔn)確捕捉。同時(shí)，環(huán)形補(bǔ)光燈、蘋果筆記本、iPhone取景器、產(chǎn)品禮盒、新中式書房布景也全部到位。人物的口型自然、眼神溫和、刺繡細(xì)節(jié)清晰可見(jiàn)。它讓黛玉和直播間在同一個(gè)畫面里看起來(lái)是合理的，而不是滑稽的。

可靈3.0在鏡頭視角上做了最大膽的設(shè)計(jì)。它沒(méi)有正面拍“穿古裝的人在直播”，而是給出了一個(gè)直播間外的觀眾視角：前景是一臺(tái)顯示著密密麻麻彈幕的屏幕，后景才是身著古裝的少女在直播。這種視角設(shè)計(jì)還原了直播間這個(gè)空間的層次感，沒(méi)有把它當(dāng)成一個(gè)普通背景。但人物氣質(zhì)偏離了黛玉。

HappyHorse人物鏡頭出現(xiàn)了嚴(yán)重翻車。主播臉部被一塊發(fā)光的白色光斑遮擋，可能是模型把環(huán)形補(bǔ)光燈的反射誤生成在了人物面部上；產(chǎn)品特寫鏡頭中又出現(xiàn)了三只手，這是AI生成手部時(shí)最常見(jiàn)的物理翻車之一。

值得注意的是，中文文字生成這個(gè)公認(rèn)的軟肋。可靈3.0和HappyHorse模型都給出了帶彈幕屏的畫面，但所有彈幕文字都是糊的亂碼。

07.

結(jié)語(yǔ)

這六組測(cè)試打下來(lái)，三家模型的水平差距明顯。

Seedance 2.0是這次測(cè)試?yán)锞C合完成度最高的，核心優(yōu)勢(shì)在于敘事密度，能在10秒內(nèi)把提示詞里的動(dòng)作弧線基本跑完，趙子龍一戰(zhàn)幾乎是逐句還原，黛玉焚稿也給出了哀而不傷的情緒層次。但它并非沒(méi)有短板，溫酒斬華雄出現(xiàn)了空間穿模。

可靈3.0的單幀質(zhì)量是三家里最穩(wěn)的，黛玉焚稿的燭光構(gòu)圖、元妃省親的水面倒影、地鐵場(chǎng)景的標(biāo)識(shí)細(xì)節(jié)，每一幀單獨(dú)截出來(lái)都經(jīng)得住放大看。但在連續(xù)敘事上仍有所欠缺，有時(shí)場(chǎng)景交代充分，人物和事件姍姍來(lái)遲。

HappyHorse作為三家里最新公測(cè)的模型，它在局部精度與某些場(chǎng)景表現(xiàn)突出，但整體穩(wěn)定性與風(fēng)格仍有待探索，例如，在趙子龍測(cè)試中給出3D游戲CG風(fēng)格，元妃省親前七秒全是空鏡。

需要注意的是，不同效果背后，各家的收費(fèi)也有差異。「AIX財(cái)經(jīng)」同時(shí)購(gòu)買了即夢(mèng)、HappyHorse最高等級(jí)會(huì)員、可靈鉑金會(huì)員，價(jià)格分別為499元、188元和186元，生成一段視頻三家分別需要330積分、160積分和96積分。

另外，三家模型存在共同沒(méi)有解決的問(wèn)題，也代表著當(dāng)前AI視頻生成的天花板。例如，沒(méi)有一家能在畫面里穩(wěn)定生成可讀的中文，多人面孔一致性也是集體翻車點(diǎn)。

總結(jié)來(lái)看，三家模型都能生成好看的畫面，但還沒(méi)有一家能穩(wěn)定生成一個(gè)完整的故事。AI視頻生成要邁向“精準(zhǔn)敘事”的專業(yè)創(chuàng)作門檻，還需要時(shí)間。

聲明：內(nèi)容由AI生成

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.