![]()
電影級內容引擎還是物理擬真,視頻模型路線加速分化。
作者丨孟一凡
編輯丨梁丙鑒
無論從宏大的技術脈絡,還是近在眼前的商業落地來說,視頻模型都是當下最炙手可熱的賽道之一。也因此,今天問世的每一款全新視頻模型,都經受著來自學界和業界越發嚴苛的審視。最近,這份關注屬于阿里剛剛推出的 Happy Horse-1.0。
作為阿里巴巴 ATH 事業群在視頻模型賽道的開山之作,這匹“黑馬”甫一發布,就位列權威盲測平臺 Arena 和Artificial Analysis 的Top1和Top2。
當然,對于這樣一條早已步入深水區的賽道而言,BenchMark 和打榜的意義正變得越發有限。更觸動神經的議題是落地,當各家模型都能輕松產出“賽博朋克城市夜景”或“古風女子執傘回眸”這類美輪美奐的畫面,視頻內容的生產模式隨即發生了革新,AI 短劇、漫劇市場的迅速膨脹就是一大例證。
但是在一眾內容創作者暢想“vibe video”的美好未來時,現實的另一面是《紙手機》水準的爆款作品仍然屬于鳳毛麟角。很多時候,我們看到的更像是用連續短視頻拼湊出的動態 PPT,割裂的敘事不是靠旁白硬湊,就是干脆交由觀眾腦補。
技術維度上,你可以將這解釋為視頻模型在多鏡頭調度、人物表現力,以及復雜動作音畫同步等細節上的不成熟。但對于落地來說,觀感粗糙、敘事無力最直接的結果就是,AI 視頻作品被理解為一種更下沉的內容,無力觸及更廣闊的想象空間,美學,或是商業潛力的意義上都是如此。
用畫面講故事,已經成為了視頻模型接下來的技術分水嶺。而我們好奇的是,從動態畫面的生成,到電影工業級的敘事能力,Happy Horse-1.0 走到了哪一步。
4 月 27 日,Happy Horse-1.0 開啟灰度測試,我們第一時間拿到了這款模型的體驗名額。這次測評,我們決定放棄美學展示的常規路線,取而代之的是幾項電影工業級的極限壓力測試。我們希望試一試 Happy Horse-1.0,有沒有可能成為第一款,真正能用鏡頭講好故事的視頻模型。
01
故事感決定上限,一致性決定下限
《教父》里刺殺索拉索前的柯里昂、《閃靈》里在門后獰笑的杰克,還有《殺人回憶》最后仿佛看穿鏡頭的刑警,可能是出于這個景別自帶的故事感,很多讓人記憶深刻的影史名場面都選擇了中近景。我們也決定從這個景別開始,看看 Happy Horse-1.0 的表現。
提示詞節選:中景鏡頭,一個健壯的女人站在日落的海邊。當她緩緩轉身面向鏡頭,并露出微笑時,鏡頭緩慢前移給她的上半身特寫,她身后突然有成群的白色海鳥飛過,創造出一種強烈的視覺沖擊感。
這個畫面的元素本身并不復雜,但令人驚喜的是呈現質感。大光圈、淺景深、強氛圍感的中近景鏡頭完全沒有 AI 視頻常見的廉價感,反而有一種電影般的視覺沖擊。
但我們覺得一個特寫還是太簡單了,于是決定給 Happy Horse-1.0 再上點強度。
今天 AI 視頻敘事能力的一大考驗,是多鏡頭調度以及由此帶來的一致性問題,形象畸變、位置漂移必然導致敘事邏輯的斷裂。下面這個任務就是針對身份一致性的極限測試。我們描述了一名約 30 歲的東亞女性形象,要求 Happy Horse-1.0 一次性生成其在特定場景下的中景正面、近景斜側 45° 跟拍和正面特寫,并且人物在景別切換、機位變化和光照差異下需要保持完全一致。
人物動作、站位不跑偏是最基本的。這個任務真正的難點在于,我們往一段提示詞里塞了十余個可以被驗證的視覺形象錨點,包括米白色亞麻西裝套裙、淺藍色真絲襯衫、銀色細鏈珍珠項鏈、右手無名指玫瑰金戒指、豆沙色啞光口紅、裸粉色指甲,以及帶有金屬品牌 logo 的駝色托特包等。
大家接下來可以留意一下,哪些元素“半路出家”了。
提示詞:一段包含三個連續鏡頭的短片,主角為同一名約30歲的東亞女性,蓄及肩棕色波浪卷發,左眼眼角有一顆明顯的小痣,身著米白色亞麻西裝套裙,內搭淺藍色真絲襯衫,佩戴銀色細鏈墜珍珠項鏈,右手無名指戴一枚玫瑰金戒指,涂豆沙色啞光口紅,指甲為裸粉色。
比較容易觀察的細節是五官、衣物褶皺和光影。
在這個測試中,人物面部在三個鏡頭的切換下都沒有出現變形或漂移,亞麻西裝的褶皺在三鏡頭中也很符合邏輯。特別是光照這種很容易產生違和感的細節也沒有明顯問題,畫面中真絲襯衫的光澤變化完全符合不同機位下的光照條件,人物的膚色也在正面光與側光之間自然過渡,沒有出現突兀的色偏。
然后是 11 個視覺形象錨點的跨鏡頭交叉比對:
![]()
除了因視角變化而合理消失的少部分元素外,11 個視覺形象錨點基本都保持了一致性,只有右手上的玫瑰金戒指在鏡頭一中從一枚變成了三枚,此外豆沙色啞光口紅雖然在三個鏡頭中均有呈現,但是存在輕微色差。
這些問題指向模型在“非面部高頻細節”上的維持仍有優化空間。當鏡頭景別從全景收緊至特寫時,模型似乎優先保全面部而“犧牲”了身體周圍的道具信息,但整體呈現仍然處于“準商用”的水準,人物敘事的核心連貫性已能得到保障。
多鏡頭調度下的一致性是視頻生成模型從玩具走向工具的關鍵門檻。無論對于廣告、電商展示還是電影制作而言,如果主角的臉型、服裝或飾品在鏡頭切換中出現漂移,敘事連貫性都將瞬間崩塌。這個任務的核心難點不在于生成一個好看的人物,而在于讓 AI 維持這個角色的每一個錨點。顯然,Happy Horse-1.0 完成得不錯。
02
給 AI 講戲,它真聽懂了
對于無實拍的 AI 內容來說,一個很現實的問題在于角色表現力總是不如真人出鏡,這也是我們測試 Happy Horse-1.0 的重要維度。但表現力更加難以量化,為了便于測試,我們把它分成人物肢體動作的自然度、微表情刻畫和對白真實感三個層面。下面看看 Happy Horse-1.0 的表現。
在純粹肢體動作方面,我們設計了一個復雜的動作序列進行考察。提示詞描述了一個 25 歲左右男性在舞蹈排練廳內的完整表演片段,包含四個精確動作節點和五個明確時間參數。更困難之處在于,每一個動作節點我們都明確規定了對應的音效要求,包括衣物摩擦聲、呼氣聲、落地悶響等。
因此模型不僅需要生成人物動作,還要在時間上精確編排每一個動作的發生時刻與持續時長,讓聲音與起跳、落地等動作狀態實現幀級對齊,這也讓這項測試成為了一個考驗 Happy Horse-1.0 復雜指令遵循和音畫同步能力的機會。
提示詞節選:一個單主體完整表演片段,需要嚴格遵循下方詳細分鏡指令,并搭配對應的環境音與動作音效,實現精準音畫同步。畫面風格為寫實電影質感,固定機位中全景,室內木質地板舞蹈排練廳,自然窗光從左灑入,地面有輕微反光。主角為一名25歲左右運動型男性,身穿深灰色寬松運動長褲,黑色無袖背心,赤腳。
就動作質量而言,Happy Horse-1.0 交出了接近滿分的答卷。視頻中男人的動作連貫絲滑,全程未發現卡頓或跳幀,肩、膝、踝等關節也未出現明顯的肢體扭曲,結構合理。特別是旋轉騰空和重心轉移的部分,視覺效果上完全符合人體運動規律,肌肉發力感在肉眼觀測上也完全可信。
此外音畫同步是這個用例最大的亮點。由于我們選擇了一個爆發力明顯的動作,大部分聲音所匹配的都是瞬時狀態,比如衣物摩擦,起跳蹬地、破風聲以及人物落地的悶響。但 Happy Horse-1.0 的生成結果中,這些聲音都和人物動作保持了精準對齊。
在電影工業中,音效是一項貫穿前期籌備、拍攝和后期編輯的重投入工作。但是對于 Happy Horse-1.0 來說,這些都被前置到了生成環節,一次性解決。
下面這個官方給出的案例則能看出 Happy Horse 在微表情刻畫和人物對白上的提升。
【場景】奢華的私人飛機機艙內,窗外是壯麗的金紅色的云海落日,陽光將機艙渲染成琥珀色。 【主體】左側滿頭銀發的 [ 年長男性 ] 身穿高定西裝,手持威士忌酒杯,目光如鷹般銳利;右側的 [ 年輕男性 ] 身體微微前傾,眉頭微皺,神情既緊張又充滿野心。【運動】年長男性輕輕晃動著手中的酒杯,液體掛壁,他身體逼近對方;年輕男性深吸一口氣,眼神堅定地回視。 【音頻】[ 年長男性, 低沉沙啞, 充滿威嚴 ] 說道:“In this world, you either hunt or you become the prey. Which one are you?” [ 年輕男性, 嗓音緊繃但堅定 ] 回答:“I am the one who pulls the trigger.” 背景伴隨著飛機引擎深沉的轟鳴聲和冰塊撞擊玻璃杯的清脆聲。
在這個存在多角色對話的鏡頭里,Happy Horse-1.0 一個很明顯的yoou'dian是對話銜接流暢,語調也很貼合具體情境。特別是畫面左側的年長男性角色,你會發現人物的語氣沒有了刻意模仿人類的偽人感,而是真的能從停頓中聽出強調、思考和這個語境下應有的審視。
這背后還有一種更細節的表達,那就是遞進的情緒。從緊皺眉頭,靠在椅子上搖晃酒杯,到探身向前,盯著對方提出自己的問題,這些微表情的變化沒有被提前寫進提示詞,但 Happy Horse-1.0 生成的這位年長男性,可以說整張臉都在演戲。微表情是做好了會被視為理所應當,但不做就立刻讓觀眾出戲的細節,Happy Hores-1.0 成功在短短 15 秒內,相當細膩地傳遞了角色的情感變化。
編輯困難也是 AI 內容落地的一大卡點。頻繁“抽卡”的過程中,用戶此前難以對 AI 角色的形象、動作或臺詞進行針對性修改,導致了大量廢片的產生。這不僅拖慢了 AI 視頻內容生產的節奏,而且大幅提高了 Token 成本。
對此 Happy Horse-1.0 推出了 V2V 自然語言視頻編輯功能,支持用戶通過一句話描述修改意圖,在不依賴專業剪輯軟件的情況下直接修改視頻。
這個功能最好用的場景可能是無縫替換視頻主體這種局部元素的修改。比如之前女生逛畫廊的測試,我們告訴 Happy Horse-1.0 “幫我把這個女生,換成東亞男性,30 歲,藝術家著裝”,然后直接得到了下面的結果。
背景、光影乃至人物神態和動作絲毫不改,真的就只有人物形象發生了改變。
更細節的修改也可以實現,男人跳舞這個用例中,我們要求模型“幫我把這個男生換成穿著奧特曼服裝的”。這里埋了一個細微的坑,就是“奧特曼服裝”不等于“奧特曼形象”,但是 Happy Horse-1.0 似乎完全理解皮套演員這個概念。修改后的視頻中能清晰地看到戲服在人體關節等部位產生了非常合理的褶皺,光澤看起來也真的像特攝作品中用到的膠衣材質。
Happy Horse-1.0 的人物表現力,加上摩擦極低的視頻編輯功能,讓 AI 演員的落地能力,徹底邁上了新的臺階。
沒真正上手體驗過的人,很難理解這種言出必行的爽感。用自然語言編輯視頻太像是作為導演在給演員講戲,甚至是直接調度整個劇組。結合 Happy Horse-1.0 的實現效果,就像是有一整支專業的影視團隊在隨時待命。模型性能的攀升固然重要,但是在工業級落地越發關鍵的今天,絲滑的人機交互在某種意義上已經能夠等價于生產力。
03
物理擬真短板明顯
測試之后,最深刻的感受是拍短劇甚至電影幾乎已經要成為 Happy Horse-1.0 的舒適區,但這款模型的短板同樣明顯,那就是物理規律擬真。
最后我們讓 Happy Horse-1.0 生成了一個水杯掉在地上,水體飛濺、玻璃碎裂的視頻。相較于前面幾項測試,這是物理壓力最大的任務。提示詞要求模型在 5 秒內連續模擬剛體碰撞與動量傳遞、流體自由表面流動、液膜斷裂及霧化、脆性斷裂、次級碰撞以及光學現象六種物理規律,容錯率極低。
提示詞節選:一個超高幀率的慢動作特寫鏡頭,采用微距視角:明亮的廚房內,深色橡木餐桌邊緣,放著一只晶瑩剔透的圓柱形玻璃杯,杯中盛有約八成滿的純凈清水,水面平靜。杯底距桌沿僅數厘米。畫面左側,一顆網球沿桌面滾來,撞上玻璃杯底部右側。杯子受力的瞬間,與桌面產生相對滑動,清水表面泛起同心漣漪。杯子隨即向桌沿滑去,杯底逐漸懸空,開始傾斜墜落。
顯然效果并不好,網球撞擊之前杯子已經向受力的反方向傾倒,水體的形態變化也十分詭異,先是直接穿模,然后四散的水花墻標準到像是尺規作圖的結果。最無法接受的是杯子的裂紋,提示詞形容它是“放射狀”,Happy Horse-1.0 的生成結果像是把這個概念直接摁進視頻里那樣生硬。
把整個視頻拆開,唯一可圈可點的是杯子自身的下墜過程相對真實,既沒有漂浮感,視頻里也能看出杯子角度輕微的旋轉。一種可能的解釋是,Happy Horse-1.0 更擅長生成符合物理直覺的畫面,而不是基于物理定律的精確仿真,因此才在流體模擬、粉塵生成等高度需要底層物理引擎嚴格解算的細節上,表現出遠未達到工業級可用的水準。
04
敘事能力,視頻模型新的入場券
整體來看,Happy Horse-1.0 在工業級的工程壓力測試中仍然展現出了出色的復雜指令遵循和綜合生成能力。跨鏡頭人物一致性達到準商用水平,復雜時序動作編排向專業制作管線靠攏,這些能力對于廣告、數字人乃至于電影工業而言,都是實打實的生產力。
最重要的是敘事能力,模型性能對音畫同步、微表情等細節的優化,和 Happy Horse-1.0 表現出的電影質感合流,正在讓 AI 視頻從動態 PPT 變得富有故事感。可能是排練室里舞者的騰躍,也可能是畫廊里藝術家的一次回望,此前只能在院線電影里找到的質感,現在變成了視頻模型的輸出。
阿里為其開出的定價也極富競爭力。官網720P 和1080P 的視頻生成刊例價分別為 0.9 元/秒及 1.6 元/秒,阿里云百煉API也是這個價格。官網專業會員包月價格疊加限時折扣后價格更低,為 0.44 元/秒和 0.78 元/秒。
按一個 5 秒的720P鏡頭計算,不考慮階段性優惠的情況下,Seedance 2.0 的 B 端 API 定價為 1元/秒,可靈 3.0 在積分制的常規計費模式下,每秒鐘價格隨生成難度,在 0.6-1.2 元之間浮動,兩家的總成本分別是5 元和 3-6 元的。Happy Horse-1.0 的價格,是 4.5 元。
這還只是一個 5 秒鐘的鏡頭,對于一部動輒 90 分鐘的電影而言,性價比上的任何一點差異都會被成倍放大,Happy Horse-1.0 則提供了一種更多樣的選擇。
當然影視工業不是一個只講成本的場景,敘事能力,才是真正打開一款視頻模型落地和商業化空間的鑰匙。Happy Horse-1.0 作為后起之秀能夠成為一個潛在選項,更隱形的入場券在于模型真正具備了電影級的畫面質感和工業級的視頻編輯支持,這是用畫面講故事的先決條件。
與其說 Happy Horse-1.0 是阿里 ATH 事業群的試水之作,不如說它已經成為了一款可無縫嵌入影視工業制作流程的生產力工具。
AI 視頻在過去一年里快速走過了野蠻生長的早期階段,今天的商業模式正變得越發清晰,而商業和技術上的競爭焦點也在趨向一致,那就是更可控且富有質感的生成。前者是技術落地的成本考量,后者則關系著一款模型真正的應用空間。
從抽卡式的短視頻黑箱,到可編輯的新一代視頻創作工具,在可以預見的未來,這是大多數視頻模型都需要經歷的一次轉向,而 Happy Horse-1.0 顯然已經走得很遠。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.