作者 | James 尖椒
在Sora2關(guān)停之后,漫劇行業(yè)等一個“破局者”已經(jīng)等了太久。近期出現(xiàn)的API價格持續(xù)上漲、排隊時間過長等問題,正讓中小AI漫劇制作團隊不堪重負。
剛剛過去的周末,娛樂資本論對行業(yè)內(nèi)超200名一線從業(yè)者進行的抽樣調(diào)查顯示,目前,國內(nèi)視頻生成大模型市場呈現(xiàn)高度集中的格局:超過95%的被調(diào)查者在日常工作中使用同樣的模型。
與此同時,“生成質(zhì)量不穩(wěn)定需多次抽卡”“人物動態(tài)不對”“一致性差”“無法局部編輯已生成的視頻”等問題成為“久治不愈”的行業(yè)痛點。
甚至小娛還通過走訪得知,因為漫劇總體生成成本飆升,有些本來由真人劇轉(zhuǎn)型漫劇的承制方,已經(jīng)動了回歸真人劇拍攝的念頭……
恰在此時,4月27日晚間,阿里“HappyHorse-1.0”視頻大模型在業(yè)界翹首以盼中開放公測,國內(nèi)版和國際版同步上線。
這匹“歡樂馬”月初曾以黑馬姿態(tài),突然空降登頂國外權(quán)威AI視頻大模型競技場,引發(fā)廣泛關(guān)注,一時間還出現(xiàn)多個仿冒“李鬼”。它是否有信心,有實力打破視頻模型當前的一超格局,引發(fā)新一輪競爭和降價,促進行業(yè)進一步優(yōu)化升級?
娛樂資本論第一時間登錄HappyHorse測試站,連夜測試正版“歡樂馬”的實力如何。同時,與眾多第一時間跟進的“超級個體”類創(chuàng)作者不同,我們的測試將主要著眼于這個模型對漫劇制作流水線的作用。
HappyHorse 承載了眾多漫劇從業(yè)者的期待,娛樂資本論采訪了多位活躍在漫劇制作一線的行業(yè)人士,傾聽他們的痛點、期待,和對 HappyHorse 的第一印象。
![]()
實測真·歡樂馬:一致性、鏡頭感、精細度“量大管飽”
一個視頻模型出爐之后,最先感到興奮和最早出結(jié)果的,是那些所謂的“超級個體”創(chuàng)作者。他們興奮地探索模型的邊界,使用提示詞工程制作出奇觀。也有一些偶然的妙手天成,就比如純業(yè)余作者做出的醬板鴨,瞬間引爆了全網(wǎng)。
但是在AI漫劇領(lǐng)域,情況則不完全相同。漫劇使用的工作流要想接入一個新模型是容易的,但是從業(yè)者需要一段時間,去摸清楚什么樣的模型適合做什么事。他們往往把最復(fù)雜的任務(wù)交給最先進的模型,而使用平價模型去完成一些基礎(chǔ)的工作,比如變動不大的背景板。
如上所述,今年初到3月的一段時間內(nèi),行業(yè)普遍將Seedance 2.0,可靈3.0,谷歌veo及Sora2作為出復(fù)雜結(jié)果的第一梯隊。然而OpenAI在毫無預(yù)警之下宣布關(guān)閉Sora 2模型,本就供不應(yīng)求的Seedance 2.0還應(yīng)聲漲價,使得行業(yè)對HappyHorse 的期待值陡然拉高。特別是HappyHorse 還表明其是一個可以編輯現(xiàn)有視頻的模型,抽卡之后不能修改向來是視頻生成的痛點,它又如何解決這個老大難問題呢?
在與多位漫劇從業(yè)者溝通后,他們最關(guān)心的問題集中在6個方面——人物一致性、場景一致性、鏡頭語言理解、文本理解、細節(jié)編輯/微調(diào)能力,以及成本與可及性。
我們根據(jù)上述問題和訪談,設(shè)計了對應(yīng)的測試提示詞,逐項驗證,確保呈現(xiàn)的結(jié)果能代表模型的真正實力。測試使用的提示詞部分參考了受訪漫劇制作團隊在實際工作中使用的提示詞,力求貼近真實生產(chǎn)場景。
簡單結(jié)論是:HappyHorse 1.0的強項是一致性,鏡頭感和畫面精細度,不過在多鏡頭調(diào)度,提示詞遵從方面有提升空間。
正如小娛遇到的一位搶先試用者飯飯(化名)所講:
“Seedance2.0強在導演系統(tǒng),強調(diào)控制力,HappyHorse 1.0強在成片質(zhì)感,主打第一眼驚艷。這匹快樂馬現(xiàn)在的勢頭,大有要在 AI 視頻領(lǐng)域和字節(jié)‘二分天下’的架勢呀!”
![]()
(素材圖片,使用ChatGPT Images 2.0生成)
我們根據(jù)一則在實際工作中使用的提示詞,構(gòu)思了一個廢土世界觀的場景,盡管不盡完備,但希望從“一次成型,不反復(fù)抽卡”的角度來推測多輪生成的綜合成功率。同時,其中涉及到需要修改的部分,一律不重新抽,而是直接使用HappyHorse 1.0的視頻編輯功能。
人物一致性是視頻生成最基本的要求之一,要求面部特征、發(fā)色、體型、服裝都不能出現(xiàn)明顯變化。兩個鏡頭中人物的面部輪廓、短發(fā)造型、深色外套的磨損細節(jié)完全一致。從正面到側(cè)背面的轉(zhuǎn)換中,身形比例沒有突變,可以清晰辨認是同一個人物,而且GPT-image-2的三視圖中,人物本來的“油光”特性也被完整保留。
![]()
場景一致性是指保持空間布局和視覺元素一致,不同鏡頭中的場景細節(jié)不能“跳變”。“小娛城”城門口,全景鏡頭,大量勞工和傭兵正在排隊進城,隨后切換到俯視視角;女主開始爬城門之后,鏡頭切換到腿蹬地的特寫,整個場景被參考圖牢牢限定,對于快速閃過的漫劇畫面來說,可以一次抽卡即成型。
![]()
多位受訪者反映現(xiàn)有模型的鏡頭語言理解,也就是在提示詞中精確描述推、拉、搖、移等運鏡方式時的依從性一般。我們?yōu)檫@段視頻設(shè)置了4個分鏡,其中鏡頭3和4因為提示詞的描述不夠準確,導致理解出了問題,在實際制作中,應(yīng)該加入其他的參考圖重新規(guī)劃提示詞。
![]()
因此,我們對這段提示詞產(chǎn)出的視頻直接做了修改:“箭樓只有一層而不是兩層。鏡頭進入窗縫以后在房間里轉(zhuǎn)一個彎,從房間里面看房門,房門本來關(guān)著,然后短發(fā)女性從通道跑進門的時候,一下把門推開。鏡頭迅速向前移動到短發(fā)女性面部特寫的時候,她是面向房間里,背對著敞開的房門并可見她身后的城墻通道。”
![]()
結(jié)果雖仍然差強人意,但可以看到最后的鏡頭按要求做了修改,說明每次修改視頻,以說明秒數(shù),并每次只修改一處問題為宜。看來小娛作為初學者,似乎還應(yīng)該掌握更多的提示詞技巧,不過把前后兩段拼到一起,應(yīng)該就差不多了。
接下來的提示詞包含“臉上的表情怔住,嘴唇緊抿,眼神里交織著擔憂、不解和一絲難以察覺的異樣情緒”,“表情仍然怔住,但似乎有眼淚要奪眶而出,然后一咬牙,轉(zhuǎn)身堅毅地跑回去”等抽象提示。這個場景試圖考察模型能否還原高難度的微表情和動作細節(jié)。
![]()
由于參考圖的信息量大,在保持一致性的前提下,情緒感染力似乎略有折扣。不過,對稍縱即逝的漫劇畫面來講,講清楚故事,分清楚人物仍然是所有要求中第一位的。
最后我們決定再測試一次編輯功能:把女主的頭改成貓頭。
![]()
提示詞是在看到空房間之后改為貓頭,不過成品在空房間里加了一只貓。好在如果搭配上一段內(nèi)容剪到一起,并沒有違和感。可以看到,當指令清晰明確時,單點修改并不會“牽連”到同鏡頭里的其他元素。這種“指哪改哪”的微調(diào)能力,可以說正是漫劇從業(yè)者夢寐以求的功能。
在測試準備結(jié)束時,小娛還收到有社群的從業(yè)者說,他們苦惱的是漫劇場景中人物口型可能對不上。為此我們又加測了一個口型測試,臺詞大家可能都很熟悉了——“我是醬板鴨”。
![]()
從結(jié)果來看,人的口型比貓的要好不少,即使是繞臉一周拍攝也沒問題,不用只是過肩的“對臉打”,相信大可以放心使用。
目前HappyHorse的生成效率很高,視復(fù)雜度,每條大約1-2分鐘。當然,Seedance2.0在用量劇增之前,也是挺快的。不過鑒于阿里的基礎(chǔ)設(shè)施更完善,而且qwen其他模型也做了不少“壓力測試”,相信之后排長隊抽卡的情形會得到不小的緩解。
而說到價格方面,國內(nèi)版網(wǎng)站(www.happyhorse.cn)提供標準版(Standard)和專業(yè)版(Pro)訂閱方案,連同免費(Free)均支持每日登錄贈送積分。并行生成方面,免費2路,標準版10路,專業(yè)版無限;付費用戶可批量視頻生成、優(yōu)先隊列、去除品牌水印及1080P高清視頻生成。
720P和1080P的視頻生成刊例價分別為0.9元/秒及1.6元/秒,專業(yè)會員包月價格疊加限時折扣后為0.44元/秒和0.78元/秒。
眾所周知Seedance2.0的官方定價是“一元一秒”,各模型目前都對國內(nèi)用戶有限時優(yōu)惠價格。但毫無疑問,HappyHorse 1.0在國內(nèi)主流 AI 視頻生成模型中極具價格競爭力。
據(jù)了解,HappyHorse 的API調(diào)用成本也是為0.9元/秒及1.6元/秒,顯著低于目前市面上的頭部閉源模型,且企業(yè)級客戶通過阿里云調(diào)用API接口沒有門檻限制,不需要一次性預(yù)繳千萬級費用。這意味著中小企業(yè)和個人開發(fā)者不必受制于單一供應(yīng)商的定價策略,讓更多人“用得起”好模型。
![]()
調(diào)查:244個一線從業(yè)者最想要什么
娛樂資本論長期關(guān)注AI漫劇產(chǎn)業(yè)的發(fā)展,也同行業(yè)多個頭部機構(gòu)與創(chuàng)作者有保持密切的聯(lián)系。從年初CEIS的路演專場開始,我們連續(xù)又在北京舉辦2場線下活動,吸引大批不同行業(yè)的觀眾參加,包含專業(yè)人士、在校影視藝術(shù)專業(yè)學生等。目前我們已經(jīng)擁有了多達11個活躍的漫劇人微信社群,每天討論以及資源對接十分活躍。趁著周末,小娛在群內(nèi)也同步開展了一個小調(diào)查,想要問一問這些一線漫劇從業(yè)者,對一個物美價廉的新模型最期待的是什么。
截至27日上午,本次調(diào)研共回收244份有效問卷。受訪者覆蓋漫劇產(chǎn)業(yè)鏈各環(huán)節(jié),在說明職業(yè)的填寫人當中,導演和制作人最多,占比26.2%。接下來編劇和運營發(fā)行崗各占比14.3%。漫劇行業(yè)最近大量缺人,身兼多職的情況非常普遍,產(chǎn)業(yè)鏈上的每一個人都有機會與視頻生成模型打交道。
![]()
超六成說自己是導演/制作人的受訪者每天高頻使用視頻模型,即使是運營商務(wù)等非技術(shù)崗位也有占總受訪者43%的人“偶爾”使用,以便理解模型輸出的效果與局限。
超過95%的受訪者將 Seedance 列為主要使用模型,幾乎等同于“全員覆蓋”。排名第二的可靈占31%,Vidu以19%位居第三。
辛鑫(化名)是一家頭部漫劇公司的負責人,他向我們證實了這一格局:“我們現(xiàn)在主要在操作的模型是 Seedance 2.0,但事實上所有的模型我們都沒有放棄去測試、去觀察,甚至是一些C端的工具我們也在看。”
在他看來,持續(xù)關(guān)注所有模型不是“三心二意”,而是職業(yè)本能。“一些Agent我們甚至能從它呈現(xiàn)出什么樣的效果,倒推出它用了什么模型,這對于我們?nèi)ネ晟谱约旱墓ぷ髁饕彩怯袔椭摹!?/p>
概括當前用大模型的核心痛點,簡單說就是三個關(guān)鍵詞:不穩(wěn)、太貴、排大隊。選擇了“生成質(zhì)量不穩(wěn)定需多次抽卡”“價格貴”“排隊等待時間過長”的受訪者分別為76.2%、71.3%、64.3%。
幾乎每一個受訪者都會提到模型太貴的問題。特別是在最近大模型普遍漲價后,規(guī)模化制作漫劇的團隊成本至少漲了三倍。
陳華(化名)是福州一家中小型漫劇制作團隊的負責人,他對模型價格的上漲格外敏感:“早期 Seedance 2.0 的會員,最低的時候可以做到每秒0.2到0.4元,現(xiàn)在都要每秒1元左右了。”他補充道,不同時期注冊的會員權(quán)益不同,“2月份、3月份、4月份注冊的都不一樣,越遲注冊越接近1秒1元。”
簽約用戶可以通過火山引擎獲得更穩(wěn)定的服務(wù)和排隊優(yōu)先權(quán),陳華的團隊簽約后“基本上都是幾分鐘就出來了”。但對于未簽約的團隊,高峰期等待數(shù)十分鐘仍是常態(tài)。大量中小團隊無奈地看著自己與頭部模型漸行漸遠。
另有57.0%的受訪者選擇了“無法只調(diào)整具體細節(jié),保持其他部分鎖定”。這個選項的占比雖不如前三個高,但在從業(yè)者口中的提及頻率卻極高。
陳華向我們描述了一個典型場景:生成一個鏡頭,其中90%的內(nèi)容滿意,只想修改某個手勢或某件衣服的顏色。“這種情況很多,但經(jīng)常很難做到。”
辛鑫同樣期待在某個局部做微調(diào)的顆粒度。“這個和抽卡的概念不一樣,抽卡依然是概率性事件,可能再抽一次依然抽不對,微調(diào)指的是98%都不變,就這2%調(diào)整。”
“生成質(zhì)量不穩(wěn)定需多次抽卡”成為當前最大的痛點。具體來看,當說一個模型生成質(zhì)量不穩(wěn)定時,大家在意的點是什么?
其中,“人物動態(tài)不對”和“一致性差”分別以68.9%和66.8%高居榜首,兩者相加,幾乎覆蓋了所有反映質(zhì)量問題的受訪者。
漫劇從業(yè)者小林告訴娛樂資本論,他經(jīng)常在做漫劇的過程中遇到風格一致性問題,“比如我想生成3D風格的漫劇,在生圖的階段還很好,到了圖生視頻的階段,模型跑著跑著就變成真人風格了。"
辛鑫認為,解決一致性的關(guān)鍵在于使用“多參流”的模型,相當于是每次都固定參照物,幾個錨點錨定了,理論上變化就少了。小娛在自己測試HappyHorse1.0期間也在每次提示詞都配上固定參考圖,使得長程穩(wěn)定性有很大保證。
參考生不同于圖生或者首尾幀,不需要把分鏡圖做出來,“我直接把幾個人物的形象參考放進去,場景放進去,甚至人物站位的參考放進去——放完了之后它就能生成視頻。”如此一來,省時又穩(wěn)定,更有助于在工作流中批量設(shè)定提示詞,自動化抽卡。
59.4%的受訪者選擇了“鏡頭運動不符合預(yù)期”。陳華告訴我們,他的團隊經(jīng)常遇到的難點在于“鏡頭語言不符合預(yù)期,經(jīng)常出現(xiàn)鏡頭穿幫、人物站位不對等問題,一些鏡頭會出現(xiàn)與我們理解的有偏差”。
另有43.0%的受訪者選擇了漢字生成混亂。模型在招牌、字幕、書信等漢字生成上仍存在嚴重缺陷——字形歪斜、筆畫缺失、甚至生成無意義的“偽漢字”。海外模型問題尤為突出,即便是國產(chǎn)模型,中文生成的穩(wěn)定性也不如英文。當前,從業(yè)者一般用指定參考圖的方法解決。
![]()
HappyHorse為行業(yè)帶來新選擇與新可能
綜合以上數(shù)據(jù),我們可以勾勒出一幅漫劇從業(yè)者的“需求畫像”:他們需要的是一個價格合理、生成穩(wěn)定、能理解導演意圖、能在長線制作中保持人物和場景一致性的工具。這些需求并非針對某個特定模型,而是對整個行業(yè)的期望。HappyHorse 的出現(xiàn),恰好站在了這些需求的交匯點上。
從一線漫劇從業(yè)者的調(diào)查問卷與采訪來看,當下AI視頻生成大模型的能力,與業(yè)界需求之間,仍然有極大的缺口存在。
“人物一致性非常重要”“角色一致性穩(wěn)定”“無穿幫鏡頭”,“價格便宜”“費用低”“價格再優(yōu)惠些”,“可以修改細節(jié)”“可以點選或者劃區(qū)域精準修改”……在問卷最后的填空題,回答里密密麻麻的都是這類關(guān)鍵字。
受訪者寫下對下一代視頻生成模型的期望,經(jīng)分類統(tǒng)計,排名前三的改進方向為:人物一致性,降低成本,細節(jié)編輯/微調(diào)能力。
漫劇團隊負責人靈茜表示,“我們希望模型價格和生成質(zhì)量是匹配的。而不是價格上漲了,質(zhì)量不穩(wěn)定,這會造成低質(zhì)和廉價的產(chǎn)品出現(xiàn)。”
同時,模型的能力也會影響新人培養(yǎng)的成本,“AI隨機性導致抽卡試錯成本高,新人需要熟手數(shù)倍的生成次數(shù)才能上手,這是必不可少的剛需費用,也給團隊擴建帶來了成本壓力。”
辛鑫希望,視頻大模型能在自然語言理解能力上持續(xù)進步,這對漫劇團隊拓展規(guī)模、招募更多非影視科班出身者意義重大。
辛鑫反復(fù)對小娛強調(diào)一個觀點,對于漫劇團隊來說,幾秒甚至一分鐘的片段都測試不出真正模型的實力,“必須以劇集為單位去做測試,你才能以穩(wěn)定性、制作成本為考慮,去做最終的模型選擇。”
作為大型漫劇團隊,還要考慮模型穩(wěn)定性、并發(fā)數(shù)等關(guān)乎規(guī)模化生產(chǎn)的關(guān)鍵問題。辛鑫回憶說:“那個時候 Sora 2 出來,我們也覺得太牛了,顛覆世界。可結(jié)果真的在做劇的時候,我們發(fā)現(xiàn)穩(wěn)定度并不能夠很好地保持。當我們以100人的規(guī)模,同時生產(chǎn)AI漫劇時,模型的穩(wěn)定性是否依然存在?”而并發(fā)數(shù)解決的則是生產(chǎn)效率的問題,同一模型能同時生產(chǎn)多條視頻,才能適配漫劇極短的生產(chǎn)周期。
與追求極致的超級創(chuàng)作者不同,漫劇從業(yè)者在意的是規(guī)模化生產(chǎn)的效率與穩(wěn)定性,在乎的是生產(chǎn)一整部漫劇所需要的人力、算力成本以及最后的成片效果。
所以,今日HappyHorse開啟內(nèi)測還只是一個開始,當它真正深入到漫劇的生產(chǎn)鏈條中時,其優(yōu)勢與競爭力才會逐漸顯現(xiàn)。
陳華正準備好“第一時間去測試” HappyHorse,對他而言,測試只關(guān)乎“合不合適”,“主要是科幻類的場景我們生成量特別大,到時候用同樣的提示詞測一遍就知道了。”
辛鑫認為,在AI工具側(cè)的競爭中,很難出現(xiàn)某個獨一無二的功能,或者某個模型占據(jù)壟斷地位。對從業(yè)者而言,新模型的出現(xiàn)不是“替代”敘事,而是“選擇”敘事,各個制作團隊都會選擇最適合自己的大模型。
至少,漫劇從業(yè)者都很樂意看到HappyHorse的出現(xiàn):“大廠出新模型的意義是挑戰(zhàn)現(xiàn)有格局,我們有了更多選擇,對團隊、對行業(yè)來說都是好事。”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.