本文來源:消費者報道 作者:郭美婷
一度登頂全球AI盲測榜單的阿里“歡樂馬”HappyHorse 1.0,終于揭開神秘面紗。
4月27日晚,阿里巴巴視頻生成模型 HappyHorse 1.0(歡樂馬)正式開啟灰度測試,這款曾以匿名身份橫掃國際權(quán)威AI視頻榜單、被行業(yè)熱議多日的“黑馬”,從幕后走到了臺前。
![]()
圖源:截圖自HappyHorse官網(wǎng)
作為阿里ATH創(chuàng)新事業(yè)部打造的多模態(tài)生成模型,HappyHorse 1.0采用音視頻聯(lián)合生成方案,瞄準(zhǔn)廣告、電商、短劇、社媒創(chuàng)意等場景,推出AI視頻生成與視頻編輯服務(wù)。
當(dāng)前AI視頻生成賽道中,運動流暢性、人物一致性、自動分鏡與自動運鏡,是決定內(nèi)容可用度與專業(yè)質(zhì)感的幾個核心指標(biāo)。其中,運動流暢性關(guān)乎畫面自然度,人物一致性決定角色辨識度與敘事連貫度,自動分鏡與自動運鏡則體現(xiàn)模型的創(chuàng)意編排與鏡頭語言能力,直接影響成片的敘事節(jié)奏與視覺表現(xiàn)力。
為此,開機實驗室將從這幾個維度對HappyHorse 1.0展開實測。
目前,全球?qū)I(yè)創(chuàng)作者與企業(yè)客戶可通過官網(wǎng)、阿里云百煉平臺注冊體驗,普通用戶則可通過千問App試用。
HappyHorse官網(wǎng)新用戶注冊即贈送66積分,可生成視頻比例囊括了16:9、4:3、3:4、1:1、9:16共5個常規(guī)視頻比例。一次可生成視頻時長在3-15秒之間,調(diào)節(jié)相對靈活。據(jù)開機實驗室實測,生成3秒視頻需要消耗19積分,5秒需消耗32個積分,10秒則需消耗63積分。
![]()
圖源:截圖自HappyHorse官網(wǎng)
千問APP提供的體驗額度則更大,用戶每日有10個額度的體驗額。只要在APP內(nèi)找到HappyHorse內(nèi)測接口,可選擇的視頻比例、清晰度與網(wǎng)頁版一致,但在時長選擇上相對固定,僅有5秒、10秒、15秒三個時長選項,生成5秒視頻消耗1個額度,10秒消耗2個額度。
![]()
圖源:截圖自千問APP
以下視頻均為使用千問APP生成,輸入指令后,排隊等待時長大約在2-3分鐘。
為了測試HappyHorse生成視頻的運動流暢性,開機實驗室分別輸入了人物在行走和演奏樂器兩段文字指令。
第一段指令為:
黃昏的城市街道,柏油路面殘留雨后水跡。一位身著米色風(fēng)衣的女性在人群中穿過,手臂自然垂在身體兩側(cè)擺動,每一次跨步都是腳跟先落地,平穩(wěn)向前行。身后街燈倒映在路面上光影斑駁。攝影機角度保持低位,近乎與地面齊平——仿佛一名蹲在路邊的行人正在隨意觀看。
![]()
從實際生成效果來看,模型完整還原了腳跟到腳掌的連貫落地步態(tài),人物手臂擺動與行走節(jié)奏匹配協(xié)調(diào),風(fēng)衣隨肢體動作產(chǎn)生的布料褶皺真實自然,未出現(xiàn)腳底滑移、懸浮等常見 AI瑕疵,但細(xì)看街上的照片漢字出現(xiàn)了“生造字”情況。
第二段指令為:
中景鏡頭,一位身穿休閑襯衫的吉他手坐在木質(zhì)高腳凳上,快速進(jìn)行高把位和弦轉(zhuǎn)換與擊勾弦演奏。撥片在琴弦上細(xì)碎跳動著。運鏡自動跟隨按弦的手腕軌跡平移。
![]()
整體下來,畫面細(xì)節(jié)貼合演奏邏輯,手指形態(tài)自然無畸形、多指問題,撥片與琴弦交互也較為寫實,中景下的高把位演奏動作連貫,撥片細(xì)節(jié)、手腕跟隨運鏡均完整落地。
此外,強動態(tài)高速運動、瞬間撞擊反饋以及極速慢鏡頭演繹,也是檢驗 AI 視頻模型運動流暢度與物理還原能力的關(guān)鍵場景。
為此,開機實驗室輸入了以下指令:
傍晚的足球場,夕陽金色草地。前鋒全速帶球沖向禁區(qū),右腳大力抽射,球鞋側(cè)面與皮球在撞擊瞬間產(chǎn)生形變。立即切換為超高速慢動作模式:鞋釘掀起的草皮碎屑緩緩飛揚;守門員飛身撲出時球衣隨風(fēng)沙沙作響;足球在空中高速旋轉(zhuǎn)劃出弧線,最后撞擊球網(wǎng)將尼龍網(wǎng)格拉伸成長長的菱形。
![]()
在生成的10秒視頻里,文字指令里提到的夕陽、草地、抽射、慢鏡頭等元素基本都被還原出來,畫面氛圍感也在線。但仔細(xì)觀察就會發(fā)現(xiàn),腳踢中足球泥土濺起那一刻畫面比較假。另外,動作之間的銜接存在不夠順滑的情況,運動員整體發(fā)力、碰撞、足球的飛行的邏輯不太符合現(xiàn)實物理規(guī)律,AI痕跡比較重。
一直以來,AI 視頻最讓人頭疼的問題之一就是人物的一致性,部分AI生成的視頻前后會出現(xiàn)“換臉”情況。前一秒還是這個五官,轉(zhuǎn)個頭就面目全非,發(fā)型、穿搭也會莫名其妙變化。所以,人物在生成的全程畫面里保持形象統(tǒng)一,也成為衡量一款A(yù)I視頻模型好不好用的指標(biāo)之一。因此,開機實驗室通過文字指令不斷地切換場景,來測試模型能否在動態(tài)運動、鏡頭切換、長時間生成中,保持人物特征,不崩臉、不跳變、不“自我修改”。
第一段指令為:
連續(xù)片段展示一位戴黑框眼鏡、留三七分短發(fā)、穿櫻花粉毛衣的女性室內(nèi)設(shè)計師。她先在落地窗大客廳受訪;接著轉(zhuǎn)入暖黃燈光與木質(zhì)書架共存的書房伏案改圖;再進(jìn)入正在裝修的毛坯房工地指導(dǎo)施工。短發(fā)始終朝左前額自然垂落,毛衣左胸處有同色系花紋帶,膚色在日光、暖光與粉塵光中自動匹配真實光影漂移。
![]()
從生成的視頻來看,人物在幾個場景轉(zhuǎn)換中都保持了一致,未出現(xiàn)異常(除了扶眼鏡時扶到了鏡片上)。為了進(jìn)一步測試,在下一個文字指令中,又增加了更多的人物特征和鏡頭轉(zhuǎn)換。
第二段文字指令為:
視頻展示一位中年亞裔男性廚師在開放式廚房連續(xù)完成動作:正面面對攝像頭(近景)描述食材,向左后方轉(zhuǎn)身取鹽罐(過肩鏡頭),然后再次面向鏡頭進(jìn)行翻勺演示(半身中景)。他左眉根部的痣在每次特寫時始終處于同一位置。
![]()
在該段視頻里,廚師轉(zhuǎn)身再轉(zhuǎn)回的過渡中并未出現(xiàn)“瞬間換人”感,特殊面部標(biāo)識也一直都在。不過,左眉根部的痣有點像“粘”上去的。
如果是更極限的場景呢?在下面一個視頻里,開機實驗室設(shè)置了AB兩場景交叉敘事,指令如下:
A場景:身穿藏青色夾克、佩戴工牌的企業(yè)安全主管在監(jiān)控室里查看屏幕,她看著面前一整面墻的安防監(jiān)控畫面。隨后,同一安全主管立刻在應(yīng)急指揮中心下達(dá)行動指令,她手持對講機,神情嚴(yán)肅。
B場景:劇情切換到應(yīng)急響應(yīng)小組(2-3名新配角,身著統(tǒng)一工作服)按指令迅速展開行動,分別跑向不同通道。
最后鏡頭切回安全主管的中景特寫。
![]()
視頻中,來回跨場景時,主管的面容始終保持穩(wěn)定,發(fā)型、膚色沒有出現(xiàn)跳變與違和,全程也沒有出現(xiàn)配角喧賓奪主、角色面部錯亂替換的情況,整體表現(xiàn)相對穩(wěn)定。不過,開機實驗室注意到一個小細(xì)節(jié),視頻中主管的工牌上的照片似乎與其本人并不相符,工牌上的文字也多為亂碼,簡單說就是大的邏輯關(guān)系和畫面把握得比較好,但是細(xì)節(jié)的處理還不夠細(xì)膩。
另外,自動分鏡與自動運鏡屬于AI生成視頻模型中的高階動態(tài)調(diào)控能力,如果生成畫面能夠自主完成畫面視角切換與鏡頭跟隨,能大幅提升成片的鏡頭流暢度與氛圍感。
為此開機實驗室也設(shè)置了一組場景來檢查HappyHorse1.0該項能力。以下為指令
一縷陽光穿過未完全拉開的亞麻窗簾,投射正在煮咖啡的年輕女性臉上。鏡頭慢慢推進(jìn)展現(xiàn)她側(cè)臉。當(dāng)她伸手時,自動切換至低角度跟隨她的手打開柜門,緊接著轉(zhuǎn)為過肩視角,透過她的肩膀看到客廳里小孩在地毯上玩樂高。當(dāng)咖啡機傳來“叮”的一聲,畫面快切為一個微距大特寫——一滴深褐色濃縮咖啡滴入透明玻璃杯,激起小氣泡。
![]()
生成視頻能在一些敘事節(jié)點自主決策切換鏡頭,不同景別的選擇也相對合理,但存在部分鏡頭與劇情匹配度不高和畫面不夠流暢的地方。
再來一段具有懸疑氣質(zhì)的連續(xù)敘事:
一位穿棕色皮夾克、扎馬尾的私家偵探在雨夜推開后巷廢棄汽車旁的一扇鐵門。全景是后巷環(huán)境、廢棄汽車、鐵門位置,偵探緩緩?fù)崎T進(jìn)入。中景跟進(jìn),偵探跨過門檻,抬手摘下墨鏡,露出警惕的眼神。快速切至室內(nèi)低角度鏡頭,畫面中出現(xiàn)一個背對鏡頭的模糊人影(敵方),偵探停步,對峙感形成。
![]()
這段指令的難點在于,需精準(zhǔn)把控“全景交代環(huán)境→中景跟拍動作→特寫傳遞情緒”的連貫鏡頭敘事邏輯,同時保證各鏡頭間的時間銜接、空間方位無任何違和與矛盾。測試下來,模型基本復(fù)刻了這一敘事節(jié)奏,更值得肯定的是,鏡頭運鏡的切換、角度的選擇,均與懸疑氛圍高度契合,精準(zhǔn)烘托出緊張壓抑的對峙張力。
總體而言,HappyHorse 1.0在當(dāng)前AI視頻生成模型中展現(xiàn)出較強的綜合競爭力,尤其在人物一致性和基礎(chǔ)運動還原上已達(dá)到較高水準(zhǔn),自動分鏡能力也初步具備了實用價值。但在極端物理場景的真實感、畫面微觀細(xì)節(jié)的精確度,以及分鏡節(jié)奏的穩(wěn)定性上,仍存在可感知的不足。
好消息是,對于內(nèi)容創(chuàng)作者而言,它已經(jīng)是一個值得關(guān)注的生產(chǎn)力工具,但若要勝任高精度、強敘事的專業(yè)影視制作,還需要進(jìn)一步迭代。
價格上,HappyHorse官網(wǎng)新用戶享一定免費額度(以贈送積分方式),720P、1080P視頻刊例價分別定為0.9元/秒、1.6元/秒,專業(yè)會員包月價格疊加限時折扣后為0.44元/秒和0.78元/秒,商用門檻進(jìn)一步降低。
同為AI視頻生成模型,字節(jié)Seedance 2.0則是按Token計費,據(jù)火山引擎官網(wǎng),Seedance2.0輸出分辨率為720P的情況下,包含視頻輸入的價格是28元/百萬tokens,不含視頻輸入的價格是46元/百萬tokens。
按照此前媒體測算,在Seedance 2.0生成15秒視頻,需要消耗30.888萬tokens,最終折合每秒1元。如果簡單對比,HappyHorse相比Seedance2.0在視頻生成價格上每秒大概有一毛錢優(yōu)勢。不過費用最終還是會取決于視頻的復(fù)雜程度,畢竟兩者計費體系完全不同。
阿里更明確的意圖體現(xiàn)在生態(tài)卡位上。HappyHorse在移動端嵌入千問App,PC 端開放創(chuàng)作網(wǎng)頁版,形成面向普通用戶與創(chuàng)作者的雙入口。同時,阿里悟空、Mulerun、JVS Claw等Agent平臺率先完成接入,ZeroCut AI、巨日祿AI、LibTV-official等AI創(chuàng)作平臺也宣布已接入HappyHorse1.0.生態(tài)擴(kuò)張速度加快。
HappyHorse 1.0的亮相,與其說是一場價格革命,不如說是阿里在AI視頻賽道的一次生態(tài)級入場——用模型能力敲門,用平臺生態(tài)占位。至于它能否真正攪動格局,答案或許在于,接下來有多少創(chuàng)作者愿意把它放進(jìn)自己的工作流中。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.