5月18日消息,英國《金融時報》 近日報道稱,多位開發者認為,中國人工智能實驗室在視頻生成領域已經領先部分美國競爭對手。
報道重點提到字節跳動的Seedance和快手的Kling:這兩家公司本來就在經營短視頻平臺,抖音、TikTok、快手每天都會沉淀拍攝、剪輯、轉場、特效和觀看反饋。它們更容易從真實創作者場景里看到用戶到底卡在什么地方,從人物動作是否穩定、鏡頭銜接是否自然、到同一角色會不會一秒變臉、一次生成要重試多少遍。
視頻生成過去長期被視為OpenAI、谷歌、Runway等美國公司的主場。OpenAI的Sora、谷歌的Veo都曾代表西方實驗室在視頻模型上的最高預期。但在實際創作者和開發者的使用場景里,模型不只看一次演示效果,還要看可用性、價格、接口穩定性、迭代頻率,以及能不能快速生成可交付的視頻素材。
運營人工智能視頻生成平臺Apatero的開發者凱文·加貝奇(Kevin Gabeci)在Medium文章中寫道,他的平臺整合了多家中美實驗室的視頻模型,服務超過1800名用戶。按照他的觀察,過去幾個月里,Kling、Seedance和MiniMax的海螺AI(Hailuo)在質量、速度和成本之間取得了更實用的平衡。他原本以為Sora、Veo和Runway會保持明顯優勢,但實際使用后改變了看法。
快手的Kling是最容易觀察到迭代節奏的例子。Kling 1.0于2024年中發布后,后續版本持續改進運動一致性、人物動作和畫面連貫性。對創作者來說,這類改進比單次樣片更關鍵:如果一個模型能穩定生成可控鏡頭、減少重試次數,就會直接降低制作成本。
成本也在影響用戶選擇。加貝奇在Apatero的文章中以平臺積分價格舉例稱,中國模型在單次生成成本上通常低于部分西方模型。這個價格差會影響中小創作者、營銷團隊和小型工作室的選擇,因為他們更在意批量試錯的成本,而不是單條演示視頻的上限效果。
字節跳動和快手的特殊之處在于,它們本身就是短視頻平臺公司。抖音、TikTok、快手等產品積累了大量用戶生成視頻、剪輯方式、特效模板和觀看反饋。這些資源未必都能直接無爭議地進入訓練集,但它們至少讓公司更懂視頻內容如何被制作、消費和分發。視頻生成模型最終要服務內容生產,平臺經驗本身就是一種產品優勢。
美國公司并非沒有視頻數據。谷歌擁有YouTube,Meta擁有Instagram和Reels,OpenAI也曾推進Sora的產品化。但美國實驗室面臨更復雜的版權、授權和平臺治理壓力,模型訓練數據來源、用戶退出機制和商業發布節奏都更容易被監管、媒體和版權方審視。中國公司的推進方式相對更快,也因此更容易在早期產品可用性上形成速度優勢。
不過,把“中國模型已經全面超越美國模型”寫成定論仍然過早。不同評測口徑會得到不同答案:有人更看重真實運動和物理一致性,有人更看重人物穩定性,有人更看重價格和接口可用性。更穩妥的說法是:在不少開發者和創作者的實際工作流里,中國視頻生成模型已經不再只是追趕者,而是成為可以優先選擇的生產工具。
接下來的視頻生成競爭,很可能不會由某一次發布會決定。誰能拿到更合規、更高質量的視頻數據,誰能把模型能力做成穩定產品,誰能讓創作者用更低成本反復試錯,誰就更有機會占住市場。字節跳動和快手的優勢,不只是模型參數或演示效果,而是它們離視頻內容生產現場更近。(易句)
(本文由AI翻譯,網易編輯負責校對)
