網易首頁 > 網易號 > 正文申請入駐

AI視頻進入「生產線」調研

2026-05-29 13:38:41　來源: 華爾街見聞官方

上海舉報

分享至

年初，Seedance 2.0的亮相，點燃了AI視頻參與影視工業化流程的可能。

隨著短劇、廣告、電商等場景開始嘗試將AI視頻納入實際生產流程，AI視頻模型正在從刷分走向干活階段。創作者更關心的也不再只是模型參數和榜單表現，而是模型能否穩定出片、支撐連續鏡頭生成，并最終嵌入一套可復用、可協作、可交付的工作流。

字節跳動旗下Seedance 2.0正是在這一背景下受到關注。

“相比不少模型對提示詞精細度要求較高，Seedance 2.0即便面對較短、較抽象的提示詞，也能在內部擴寫成更專業、更詳細的描述，把普通人的表達翻譯成模型能夠執行的鏡頭語言，從而降低用戶使用難度。”西安一位短劇從業者向華爾街見聞·全天候科技感慨道。

與此同時，快手可靈、阿里的HappyHorse仍在加速迭代；愛奇藝納豆、群核科技LuxReal等玩家則從工作流、數字資產、3D空間和協作工具切入；生數科技、愛詩科技、MiniMax、商湯等垂直玩家也在繼續卡位。

模型、平臺、工具鏈等各類玩家同時下場，AI視頻賽道正在變成一條擁擠且高速發展的賽道。

刷分失效從廠商層面看，競爭梯隊正在快速拉長。

互聯網大廠方面，字節有Seedance（即夢），快手有可靈，阿里有happyhorse。

除主流互聯網公司外，長視頻平臺愛奇藝也已下場，推出面向短劇專業制作的全流程AI創作平“納豆”。

在大廠之外，垂直玩家同樣密集涌入：生數科技的Vidu、愛詩科技的PixVerse（拍我AI）、MiniMax的海螺、群核科技的LuxReal、商湯的Seko等，紛紛圍繞這條賽道展開卡位。

但熱鬧的另一面是，當AI視頻開始從模型演示走向真實生產線，外界對模型能力的判斷標準也在發生變化。

過去一年，圍繞AI視頻模型的各類榜單越來越多，模型排名、樣片對比層出不窮。這些榜單在一定程度上放大了行業熱度，也讓外界更直觀地看到不同模型之間的能力差異。

但問題在于視頻生成一旦進入短劇、廣告、內容工業化等真實生產流程，模型要面對的就不再只是“能不能生成一段好看的樣片”，而是能否穩定生成一段具有畫面質感、動作流暢、人物主體一致性等的素材。

這些能力很難被一套自動化榜單完整衡量。

因此，在當前階段，不少廠商內部已經開始弱化機器自動評審視頻效果，更加側重于人工評價和真實場景反饋。對于下游創作者而言，一個模型是否真的好用，往往不是看它在榜單上的排名，而是看能否在連續生產中減少返工、提升出片效率，并真正進入工業化流程。

某種程度上，這正在復現大模型Agent賽道中已經出現過的“刷分失效”。

在Agent剛剛興起時，行業同樣熱衷于用排行榜衡量模型能力。但隨著Agent從對話和演示走向真實工作流，外界很快發現許多榜單分數并不能直接對應實際可用性。

原因在于，Agent真正進入“干活”階段后，面對的往往是多步驟、長鏈路的決策和執行，需要理解目標、拆解任務、調用工具等，并在過程中不斷修正路徑。

但現有評測體系很難完整測試這種長任務的能力。

從這個角度看，Seedance 2.0受到關注正是因為它已經開始被嵌入真實生產流。

從可用走向生產

據全天候科技走訪的多家下游應用方情況來看，Seedance 2.0帶來的體感變化更為直接。

“無論是對視頻內容的理解、對物理世界規律的把握，還是表演的自然度，Seedance 2.0都有大幅度提升。”AI短劇制作公司可夢智能（北京）科技有限公司的內容負責人劉城對全天候科技表示。

以視頻內容的理解來說，劉城認為Seedance 2.0對于抽象語義的理解已經有了較大的進步。

“雖然最后生成的結果仍有不確定性，但是已經做得不錯了。比如提示詞是‘讓這兩個人在場景中產生曖昧的互動’，AI會分析并生成兩個人之間帶有曖昧的光影效果和色調，人物的鏡頭運動可能會變得更加緩慢，相當于它會根據需求自動補充這些元素。”劉城表示。

不僅如此，他舉例稱原來一些武打動作、復雜的多人交互場景，常常會出現穿幫、穿模、人臉模型錯位等問題，但經過Seedance 2.0之后，目前已經基本得到解決。

“有一些視頻其實你根本看不出來是AI還是真人。”劉城直言。

重慶一位短劇從業者亦持相似的觀點。

“Seedance 2.0出來以后，確實人物、口型和聲音的一致性保持比以前好，而且畫面的油畫感也弱了很多，分鏡設計上也變得更聰明。”該從業者向全天候科技表示。

據西安一位AI短劇行業人士向全天候科技透露，在Seedance 2.0的加持下，其通過對提示詞的優化等，現在能做到一到兩次便生成一段10秒鐘左右的視頻，至多三次便能實現滿意效果。

“如果熟練的話，可能一部50集的真人AI短劇兩周左右就能完成了。”該人士透露。

作為一名正在創業、專注AI短劇工具的開發者，星熹（化名）認為字節跳動接入Seedance2.0模型的即夢，功能的易用性做的比其他廠商完善。

據星熹反饋，即夢視頻生成的全能參考模式能夠較好的理解九宮格分鏡圖片。即上傳一張包含了九個分鏡頭的關鍵幀圖片后，可以基于分鏡圖標注的順序自動推理生成視頻。但是現在大家迭代速度都很快，其他工具也有這個功能了。

至少在當前這一輪AI視頻競爭中，Seedance 2.0已經率先把模型能力從“可用”推向“更接近生產級”，也讓后來者的追趕壓力進一步加大。

痛點主要是什么盡管Seedance 2.0是斷檔式的存在，但AI視頻行業的共性問題仍然存在。

一是隨著生成視頻時長的拉長，人物主體難以保持一致性。尤其是當人物從正臉轉到側臉時，人物主體的臉就可能發生變化。

目前包括Seedance 2.0等模型在內的廠商基本解法是控制單個視頻生成的時長，基本保持在5-15秒。

這導致用戶只能一個一個片段的生成視頻，再通過后期剪輯將這些片段拼接成完整內容。

但片段式生成又會帶來新的問題：每進入一個新鏡頭，創作者都需要重新把人物定妝照、服裝、場景、道具等信息帶入模型，以盡可能維持前后畫面的一致性。

學界也在探討相應的解法。

例如北京大學計算機碩士生袁盛海團隊所發表的《Identity-Preserving Text-to-Video Generation by Frequency Decomposition》，想要解決的問題便是“在文字生成視頻時，如何讓同一個人物在不同幀、不同動作、不同角度中保持人物主體的一致性。”

例如袁盛海在該論文中所提出的技術框架ConsisID，主要是通過把人臉的特征分成高頻和低頻兩種信號，再分別讓模型進行學習，以此降低模型學習的難度。

“之前大家的做法就是直接把原圖丟給特征提取器里去提取特征。我們認為這樣其實是會提升模型學習的難度。”袁盛海解釋稱，“我們后續查閱了一些文獻，發現人臉特征實際上可以分為高頻和低頻兩種類型。高頻信號對應于人臉的細節，如面部紋理和眼睛等細節相關的特性。而低頻信號則與人臉的全局特征相關，包括人臉骨架、眼睛、鼻子等五官的相對位置，這些特征可以被理解為低頻的信號。如果我們能夠將這兩種高低頻特性分開，并分別讓模型進行學習，其實是會讓模型更容易學習這些特征。”

二是人物與背景的“圖層割裂”。

許多觀眾都能直觀感受到，AI生成視頻中的人物常常“漂浮”在背景之上，仿佛不在同一圖層。

星熹分析，很多畫面ai味的根源在于光影和層次處理。由于現在不少轉型做AI視頻的創作者大多沒有經過影視美學訓練，不懂得主動調整光影效果，導致畫面缺乏層次。

“可能部分從業者對光的角度、陰影、焦點、景深的處理不夠協調，導致畫面給人扁平感或者割裂感。所以很多畫面看起來覺得是兩個圖層強行拼湊在一起。”星熹指出，“去掉畫面AI味在很大程度上取決于制作人員的影視攝影基礎，最簡單來說就是美學理解和鏡頭中的關系呈現。”

也有AI視頻研究人員告訴全天候科技，這本質上是模型端的多模態參考融合問題，人物參考圖和場景圖各有各的色調、各有各的光感，二者融不到一起。

三是長敘事下的鏡頭邏輯與情感張力。

星熹認為，即便是大廠自研劇本生成和劇本拆分工具，在劇本層面仍存在“平鋪直敘”和“劇情生硬老套”的問題。

“針對特定類型和風格的泛化能力不夠，沒有波瀾和起伏。”星熹指出，“雖然會在大的劇情里設置反派，但在小情節里無法引起情緒共鳴，缺乏小沖突和邏輯嚴謹性。”

劉城也認為：“Seedance 2.0的升級雖然降低了AI內容的制作門檻，但這種情況下AI內容會泛濫，參差不齊，好的作品還是需要內容力的，才能真正打動觀眾。”

差異化補位如此背景下，大廠之外的玩家開始在工作流、案例庫等方面作出差異化優勢。

據劉城透露，在項目生成過程中，可夢采用了AI輔助功能。例如，團隊開發了分鏡提示詞和草圖功能，用戶修改提示詞后，AI可以完成80%至90%的創作。對于靈活運用AI提示詞的用戶還可以通過進一步微調提示詞來提升效率。

群核科技則把工作流優化做到了3D層面，其在5月27日推出了短劇版的LuxReal。

基于群核科技自研空間大模型等3D技術，LuxReal能夠將2D畫面場景生成為可漫游的虛擬 3D空間。創作者可以自由調整機位、設置人物站位，系統基于同一個3D場景自動渲染對應畫面。

不過實際生成質量仍待觀察。例如雖然LuxReal為短劇工作流的設置較為完善，但主動思考的優化程度仍待提升，存在人物衣著與時間背景不符合等問題。

愛奇藝的納豆接入了自研和Seedance 2.0等外部模型，結合愛奇藝IP庫、數字資產庫和創作者社區，形成可調用的平臺能力，為創作者一站式提供從內容生產到運營等全鏈路支持。

在這當中，IP庫、數字資產庫是愛奇藝的獨特優勢。例如在數字資產庫中，創作者可以調用電視劇《成何體統》中的皇宮、《花戎》的魔界大全等多部電視劇中的場景、武器、動物等IP形象。

不過據全天候科技觀察，愛奇藝雖然自身擁有豐富的IP庫和數字資產庫，但是目前在納豆平臺中所呈現的數量仍相對有限。

總體來看，大廠之外的玩家在引入Seedance 2.0之后，主要在工程化、知識沉淀、流程協同等維度構建自己的差異化優勢。

戰火不休無論是長視頻穩定性、人物一致性，還是可控性等，現階段的AI視頻行業確實還存在諸多需要被解決的痛點，競爭格局遠未到收斂階段。

在這樣的背景下，資本化也成為部分廠商加足馬力的重要選擇。

今年5月，市場傳出快手正在加速推進可靈的分拆上市，計劃明年啟動獨立IPO，Pre-IPO輪估值預計達200億美元。

隨后，快手在港交所公告中確認，公司董事會正評估重組可靈相關資產及業務的方案。

無獨有偶，垂直玩家也在加快融資和上市準備。生數科技在兩個月內連續完成兩輪共計逾26億元融資后，亦被傳計劃于2026年上半年啟動港股IPO，其工商主體已于3月底完成股份制改造。

密集的資本動作，意味著這條賽道的競爭烈度只會進一步抬升，而非收斂。

這些資本動作背后，折射出AI視頻賽道的另一重現實：模型競爭并不只是一場技術競賽，也是一場資金、算力、數據和場景落地能力的綜合競爭。

與此同時，AI視頻的商業化仍處在早期階段。短劇、廣告、電商、游戲、影視預演等場景雖然已經開始驗證需求，但距離形成穩定、規模化、高毛利的收入模型仍需要時間。

也正因如此，資本市場的資金支持某種程度上成為不少廠商繼續留在牌桌的重要籌碼。

當前AI視頻賽道的競爭并沒有因為Seedance 2.0的階段性領先而結束。相反，隨著更多廠商補充資金、加速產品迭代，行業有可能會繼續經歷一輪模型能力、生產工具和商業化效率的競速。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.