網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI視頻工具悄悄走到了第三階段

2026-05-07 08:10:55　來源: AI進化論花生

北京舉報

分享至

這兩年我看了一堆號稱要顛覆AI視頻的新產(chǎn)品。看了一陣子，我大概看出了一個規(guī)律。

第一代AI視頻工具，是文生視頻的盲盒。一句話扔進去，等幾分鐘，開出來什么算什么，不滿意只能重新投幣。

第二代多了個Agent入口，AI開始能用對話方式調(diào)度。但Agent是懸浮在產(chǎn)品之外的「插件」，對話歸對話，畫布歸畫布，AI在另一個房間幫你跑腿。

最近我用了一個國產(chǎn)的畫布型AI視頻工具，叫RHTV。打開第一眼我就感覺，AI視頻工具可能在悄悄進第三階段了。

這一代的關(guān)鍵詞是「畫布原生」。Agent不是懸浮在畫布之外的服務(wù)，而是畫布本身的大腦。它住在你的工作流里，看得見你每一步在做什么，也讓你看得見它每一步在想什么。

聽起來好像只是產(chǎn)品形態(tài)的小調(diào)整，但用過之后我意識到，它其實在重新定義「人和AI怎么一起做事」這件事。

一、AI視頻工具的三階段演化

把過去兩年的AI視頻工具按使用體驗排一下，能很清晰地看到三個階段。

第一階段，文生視頻盲盒。

你輸入一句話，等模型出片。整個過程是黑盒，AI怎么理解你的需求、怎么選模型、怎么處理細節(jié)，全在后端，用戶看不到。結(jié)果不滿意只能重新生成，沒有局部修改的概念。

這個階段最大的問題不是出不出好東西，是不可控。一支15秒的短片，你想換其中一個鏡頭，必須把整個15秒重做。這種「一擲定乾坤」的體驗，能用來玩，但很難拿來真正干活。

第二階段，雙入口模式。

產(chǎn)品意識到了「全自動」的問題，于是引入了Agent。但很多產(chǎn)品只是在原有的畫布旁邊加了一個「對話面板」：你跟Agent聊天，Agent幫你生成，結(jié)果再回到畫布。

看起來「AI智能體」是有了，但本質(zhì)上Agent是個外掛插件。它不在畫布里，它在畫布旁邊。

這個階段的體驗有種微妙的撕裂感。你在畫布里精雕細琢一個分鏡，想讓AI幫忙優(yōu)化，得切到對話框，跟Agent解釋你在做什么。AI不知道你畫布里的上下文，每次都得從頭說起。Agent成了一個外接的傳話筒，不是真正的搭檔。第三階段，畫布原生Agent。

這就是RHTV在做的事。Agent就在畫布里，左下角一個按鈕喚起。你選中一個素材或節(jié)點，直接對RH智能體說「把這個調(diào)暗一點」，它知道你說的「這個」是什么，因為它和你看的是同一張畫布。

更關(guān)鍵的是，RH智能體不是只負責執(zhí)行。它有自己完整的本地決策鏈：理解需求 → 規(guī)劃路徑 → 生成提示詞 → 組裝節(jié)點。每一步都可見，每一步都可改。你看到的不只是結(jié)果，是它怎么得出這個結(jié)果的。

這三個階段，本質(zhì)上是三種「人和AI的關(guān)系」。第一階段是「使喚AI」，第二階段是「協(xié)助AI」，第三階段才是「和AI一起想」。

二、什么是「畫布原生」

「畫布原生」這個詞第一次出現(xiàn)的時候，我也沒太懂它和「在畫布里加個AI按鈕」有什么區(qū)別。后來在RHTV里跑了一個真實的MV項目，我大概理清了它的樣子。

先說背景。我用GPT-Image-2做了一張「MV小提琴演奏場景·分鏡腳本與美術(shù)設(shè)計方案」的綜合參考板。一張圖里，把這支MV的前期工作幾乎全做完了：角色6視角圖（JK制服小提琴少女）、法式宮廷場景的平面圖+立面圖+剖面圖、3個分鏡的方案（側(cè)面中景、小提琴特寫、斜側(cè)情緒特寫）、4種燈光參考、還有色調(diào)推薦。

這張圖本身就挺值得說一下。文生圖模型走到今天，一張圖就能把一支MV的前期規(guī)劃全做完。導演腦子里所有該想的：人物、場景、鏡頭、運鏡、光線、色調(diào)，都可以讓AI一次性鋪出來。

但問題隨之而來：前期規(guī)劃完成度變高了，可下一步怎么走？

按傳統(tǒng)玩法，我有兩個選項。

選項一是手動拆解：把參考板里的角色圖摳出來作為@參考，把場景圖摳出來作為另一組@參考，把分鏡文字復制成prompt，再分3次手動調(diào)度Seedance 2.0。這個流程下來，光準備工作就夠你折騰大半天，每改一處還得重來一遍。

選項二是直接把整張參考板丟給Seedance 2.0：它會把這張密密麻麻的板子當成「一張包含人物+場景+小圖+文字框的圖」整體識別。結(jié)果就是穩(wěn)定性差、可控性差、可拓展性差，輸出基本是不可用的。

也就是說，當文生圖把「想清楚」這件事壓縮到幾分鐘，AI視頻領(lǐng)域反而出現(xiàn)了一個新的工具空缺：能不能有一個工具，看得懂這張參考板，能把它結(jié)構(gòu)化拆解，能把每個分鏡變成畫布上可調(diào)度的節(jié)點？

這就是我說的「畫布原生Agent」要解決的問題之一。它不止是酷炫，也是真的有能力去適配是最新一代具有agent思維的圖像生成模型甩出來的高密度規(guī)劃素材。

我決定換個玩法：把整張參考板丟給RHTV的畫布，對RH智能體說一句話：

「按這張分鏡板生成MV，3個鏡頭」。

然后我就坐著不動了。

RH智能體接到指令之后，沒有像傳統(tǒng)模型那樣直接悶頭開生成。它先做了一件事：識別。

它在畫布的對話面板里，把這張參考板的核心元素逐條標記出來：

角色：JK制服小提琴少女
場景：法式宮廷
道具：小提琴

這個動作的關(guān)鍵不是它「識別對了」，而是它把識別過程暴露給我看了。我能看到RH智能體對這張參考板的全部解讀，確認無誤后才讓它繼續(xù)。如果它把JK制服理解成了和服，我可以在這一步就攔住它，不會等10分鐘后看到一團離譜的成片再來反悔。

我一直覺得，能不能看見AI在想什么，是判斷一個AI產(chǎn)品是工具還是搭檔的分水嶺。工具只對結(jié)果負責，搭檔要對過程透明。

三、透明的力量

確認完元素，RH智能體開始自己建工作流。

它在畫布上拉出了兩組節(jié)點：

第一組叫「MV小提琴-視覺資產(chǎn)生產(chǎn)」，里面是3個image節(jié)點，分別承擔參考板拆解、角色生成、場景生成。

第二組叫「MV小提琴-最終視頻生成」，里面是3個video節(jié)點，對應分鏡板里的3個鏡頭：

鏡頭1：側(cè)面優(yōu)雅演奏
鏡頭2：指尖技藝特寫
鏡頭3：沉浸式神情特寫

更讓我意外的是，RH智能體還把節(jié)點之間的參考關(guān)系也自動配置好了。哪個視頻鏡頭用哪張圖做參考、參考的優(yōu)先級是什么，全部展開在對話面板里。

這是傳統(tǒng)Agent模式做不到的事情。它們的輸出是個「黑盒視頻」，它知道自己怎么做的，但不告訴你。RHTV的智能體是把它的整個工作思路展開成畫布上一張可視化的圖，哪個節(jié)點干什么、連給誰，一目了然。

AI創(chuàng)作這兩年最大的痛點，其實不是模型不夠強，是不可控。

你可能聽過太多創(chuàng)作者抱怨：「這個鏡頭明明只有一個細節(jié)不滿意，憑什么要重做整支視頻？」這個痛點的根源就是黑盒。第一代和第二代AI視頻工具，把創(chuàng)作過程鎖在后端。你輸入prompt，等結(jié)果，不滿意再調(diào)prompt，再等結(jié)果。整個反饋循環(huán)里，你永遠不知道AI到底是怎么處理你的話的。

畫布原生Agent真正值錢的，可能不是它會自動搭工作流，而是它把整個工作流攤開給你看。

每個節(jié)點都帶著明確的語義角色，每條連線背后都有可解釋的參考關(guān)系。我想在哪個環(huán)節(jié)插手就在哪個環(huán)節(jié)插手：換衣服只改character節(jié)點，換燈光只改lighting節(jié)點，調(diào)某個鏡頭的運鏡只改對應的video節(jié)點，下游會自動適配，不用重跑整條鏈路。

這一點對專業(yè)創(chuàng)作者特別重要。輕度玩家要的是「一鍵出片」，專業(yè)創(chuàng)作者要的是「可改」。一段廣告片、一段品牌視頻、一支短劇，幾乎不可能一次成型，必然要反復迭代。如果每次迭代都意味著重新跑整條流程，那AI不是在幫你創(chuàng)作，是在浪費你的時間。

四、能力上限的賭注

聊到這里要回答一個問題：為什么是RHTV做出了「畫布原生Agent」，而不是其他家？

我覺得答案在生態(tài)。

AI視頻工具的核心矛盾，是用戶的需求邊界永遠在擴展，而單個產(chǎn)品團隊的開發(fā)能力是有限的。今天用戶要漫劇，明天要TVC，后天要MV，再后天要新的視覺風格。每一個新需求，封閉系統(tǒng)都得自己開發(fā)模型、調(diào)試節(jié)點、上線功能。

這種模式有個天然的天花板：產(chǎn)品能力的上限就是產(chǎn)品團隊的上限。

RHTV的解法是站在Runninghub生態(tài)之上。RunningHub是目前國內(nèi)最活躍的AI內(nèi)容創(chuàng)作者共創(chuàng)的圖像音視頻內(nèi)容平臺，有國內(nèi)規(guī)模最大的ComfyUI創(chuàng)作者，沉淀了10萬+社區(qū)AI應用、13681個可用節(jié)點、170+標準模型API。每天全球開源社區(qū)貢獻的新節(jié)點、新工作流、新模型，都會自動納入RHTV的能力矩陣。

這不是「接入了開源」那么簡單，是「產(chǎn)品的能力上限由全球開源社區(qū)決定」。每天都有開發(fā)者在貢獻新的節(jié)點、新的工作流、新的插件，這些都會自動出現(xiàn)在RHTV用戶的能力面板里。

封閉系統(tǒng)在和全球社區(qū)賽跑，結(jié)果其實是注定的。

短期看，封閉系統(tǒng)可能能通過精打細磨的官方能力贏得用戶。但長期看，5萬+工作流的復用、10萬+應用的可調(diào)用、五大模態(tài)全覆蓋（圖像、視頻、音頻、3D、文本），這種規(guī)模一旦展開，單個團隊是追不上的。

RHTV的智能體能力不會過時，因為它的能力天花板由社區(qū)決定，不由產(chǎn)品團隊決定。這是一個關(guān)于長期主義的產(chǎn)品判斷。

五、Seedance 2.0的特殊化處理

講完范式和生態(tài)，再講一個具體的、最近半年內(nèi)創(chuàng)作者最關(guān)心的話題：Seedance 2.0。

字節(jié)這一代視頻模型，業(yè)內(nèi)已經(jīng)在叫「導演之選」。它支持@參考、首尾幀、上傳真人參考視頻驅(qū)動動作。這些能力讓它在動作戲、復雜運鏡、人物表演等場景成了第一梯隊。

但Seedance 2.0這種頂級模型，有個普遍問題：在大多數(shù)平臺上，它就是被「接入」了。你能調(diào)用它，但調(diào)得很基礎(chǔ)，等待時間長、畫質(zhì)有限、玩法受限。

回到我剛才那支小提琴MV。Agent建好工作流之后，我點了「確認執(zhí)行」，Seedance 2.0就接管了視頻生成。

配置面板上能看到模型版本（Seedance 2.0）、分辨率（720p）、時長（5秒/幀）、寬高比（16:9），還有「全部參考 / 首尾幀 / 圖片參考」三種參考模式的切換，連Seed這種細節(jié)參數(shù)都可以看。這些東西全部暴露給用戶，每一個我都能看到、能改、能針對單個鏡頭微調(diào)。

跑完之后，第一個鏡頭出來了：一個JK制服的少女在法式宮廷宴會廳里演奏小提琴。水晶吊燈的光在她身上散開，木地板的反光、墻面的雕花、遠處虛化的燭臺都在。少女演奏的姿態(tài)自然，沒有早期AI視頻里那種「融化感」，運鏡平穩(wěn)。

這是我對Seedance 2.0的最新印象更新。RHTV對它的處理方式叫「增強式接入」：不排隊、速度快、支持4K和真人生成，年度會員折算下來等于6折用。

但我覺得最值得說的，還不是價格和速度，而是RHTV把Seedance 2.0的全部能力以節(jié)點參數(shù)的形式開放給用戶。你不只是在用一個模型，你是在調(diào)度一個模型。

優(yōu)秀的AI工具平臺和普通的「模型接入商」的差別，就在于對核心模型的特殊化處理。不是做加法（接入更多模型），而是做乘法（讓最好的模型在你的平臺上用得最好）。

收尾·新范式

回到開頭那個判斷：AI視頻工具走到了第三階段。

第一階段解決「AI能不能做出視頻」，第二階段解決「用戶怎么調(diào)用AI」，第三階段開始解決「人和AI怎么一起做事」。

畫布原生Agent不只是功能升級，更像是范式更新。它把Agent從「畫布之外的服務(wù)」變成「畫布之內(nèi)的大腦」，把AI創(chuàng)作從「開盲盒」變成「看得見的協(xié)作」，把產(chǎn)品的能力天花板從「團隊上限」變成「生態(tài)上限」。

我有個直覺：未來一年，AI視頻工具的競爭會沿著這三條線展開。哪些產(chǎn)品在做畫布原生，哪些還停留在雙入口；哪些把Agent的思考過程暴露出來，哪些還藏在后端；哪些站在開源生態(tài)上，哪些還在自研封閉體系里。

這三條線決定了，誰會沉淀成這一代AI視頻工具的基礎(chǔ)設(shè)施，誰只是過渡形態(tài)。

回到我那支MV：從我把分鏡板丟進畫布、說一句話，到Agent自動拆解、配置參考、調(diào)度Seedance 2.0生成——整個過程我沒碰過prompt，沒自己摳過圖，沒切換過界面。我做的事情只有兩件：上傳一張參考板、說一句中文。

這種體驗對我來說挺新的。它和我過去用過的所有AI視頻工具，確實不太一樣。

如果你也是創(chuàng)作者，建議你去自己跑一遍，看看「Agent住在畫布里」是種什么樣的體驗。

RHTV.ai

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.