網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

LibTV：你的龍蝦，真的可以當(dāng)導(dǎo)演了

2026-03-18 10:05:03　來(lái)源: AI進(jìn)化論花生

北京舉報(bào)

分享至

我給OpenClaw發(fā)了一句話：

我之前開發(fā)了一款叫「小貓補(bǔ)光燈」的app，主要價(jià)值是幫助女生在餐廳、飛機(jī)、酒吧等暗光環(huán)境下補(bǔ)光。請(qǐng)幫我收集下這個(gè)產(chǎn)品的相關(guān)信息，然后用LibTV skill做一個(gè)30秒左右的Apple風(fēng)格宣傳視頻。

然后就看著它開始工作。

它先自己去找本地有沒(méi)有LibTV Skill，有沒(méi)有關(guān)于小貓補(bǔ)光燈的現(xiàn)成資料——找到了，把產(chǎn)品賣點(diǎn)抽出來(lái)。然后調(diào)用LibTV，先把劇本框架寫好，然后生成角色參考圖：正面、側(cè)面各一張，用來(lái)鎖定后續(xù)所有場(chǎng)景的角色一致性。參考圖出來(lái)之后，逐個(gè)分鏡生成關(guān)鍵幀畫面，最后拼成25秒完整視頻。

整個(gè)過(guò)程，我沒(méi)有手動(dòng)操作任何節(jié)點(diǎn)，沒(méi)有打開任何界面，沒(méi)有寫任何一句prompt。Agent自己完成了：找資料 → 寫劇本 → 生成角色圖 → 出分鏡 → 拼成片。

回頭看LibTV的畫布，能清楚地看到這條鏈路：劇本節(jié)點(diǎn) → 角色圖節(jié)點(diǎn) → 分鏡節(jié)點(diǎn) → 視頻片段節(jié)點(diǎn) → 最終成片。

讓我覺(jué)得比較驚喜的是LibTV主動(dòng)傳了我的產(chǎn)品首頁(yè)界面圖和logo圖作為參考，而且，似乎它看著這些界面就天然知道產(chǎn)品該怎么操作了。最終的宣傳視頻效果如下

對(duì)了，在裝了LibTV Skill之后，我的龍蝦成了我的導(dǎo)演了。

這是他們的產(chǎn)品地址你大可以先關(guān)閉這篇文章，自己去親自動(dòng)手試試。

LibTV官網(wǎng)：https://www.liblib.tv/

LibTV Github倉(cāng)庫(kù)：https://github.com/libtv-labs/libtv-skills

這件事為什么現(xiàn)在才發(fā)生

往前推一年，這件事還不可能發(fā)生，或者說(shuō)，沒(méi)法做好。

AI視頻生成有一個(gè)明顯的拐點(diǎn)，就在過(guò)去這半年多里悄悄過(guò)了。可靈從1.0到3.0，Sora 2出來(lái)，Veo 3.1出來(lái)，Seedance 2.0也發(fā)了，Wan系列也在快速迭代。這些模型在差不多同一段時(shí)間里集中爆發(fā)，把「AI視頻」這件事的質(zhì)量上限抬高了一大截。以前出來(lái)的東西「看起來(lái)像AI做的」，有一種特殊的平滑感和不自然的運(yùn)動(dòng)方式，一眼就能認(rèn)出來(lái)。現(xiàn)在這條線模糊了很多。

記得就在Seedance模型的新版本出來(lái)那天，即夢(mèng)的排隊(duì)人數(shù)一度破萬(wàn)。上一次見到這種陣仗，我還是在排隊(duì)退ofo押金。

那些排隊(duì)的人，很多不是來(lái)玩的，是真的專業(yè)黨來(lái)干活的。

最近刷到越來(lái)越多關(guān)于AI視頻的消息了，比如有報(bào)道已經(jīng)有導(dǎo)演在混合調(diào)用這幾個(gè)視頻模型加上圖像模型，一個(gè)人做出了質(zhì)量過(guò)得去的AI短劇，在平臺(tái)上掙錢了。有人做了個(gè)粗略測(cè)算，一部30集的AI短劇，傳統(tǒng)方式可能要幾百萬(wàn)制作成本，現(xiàn)在一個(gè)懂工具的人，幾萬(wàn)塊能搞定。

更標(biāo)志性的一個(gè)信號(hào)：賈樟柯和即夢(mèng)合作，用AI做出了一部有明顯導(dǎo)演質(zhì)感的作品。這件事的意義不在于「AI能生成視頻」，而在于一個(gè)有審美判斷的導(dǎo)演，真的把AI工具當(dāng)成了自己創(chuàng)作的一部分。原來(lái)只有大公司能玩的賽道，現(xiàn)在個(gè)人創(chuàng)作者也能進(jìn)去了。

但那是懂工具的人。

專業(yè)導(dǎo)演身上有一樣?xùn)|西，任何工具都給不了你：他們知道怎么「調(diào)度」。知道一個(gè)場(chǎng)景該用哪個(gè)模型，什么時(shí)候換風(fēng)格，角色在不同鏡頭里怎么保持一致，分鏡節(jié)奏怎么排。這套思維方式，是從無(wú)數(shù)個(gè)項(xiàng)目里磨出來(lái)的。

你把Seedance 2.0給一個(gè)沒(méi)有這種積累的人（比如我），很多時(shí)候，他打開輸入框，發(fā)現(xiàn)自己不知道第一句話該寫什么。

工具在加速進(jìn)化，但工具和結(jié)果之間的那段距離，那段叫「導(dǎo)演思維」的東西，并沒(méi)有因此消失。有時(shí)候工具越強(qiáng)，這段距離反而越明顯，因?yàn)楣ぞ吣茏龅氖绿嗔耍惴炊恢涝撟屗鍪裁础?/p>

現(xiàn)有工具，有兩個(gè)極端

LibTV的團(tuán)隊(duì)在做這個(gè)產(chǎn)品之前，觀察到一個(gè)問(wèn)題：現(xiàn)在的AI創(chuàng)作工具，要么太簡(jiǎn)單，要么太復(fù)雜。

太簡(jiǎn)單的一類，是聊天式的Agent工具。你給它發(fā)指令，它幫你生成東西，能聊，但做不出復(fù)雜作品。一旦你想精細(xì)調(diào)整某個(gè)鏡頭，它就跟不上了。

太復(fù)雜的一類，是純節(jié)點(diǎn)式工作流。搭起來(lái)成本很高，需要對(duì)工具本身有深入理解，普通創(chuàng)作者上手門檻陡。更麻煩的是，創(chuàng)作過(guò)程中的小修改、小調(diào)整，沒(méi)有順手的工具，只能不斷導(dǎo)出到別的軟件二次編輯，流程被切得很碎。

LibTV想填的是這中間的空白：比聊天工具更專業(yè)，比純節(jié)點(diǎn)工作流更好上手。

一個(gè)給導(dǎo)演設(shè)計(jì)的工作臺(tái)

LibTV（liblib.tv）的界面是一塊無(wú)限畫布。

進(jìn)去之后是一片黑色的空白，中間有一行小字：「雙擊畫布，自由生成節(jié)點(diǎn)」。底部有四個(gè)快速入口：故事腳本生成、角色三視圖、首幀圖生視頻、音頻生視頻。你從哪個(gè)環(huán)節(jié)開始都行。

不是在一個(gè)生成框里點(diǎn)來(lái)點(diǎn)去，而是在畫布上把整個(gè)項(xiàng)目鋪開。劇本是一個(gè)節(jié)點(diǎn)，角色是一個(gè)節(jié)點(diǎn)，分鏡是一個(gè)節(jié)點(diǎn)，圖像生成、視頻生成、音頻都是節(jié)點(diǎn)，節(jié)點(diǎn)之間連線，組成一條完整的創(chuàng)作工作流。這種設(shè)計(jì)讓你的創(chuàng)作過(guò)程是「可見的」，哪一步出了問(wèn)題，單獨(dú)調(diào)那個(gè)節(jié)點(diǎn)就行，不用從頭來(lái)。

功能上，有幾個(gè)讓我覺(jué)得確實(shí)在認(rèn)真考慮「導(dǎo)演視角」的設(shè)計(jì)。

我最喜歡的是兩個(gè)能力：

1、我可以丟給他一套我想模仿的廣告片，點(diǎn)一下「解析」，即可獲得顆粒度到0.1秒級(jí)別的極致清晰的腳本信息。

2、你也可以單純的有個(gè)粗淺的腦洞，然后讓LibTV幫你生成包含角色描述、景別、角色動(dòng)作，甚至情緒的專業(yè)腳本

學(xué)不完，根本學(xué)不完...

以往這樣的腳本應(yīng)該怎么寫的認(rèn)知，你可能需要在電影學(xué)院學(xué)個(gè)4年時(shí)間，或者在前兩年，你大概需要花個(gè)x99買AI課程，而現(xiàn)在Libtv的這套工作流以及封裝的Skill相當(dāng)于完全把導(dǎo)演的職業(yè)技能開源了。

目前LibTV上線了20多個(gè)專業(yè)視頻創(chuàng)作功能，其中不少是行業(yè)首發(fā)。

更多功能我就不介紹了，講道理，我也不太懂，我希望我的Claude Code和OpenClaw作為成熟的Agent，該自己去學(xué)這些東西，而不是完全依賴我了。

以及，如果你不確定自己的導(dǎo)演思維從哪里開始練，LibTV首頁(yè)其實(shí)是一個(gè)不錯(cuò)的起點(diǎn)。那里有一個(gè)「TV Show」社區(qū)，按商業(yè)廣告、專業(yè)影視、動(dòng)漫游戲等分類展示了大量創(chuàng)作者的真實(shí)作品，每一條都是可以點(diǎn)開看、可以反推工作流的案例。光刷首頁(yè)，就能大概建立起「什么樣的畫面用什么方式做出來(lái)」的感覺(jué)。

模型方面，圖像有Seedream 5.0、Qwen image等，視頻有可靈3.0、Wan 2.6等，文本接了三個(gè)頂級(jí)大模型，全在一塊畫布里，不用來(lái)回切平臺(tái)。

關(guān)于價(jià)格

做AI視頻的人都懂「抽卡」這件事。

同樣一段prompt，生成十次可能只有一兩條讓你滿意。一個(gè)認(rèn)真的項(xiàng)目，核心鏡頭可能要反復(fù)抽幾十次。隨機(jī)性是AI生成的底層邏輯，沒(méi)辦法消除，只能用更多次數(shù)去篩。

問(wèn)題在于，次數(shù)是有成本的。

LibTV目前會(huì)員價(jià)格比競(jìng)品低76%，模型積分定價(jià)比競(jìng)品低92%。

原來(lái)只敢試5次的，現(xiàn)在可以試50次。你可以理解為這個(gè)成本降低背后帶來(lái)的本質(zhì)是讓你的創(chuàng)作方式改變。你開始敢做實(shí)驗(yàn)，敢在某個(gè)細(xì)節(jié)上多磨幾輪，因?yàn)椤阜凑毁F」。

B、C之后，A來(lái)了

回到開頭那件事。

龍蝦能當(dāng)導(dǎo)演，不是因?yàn)辇埼r特別聰明，是因?yàn)長(zhǎng)ibTV從第一天起就同時(shí)打開了兩扇門。

一扇是人用的GUI，也就是那塊畫布，人在上面操作、排分鏡、生成視頻。另一扇是Agent用的Skill接口，OpenClaw、Coze、Claude Code這類AI Agent，通過(guò)這個(gè)接口理解任務(wù)、調(diào)用模型、自動(dòng)完成創(chuàng)作。兩扇門，Day 1同時(shí)開著，沒(méi)有先后順序。

這背后有一個(gè)判斷，我覺(jué)得是對(duì)的。

過(guò)去二十年，軟件產(chǎn)品的成長(zhǎng)路徑幾乎都是同一條：先做好用的界面把用戶圈進(jìn)來(lái)，做大了再開放API給開發(fā)者。GUI是正門，API是后門，有先后順序。Figma這樣做，Notion這樣做，Salesforce也這樣做。API從來(lái)都是「長(zhǎng)大以后再說(shuō)的事」。

但Agent的出現(xiàn)打破了這個(gè)順序。

這要從AI能力的一個(gè)變化說(shuō)起。過(guò)去幾年，Agent經(jīng)歷了幾次躍遷：最開始只會(huì)對(duì)話；然后學(xué)會(huì)調(diào)用工具，開始能搜索、寫代碼、發(fā)消息；現(xiàn)在到了第三階段，能夠理解復(fù)雜任務(wù)，自主編排工作流，在項(xiàng)目級(jí)別的上下文里持續(xù)迭代。

這第三次躍遷是關(guān)鍵的。它讓Agent從「工具的使用者」變成了「工作的執(zhí)行者」。當(dāng)軟件的用戶不再只是人類，API從第一天起就和GUI同等重要。

Sam Altman在2024年底說(shuō)過(guò)，2025年會(huì)是「Agent真正開始接管工作的一年」。a16z在研究報(bào)告里寫，AI Agent正在成為軟件消費(fèi)的第三條主要路徑，和人類用戶、企業(yè)系統(tǒng)并列。到了2026年，看來(lái)這一預(yù)期終于要成真了。

B2C、B2B大家都熟悉了。B2A（to Agent）正在成為一個(gè)真實(shí)的商業(yè)邏輯。ABC，算是補(bǔ)齊了。

兩扇門，對(duì)應(yīng)兩種工作方式

如果你是認(rèn)真做內(nèi)容的創(chuàng)作者，想精細(xì)控制每個(gè)鏡頭、每個(gè)色調(diào)、每個(gè)節(jié)奏點(diǎn)，GUI那扇門是給你的。無(wú)限畫布，所有工具，你來(lái)導(dǎo)，AI來(lái)執(zhí)行。

如果你有重復(fù)性的內(nèi)容生產(chǎn)需求，比如品牌方每周要的幾十條素材、系列欄目的每期視頻，Agent那扇門是給你的。裝一個(gè)Skill，給一句話，批量出來(lái)，不需要人盯著。

顯然，這也不是OpenClaw專屬的能力。我用Claude Code也測(cè)試過(guò)，甚至還更穩(wěn)：

用LibTV Skill幫我做一個(gè)類似《辛普森》風(fēng)格的，諷刺人類在過(guò)度利用ai后，什么都不會(huì)，甚至吃飯、走路都要詢問(wèn)ai自己該怎么做的諷刺性視頻。

工作方式和OpenClaw一樣：自己寫分鏡劇本，調(diào)用LibTV生成角色參考圖，逐個(gè)場(chǎng)景出關(guān)鍵幀，最后拼成完整視頻。本質(zhì)上，只要是能調(diào)用Skill的Agent，Claude Code、AutoClaw、KimiClaw，或者Cursor、Trae這類AI編程工具，都可以接LibTV這扇門。是哪個(gè)Agent不重要，重要的是那扇門開著。

60秒，包含了6個(gè)不同的場(chǎng)景的畫面，這個(gè)20分鐘左右生成的動(dòng)畫短片的人物一致性和風(fēng)格統(tǒng)一性還真挺讓我驚訝的。

當(dāng)然了，我覺(jué)得視頻創(chuàng)作和寫文章、做產(chǎn)品都類似：AI能為你提供超乎想象的大量輔助，但是好作品還是需要人的品味和判斷。

創(chuàng)意決策，審美篩選，那個(gè)「不對(duì)，再來(lái)一條」的直覺(jué)，這些暫時(shí)沒(méi)有東西能替代。但把創(chuàng)意執(zhí)行出來(lái)這件事，可以越來(lái)越多地交出去。導(dǎo)演還是導(dǎo)演，只是他的劇組里，現(xiàn)在多了一只會(huì)拍戲的龍蝦。

最好的狀態(tài)大概是這樣的：你負(fù)責(zé)審美，它負(fù)責(zé)執(zhí)行。你往前走，龍蝦跟上來(lái)，一起把東西做出來(lái)。

目前LibTV還在內(nèi)測(cè)，不是完整體，真正的大功能還沒(méi)全放出來(lái)。但那扇門已經(jīng)開著了，先裝上Skill的人，會(huì)比別人早一段時(shí)間把龍蝦練出來(lái)。

另外有個(gè)消息順手說(shuō)一下：現(xiàn)在訂閱的用戶，會(huì)贈(zèng)送最多150條可靈O3＋150條可靈3.0，共300條最高等級(jí)視頻免費(fèi)用。抽卡這件事，先把這300條花完再說(shuō)。

感興趣可以去他們的官網(wǎng)或者Github倉(cāng)庫(kù)看看

LibTV官網(wǎng)：https://www.liblib.tv/ GitHub：https://github.com/libtv-labs/libtv-skills

哦對(duì)，我大概是玩上癮了，我還做了兩個(gè)分別是新聞風(fēng)格和《Rick & Morty》風(fēng)格的宣傳我的《OpenClaw橙皮書》的廣告視頻。我感覺(jué)Building in public這件事，又有不同的可能性了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.