過去兩年,見證了國產(chǎn)視頻大模型的很多突破。
從底層模型到功能到效果,一點(diǎn)點(diǎn)對(duì)Sora完成了全方位的圍剿。
直到2026年、到現(xiàn)在,最讓我興奮的,是 PixVerse R1。
有點(diǎn)像去年用上 DeepSeek R1 的感覺——這是把游戲規(guī)則改寫了。
![]()
01. PixVerse給視頻下了新定義
最牛的公司,有行業(yè)定義能力。
單論視覺消費(fèi)的形態(tài),好萊塢定義了電影,YouTube定義了互聯(lián)網(wǎng)長(zhǎng)視頻,抖音定義了短視頻。
站在2026年,我想說,PixVerse給AI視頻下了新的定義。
按官方的說法,這是全球首個(gè)真正意義上的「實(shí)時(shí)生成世界模型(Real-time World Model)」。
之前兩三年,AI 視頻領(lǐng)域的主旋律其實(shí)非常單一。
大家都在卷:畫質(zhì)更高一點(diǎn),時(shí)長(zhǎng)更長(zhǎng)一點(diǎn),人物一致性再穩(wěn)一點(diǎn),鏡頭語言再像人類導(dǎo)演一點(diǎn)。
說重要當(dāng)然重要,但它解決的是同一個(gè)問題:如何更好地“生成一個(gè)結(jié)果”。
PixVerse R1讓我覺得,AI視頻,不是AI生圖的視頻版,也不是什么換個(gè)平臺(tái)看AI版的抖音,是一種新形態(tài)。
![]()
就像喬布斯定義的iPhone,在產(chǎn)品沒出來前,人們甚至不容易想明白需求到底什么樣。
PixVerse 不像抖音也不像Sora,不像任何一個(gè)已經(jīng)存在的產(chǎn)品,甚至不再把視頻當(dāng)成一個(gè)“靜態(tài)結(jié)果”,第一次,給了一個(gè)可以實(shí)時(shí)交互的、活著的、流式生成的世界。
就好像,以前的《阿凡達(dá)》都是已經(jīng)完成的、鎖死的,但現(xiàn)在,阿凡達(dá)宇宙活了,我也能參與進(jìn)去,并且沒人知道接下來會(huì)發(fā)生啥。
我甚至不知道該把它叫啥,不是游戲、不是AI,像個(gè)開放的個(gè)性內(nèi)容新平臺(tái)。
讓我能站在新世界的中央,世界隨你的意圖變化。
再有代入感,都不如,讓我親身來當(dāng)主角,自己來下定義。
02. 視頻不再是靜態(tài)文件,能隨時(shí)參與
過去所有的視頻,不管是實(shí)拍的,還是 AI 生成的,本質(zhì)上都是一樣的東西:像素點(diǎn)的排列組合,封裝成一個(gè) MP4 或 MOV 文件。
它是死的。一旦生成,就已經(jīng)結(jié)束了。
最多只能在播放層面控制快慢、暫停、回放,但無法介入“發(fā)生本身”。
不能在視頻播放到一半的時(shí)候說:“等一下,讓火大一點(diǎn)”“天黑下來”“這個(gè)角色轉(zhuǎn)過身”。
PixVerse R1 現(xiàn)在可以實(shí)時(shí)生成了。
![]()
PixVerse R1里面設(shè)定好的宇宙觀非常豐富,上天入地、神話影視,都有。
而且發(fā)現(xiàn),上線一天的時(shí)間里,還在新增、還在完善,比如新加的冰山場(chǎng)景就很好玩。
先選擇這個(gè)冰山vlog,開啟體驗(yàn)。
![]()
打雪仗、變雪人,都很流暢。
![]()
月球漫步這個(gè),也很有電影感,直接選中就可以。
我嘗試了一下加入新角色,遇到一個(gè)“月球龍”,幾秒鐘視頻就出現(xiàn)了。
操作體驗(yàn)非常簡(jiǎn)單易上手,大家從官網(wǎng)進(jìn)入直接用就行,幾乎不需要操作指南和教程。
很絲滑,而且每一刻的輸入,都會(huì)即時(shí)影響下一刻世界的狀態(tài)。
畫面不是一幀一幀被播放出來的,更像現(xiàn)實(shí)一樣,被連續(xù)地采樣出來、現(xiàn)場(chǎng)此刻發(fā)生。
我的語言、情緒、意圖,可以實(shí)時(shí)驅(qū)動(dòng)PixVerse R1這個(gè)「現(xiàn)實(shí)模擬器」。
能把世界模型做成實(shí)時(shí)的,底層架構(gòu)一定是硬實(shí)力。
這是從系統(tǒng)層、推理層、延遲控制、資源調(diào)度全棧重構(gòu)的結(jié)果,不是調(diào)參能調(diào)出來的。
03. 人人都能渲染游戲?
我第一次真正被 R1 打到,是在一個(gè)非常簡(jiǎn)單、甚至有點(diǎn)幼稚的場(chǎng)景里。
我想要更多游戲化的交互,比如像寶可夢(mèng)里玩法那樣。
于是讓它生成了一只可達(dá)鴨。
![]()
畫面出來之后,我沒有停下來重新生成,而是直接開口說:“讓火變藍(lán)色。”
火焰真的在畫面里慢慢變藍(lán)色。
我又說:“天黑下來,紅色光。”
環(huán)境不是純黑,而是像現(xiàn)實(shí)世界一樣,光線逐漸變化。
我說:“它轉(zhuǎn)過身。”
可達(dá)鴨轉(zhuǎn)了過來,看著我。
整個(gè)過程中,沒有重新生成的斷裂感。
除了給定的場(chǎng)景,我也嘗試了一下從零自己寫Prompt,去創(chuàng)造世界。
![]()
我給的Prompt是:
一片茂盛的粉色森林,樹葉像粉色的羽毛在微風(fēng)中搖曳。樹干是淡紫色的,掛著發(fā)光的粉色燈籠果實(shí)。一只發(fā)光的粉色小鹿(或者奇異生物)在森林中跳躍,每一步都會(huì)在地面上激起粉色的光暈漣漪。
速度響應(yīng)比我想象要快,不需要切走屏幕,稍等即可。
![]()
中間我想讓出現(xiàn)鱷魚,以及更多場(chǎng)景和角色的變化,指令依循度都比較高。
整個(gè)過程就像是你在當(dāng)上帝,隨手一揮,世界就變了。
說實(shí)話,我現(xiàn)在還想象不到它怎么和具身智能結(jié)合。
但這事,我就單純覺得好玩。它有點(diǎn)像小時(shí)候看動(dòng)畫片或者打魂斗羅游戲的那種感覺,我在一個(gè)世界里待著,然后還能通過簡(jiǎn)單的方式控制畫面的走動(dòng)。
傳統(tǒng) AI 視頻,每一次修改,本質(zhì)上都是一次“推翻重來”。
人是站在視頻外面,對(duì)結(jié)果指指點(diǎn)點(diǎn)。
但在 R1 里,我是在視頻里面,像做夢(mèng)一樣,夢(mèng)境在流動(dòng),而你可以控制夢(mèng)的走向。
那種感覺,非常接近一種“上帝視角”的造物體驗(yàn)。
你不是在使用工具,你是在掌控一個(gè)世界。
04. 交互的背后是技術(shù):從按鈕到意圖
第二個(gè)讓我后背發(fā)涼的,是交互方式的變化。
我們太習(xí)慣參數(shù)、按鈕、滑桿了:亮一點(diǎn)、暗一點(diǎn)、快一點(diǎn)、慢一點(diǎn)。這是工業(yè)軟件的交互邏輯。
PixVerse R1 完全繞開了這一層。不需要點(diǎn)按鈕,也不用調(diào)參數(shù),只需要說話。甚至都不需要說得那么精確,只要表達(dá)意圖。
這就有了一個(gè)很重要的轉(zhuǎn)變:用戶不再是“使用者”,而是“共同創(chuàng)作者”。
PixVerse 自己用了一個(gè)詞,叫 Playable Reality。
它既不是視頻,也不是游戲,也不是虛擬世界,但又同時(shí)具備三者的特征。
![]()
PixVerse也公開了他們的技術(shù)論文:《PixVerse-R1: Next-Generation Real-Time World Model》。
核心目標(biāo)是:把視頻生成,從“離線片段”,變成“連續(xù)、可交互、實(shí)時(shí)響應(yīng)的視覺流”。
![]()
怎么做到的呢?簡(jiǎn)單來說由三部分構(gòu)成:「Omni基座模型 + 無限流式生成架構(gòu) + 實(shí)時(shí)生成引擎」
Omni基座模型,是一個(gè)端到端的原生多模態(tài)模型,把文本、圖像、視頻、音頻統(tǒng)一成連續(xù)的token流。
![]()
在訓(xùn)練階段,它學(xué)習(xí)了大量真實(shí)世界的視頻數(shù)據(jù),因此具備生成復(fù)雜、長(zhǎng)時(shí)間一致場(chǎng)景的能力——也就是我們直觀感受到的“世界感”。
![]()
生成機(jī)制上,PixVerse R1采用的是自回歸生成,不是傳統(tǒng)擴(kuò)散模型那種“先算完整片段”的方式。
![]()
這意味著,它可以持續(xù)生成、無限延展視覺流,而不是只能吐出一個(gè)固定長(zhǎng)度的視頻。
![]()
所以說,表面上是交互或者形式的創(chuàng)新,底層還是技術(shù),還是新的架構(gòu)設(shè)計(jì)。
05. 作為前字節(jié)人,說說我眼里的PixVerse
說點(diǎn)更個(gè)人的視角。
我不是今天才認(rèn)識(shí)愛詩科技的。V1 到 V5.5,我?guī)缀跬暾娮C了 PixVerse 的進(jìn)化路徑。
24年到25年,那時(shí)我在字節(jié)AI視頻業(yè)務(wù)做產(chǎn)品,也讓我對(duì)外部的創(chuàng)業(yè)團(tuán)隊(duì),更加佩服,因?yàn)樗麄冋娴挠眠h(yuǎn)比大廠更少的資源,做出了更創(chuàng)新的事和更好的效果
后來,畫面、敘事、穩(wěn)定性一點(diǎn)點(diǎn)被補(bǔ)齊,畫布等等能力,做漫劇都不在話下。
![]()
但直到 R1,我才意識(shí)到:他們不只在做一個(gè)視頻模型產(chǎn)品,也在探索 AI 時(shí)代視頻的終極形態(tài)。
這家公司身上有一種我在字節(jié)很熟悉、但到哪都很稀缺的氣質(zhì)——?jiǎng)?wù)實(shí)的浪漫。
他們不滿足于在一個(gè)已知賽道里做到最好,更愿意在所有人都在卷結(jié)果的時(shí)候,跳出來重塑過程和定義本身。
這是非常冒險(xiǎn)的選擇。
也是只有真正的技術(shù)先行者,才敢做的選擇。
2024年初,Sora橫空出世。那時(shí)候,我看到了一個(gè)「AI視頻新物種」。
![]()
心里有一種很矛盾的震撼。
一方面,能清楚感覺到,視頻生成這條路,被硬生生往前推了一個(gè)量級(jí)。
畫面、鏡頭、連貫性、敘事能力,第一次看起來像電影,再也不是零散的碎片。
另一方面,我又會(huì)隱約覺得哪里不對(duì)勁——它很強(qiáng),但它沒有生命、沒有沉浸。
輸入 prompt,等,出結(jié)果;再改 prompt,再等,再出結(jié)果。整個(gè)過程完全是抽卡,是在和模型的隨機(jī)性做等待和對(duì)抗。
我會(huì)反復(fù)問自己一個(gè)問題:這是AI視頻的終點(diǎn)嗎?更自然的更好的交互在哪?
我們真的只是把“拍視頻”這件事,從攝影機(jī)換成了 prompt 嗎?
如果未來真的是虛擬現(xiàn)實(shí)、沉浸式世界、通用 AGI 作為敘事主體,那視頻這種媒介,難道不應(yīng)該是「活著的」嗎?
這個(gè)問題,2025年一整年,我都沒有答案。
![]()
今天,PixVerse R1 給出了參考答案。
它帶來的影響,很可能不亞于去年的 DeepSeek R1——它讓一種舊媒介,第一次具備了全新的交互性和游戲性。
如果說去年我們見證了“模型能力的躍遷”,那今年,我們可能正在站在視頻媒介的奇點(diǎn)時(shí)刻。
而這一次,世界不再只是被觀看。
它開始回應(yīng)你了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.