![]()
這項(xiàng)由加州大學(xué)伯克利分校主導(dǎo)的研究于2026年4月以預(yù)印本形式公開發(fā)布,論文編號(hào)為arXiv:2604.17397,感興趣的讀者可以通過該編號(hào)查閱完整原文。研究聚焦于一個(gè)讓AI視頻生成領(lǐng)域頭疼已久的難題:怎么讓頂級(jí)視頻生成模型跑得更快,同時(shí)不讓畫面質(zhì)量大幅下滑。
先說(shuō)說(shuō)背景,讓你感受一下這個(gè)問題有多棘手。現(xiàn)在最先進(jìn)的AI視頻生成模型,動(dòng)輒要用上百億個(gè)參數(shù)的超大型神經(jīng)網(wǎng)絡(luò)。以本文實(shí)驗(yàn)用的旗艦?zāi)P蜑槔馐悄P捅旧砭陀?40億個(gè)參數(shù),需要頂級(jí)顯卡才能流暢運(yùn)行。這就好比開一輛V12發(fā)動(dòng)機(jī)的超跑——性能頂尖,但油耗驚人。與此同時(shí),也有小巧得多的13億參數(shù)"輕型車",跑得飛快,但畫面質(zhì)量會(huì)打折扣。研究團(tuán)隊(duì)面對(duì)的靈魂拷問是:能不能讓"輕型車"多跑,"超跑"在關(guān)鍵時(shí)刻才出場(chǎng),最終既省油又保證抵達(dá)終點(diǎn)的質(zhì)量?
這套思路并非憑空捏造,而是借鑒了大型語(yǔ)言模型(也就是ChatGPT這類文字AI)里早已成熟的"推測(cè)性解碼"技術(shù)。在文字AI的世界里,小模型先猜一堆詞,大模型再快速驗(yàn)一遍,不對(duì)的推翻重來(lái),對(duì)的直接采用——效率大幅提升。然而視頻和文字有一個(gè)根本區(qū)別:文字是離散的符號(hào),可以精確比對(duì);視頻是連續(xù)的像素流,根本沒有"這幀對(duì)不對(duì)"的精確標(biāo)準(zhǔn)可言。這個(gè)鴻溝讓視頻領(lǐng)域的推測(cè)性加速長(zhǎng)期停留在"理論上可行、實(shí)踐上沒人做成"的階段。
這支團(tuán)隊(duì)給出的方案叫做SDVG(Speculative Decoding for Video Generation,自回歸視頻生成的推測(cè)性解碼),它的核心思路可以用一個(gè)生活場(chǎng)景來(lái)理解:公司招聘時(shí),先讓實(shí)習(xí)生(小模型)寫一份工作報(bào)告初稿,再由經(jīng)驗(yàn)豐富的主管(大模型)審核。如果初稿質(zhì)量過關(guān),主管直接簽字發(fā)出;如果初稿太差,主管親自重寫。關(guān)鍵在于,審核這一步不需要"逐字核對(duì)",只需要一個(gè)資深編輯(圖像質(zhì)量評(píng)分器)掃一眼,判斷質(zhì)量高低即可。這個(gè)"掃一眼就能判斷好壞"的裁判,就是SDVG繞過精確概率比對(duì)難題的核心創(chuàng)新。
一、視頻是"一塊一塊"生成的,這很關(guān)鍵
要理解SDVG為什么能工作,得先明白現(xiàn)代自回歸視頻生成模型是怎么運(yùn)轉(zhuǎn)的。不像早期視頻AI一口氣生成所有幀,自回歸模型采用的是"分塊流式"策略:先生成第一組畫面,再以此為基礎(chǔ)生成第二組,就像在搭積木,每一塊都依賴前一塊的位置。整個(gè)視頻被切分成若干"視頻塊",模型通過一個(gè)叫做KV緩存(Key-Value Cache)的記憶機(jī)制,讓后續(xù)塊能"記住"之前畫面的內(nèi)容,確保整段視頻連貫一致。
這種分塊結(jié)構(gòu)產(chǎn)生了一個(gè)天然優(yōu)勢(shì):每一塊視頻都是一個(gè)相對(duì)獨(dú)立的評(píng)判單位。在這個(gè)單位上進(jìn)行"小模型出草稿、大模型審核"的操作,邏輯上非常自然。這就是為什么SDVG的設(shè)計(jì)思路能落地的結(jié)構(gòu)性前提。
實(shí)驗(yàn)中使用的具體模型是基于萬(wàn)象2.1(Wan2.1)架構(gòu)打造的一對(duì)搭檔。負(fù)責(zé)審核的"大模型"目標(biāo)端是Krea Realtime Video 14B,擁有140億參數(shù),通過一種叫"自強(qiáng)迫"(Self-Forcing)的訓(xùn)練技術(shù)從原版模型蒸餾而來(lái),擅長(zhǎng)生成高質(zhì)量視頻。負(fù)責(zé)打草稿的"小模型"起草端是萬(wàn)象2.1-T2V-1.3B,只有13億參數(shù),速度快但質(zhì)量相對(duì)較低。兩者共享相同的因果注意力骨架,這意味著它們的KV緩存格式兼容,可以無(wú)縫對(duì)接——這是整個(gè)框架能夠運(yùn)作的技術(shù)基礎(chǔ)。
每段視頻被分為9個(gè)視頻塊,每塊對(duì)應(yīng)3個(gè)潛空間幀,最終解碼產(chǎn)生像素幀,分辨率為832×480。無(wú)論是大模型還是小模型,每個(gè)視頻塊都只需要跑4步去噪,遵循固定的時(shí)間步表,以bfloat16精度運(yùn)行,引導(dǎo)比例3.0。這些參數(shù)設(shè)定保證了兩個(gè)模型的運(yùn)行方式高度一致,便于公平比較和無(wú)縫銜接。
二、誰(shuí)來(lái)當(dāng)"質(zhì)檢員",怎么打分
SDVG解決"視頻沒有精確標(biāo)準(zhǔn)"這個(gè)難題的方式,是引入一個(gè)現(xiàn)成的圖像質(zhì)量評(píng)分工具:ImageReward。這是一個(gè)專門用來(lái)評(píng)判文字生成圖像質(zhì)量的模型,它被訓(xùn)練成能模擬人類對(duì)圖片的審美偏好——畫面清晰、內(nèi)容與描述吻合、沒有奇怪的扭曲變形,就能得到較高的分?jǐn)?shù);反之則低分。
每次小模型生成一個(gè)視頻塊的候選結(jié)果后,這個(gè)候選塊會(huì)先經(jīng)過VAE解碼器(一種把壓縮的潛空間數(shù)據(jù)還原成真實(shí)像素圖像的工具,類似于解壓縮軟件)轉(zhuǎn)換成可看的圖片幀,再由ImageReward對(duì)每一幀打分。最終決定這個(gè)視頻塊命運(yùn)的,是一個(gè)叫做"最差幀聚合"的策略:取所有幀中分?jǐn)?shù)最低的那一幀作為整個(gè)塊的代表分?jǐn)?shù)。
為什么要取最低分而不是平均分?道理很直觀。一段3幀的視頻塊,如果前兩幀很好、最后一幀出現(xiàn)了奇怪的形變或模糊,觀眾看視頻時(shí)一定會(huì)注意到那一幀的瑕疵,造成閃爍感。如果用平均分,兩幀高分會(huì)把那一幀的低分"稀釋"掉,質(zhì)檢員誤判通過,最終輸出的視頻就會(huì)有一幀明顯穿幫。用最低分則相當(dāng)于"一票否決制"——只要有一幀不過關(guān),整個(gè)塊就要返工。
打完分之后,會(huì)將這個(gè)塊的得分與一個(gè)固定閾值τ(tau,一個(gè)可以手動(dòng)調(diào)整的數(shù)字)進(jìn)行比較。分?jǐn)?shù)高于τ,說(shuō)明小模型這次發(fā)揮不錯(cuò),直接采用,接受。分?jǐn)?shù)低于τ,說(shuō)明草稿質(zhì)量不達(dá)標(biāo),丟棄,讓大模型重新生成這個(gè)塊,拒絕。被接受的塊會(huì)提交到大模型的KV緩存中,成為后續(xù)塊生成的上下文基礎(chǔ)。被拒絕的塊則由大模型從相同的初始噪聲出發(fā)重新生成,保證畫面內(nèi)容的一致性。
有一個(gè)細(xì)節(jié)值得注意:VAE解碼的中間狀態(tài)在草稿評(píng)分之前會(huì)被克隆保存,如果這個(gè)塊最終被拒絕,就會(huì)恢復(fù)到克隆的狀態(tài),而不是用草稿解碼后的狀態(tài)繼續(xù)推進(jìn)。這個(gè)操作確保了時(shí)間連貫性——已接受的塊和被拒絕后重生成的塊之間,不會(huì)因?yàn)榻獯a順序混亂而出現(xiàn)畫面跳變。
三、"第一塊必須由大模型親自來(lái)",這個(gè)規(guī)定有點(diǎn)講究
SDVG還有一條特殊規(guī)定:無(wú)論小模型生成的第一個(gè)視頻塊質(zhì)量有多高,都必須強(qiáng)制拒絕,交由大模型重新生成。這條規(guī)則乍聽起來(lái)有點(diǎn)浪費(fèi),但背后的道理非常扎實(shí)。
第一個(gè)視頻塊是整段視頻的"開場(chǎng)定調(diào)"。它不僅決定了畫面的整體色調(diào)、光線風(fēng)格,還確立了主要角色或場(chǎng)景的構(gòu)圖和位置。由于第一塊沒有任何前序視頻塊作為參考,它完全依賴文字提示來(lái)生成,這正是小模型最容易出錯(cuò)的場(chǎng)景——在沒有視覺上下文的情況下,小模型更可能產(chǎn)生與提示不符的畫面布局或風(fēng)格。
更致命的是,后續(xù)所有視頻塊都會(huì)通過KV緩存"繼承"第一塊的視覺風(fēng)格和構(gòu)圖。如果第一塊出了問題,比如場(chǎng)景里的建筑位置放錯(cuò)了、主角的服裝顏色搞錯(cuò)了,后續(xù)8個(gè)塊都會(huì)在這個(gè)錯(cuò)誤基礎(chǔ)上延續(xù),最終整段視頻都會(huì)跑偏。大模型重做一次第一塊,相當(dāng)于給整段視頻打好地基,后續(xù)無(wú)論哪些塊被小模型接手,都能在正確的視覺框架內(nèi)延展。
這個(gè)設(shè)計(jì)的成本是固定的:無(wú)論視頻多長(zhǎng)、閾值設(shè)得多寬松,第一塊必然要消耗一次大模型的計(jì)算資源。但這個(gè)固定成本換來(lái)的收益是整段視頻的構(gòu)圖穩(wěn)定性,在研究團(tuán)隊(duì)看來(lái)是完全值得的。
四、一個(gè)數(shù)字τ,撥動(dòng)質(zhì)量與速度的天平
SDVG整個(gè)框架里最優(yōu)雅的設(shè)計(jì)可能就是這個(gè)τ了。它是一個(gè)單一的固定數(shù)字,控制著整段視頻中有多少塊會(huì)被小模型"承包",有多少塊會(huì)被大模型接管。
τ設(shè)得嚴(yán)格(比如–0.7),意味著只有小模型表現(xiàn)非常優(yōu)秀的塊才會(huì)被接受,大部分塊還是要大模型來(lái)做,質(zhì)量接近大模型單跑,但加速效果有限。τ設(shè)得寬松(比如–2.5),意味著只要不是極其糟糕的塊都被接受,小模型承包的比例大幅上升,速度提升明顯,但質(zhì)量也會(huì)有所下滑。
這就像一個(gè)音響的音量旋鈕:撥大,聲音更響(速度更快);撥小,聲音更細(xì)膩(質(zhì)量更高)。使用者可以根據(jù)自己的需求在這兩者之間找到合適的平衡點(diǎn),無(wú)需重新訓(xùn)練任何模型,無(wú)需修改任何代碼,撥一下τ就搞定。這種"一個(gè)旋鈕管全局"的設(shè)計(jì)極大地降低了實(shí)際部署的門檻。
五、實(shí)驗(yàn)數(shù)據(jù)說(shuō)話:效果到底怎么樣
研究團(tuán)隊(duì)在1003條電影級(jí)視頻提示詞上進(jìn)行了全面測(cè)試,這些提示詞來(lái)自MovieGenVideoBench,涵蓋風(fēng)景、動(dòng)物、人物活動(dòng)、電影場(chǎng)景等多種類別,堪稱一個(gè)相當(dāng)全面的壓力測(cè)試場(chǎng)。所有視頻均以832×480分辨率生成,實(shí)驗(yàn)在兩塊NVIDIA RTX A6000顯卡(各48GB顯存)上進(jìn)行。
質(zhì)量評(píng)估采用的是VisionReward——一個(gè)基于視覺問答的綜合評(píng)分系統(tǒng),會(huì)從視覺質(zhì)量、時(shí)間一致性、運(yùn)動(dòng)自然度、文字與視頻對(duì)齊等29個(gè)維度打分,得分越高越好。效率則用每段視頻的實(shí)際生成時(shí)間(秒)來(lái)衡量。
基準(zhǔn)線有兩條:大模型單跑(Target-only)代表最高質(zhì)量,每段視頻平均耗時(shí)97秒,VisionReward得分0.0788;小模型單跑(Draft-only)代表最快速度,每段視頻平均只需25.7秒,VisionReward得分0.0644,比大模型低了約18%。
SDVG在不同τ值下展現(xiàn)出一條平滑的"帕累托曲線"(即質(zhì)量與速度之間的最優(yōu)權(quán)衡曲線)。在最保守的τ=–0.7時(shí),每段視頻平均耗時(shí)60.9秒,比大模型單跑快了1.59倍,VisionReward得分0.0773,保留了大模型98.1%的質(zhì)量,同時(shí)比小模型單跑高出約20%。隨著τ逐步放寬到–0.8、–0.9、–1.0,速度繼續(xù)提升(分別達(dá)到1.66倍、1.66倍、1.69倍),質(zhì)量下滑極為緩慢(分別保留97.6%、97.8%、96.95%)。繼續(xù)放寬到τ=–1.5、–2.0、–2.5,速度分別達(dá)到1.88倍、2.05倍、2.09倍,質(zhì)量保留率也依然維持在96.1%、95.9%、95.7%,全程比小模型單跑高出17%以上。
有意思的是,從τ=–1.5往后,速度提升越來(lái)越小,但質(zhì)量損失也越來(lái)越慢。這個(gè)現(xiàn)象說(shuō)明,絕大多數(shù)對(duì)質(zhì)量有顯著影響的視頻塊,它們的ImageReward得分都在–1.5以上。換句話說(shuō),大多數(shù)"關(guān)鍵幀"小模型本來(lái)就能做好,即使把τ放寬很多,也只是多接受了一些原本就還不錯(cuò)的塊,邊際效益自然越來(lái)越低。
六、如果不用質(zhì)量評(píng)分,隨機(jī)亂猜行不行
為了驗(yàn)證ImageReward質(zhì)檢員確實(shí)有用,研究團(tuán)隊(duì)做了一個(gè)"隨機(jī)路由"的對(duì)照實(shí)驗(yàn):不看分?jǐn)?shù),完全隨機(jī)決定哪些塊由小模型承包、哪些由大模型重做,但保持整體接受率和SDVG相同(約70%)。
結(jié)果很能說(shuō)明問題。隨機(jī)路由的VisionReward只有0.0706,不僅遠(yuǎn)低于SDVG的0.0773,甚至比"強(qiáng)制第一塊用大模型+隨機(jī)路由"的0.0771還低——后者至少保住了場(chǎng)景構(gòu)圖,但隨機(jī)接受的塊里混入了太多質(zhì)量差的,還是把整體分?jǐn)?shù)拉低了。沒有質(zhì)檢員,小模型的劣質(zhì)草稿會(huì)堂而皇之地混進(jìn)最終輸出,整體質(zhì)量就像讓實(shí)習(xí)生隨機(jī)簽發(fā)文件,效果可想而知。
與此同時(shí),研究團(tuán)隊(duì)還比較了"最差幀聚合"和"平均幀聚合"兩種打分策略。以τ=–0.7為參考點(diǎn),最差幀聚合以73.1%的接受率取得了0.0773的VisionReward;而平均幀聚合在相近條件下(τ=–0.2,接受率70.2%)只有0.0767,質(zhì)量更低,速度還更慢。即便將平均幀聚合的閾值放寬到τ=–0.7(接受率78.4%),也只得到0.0755,比最差幀聚合差了不少。這印證了一點(diǎn):一幀壞掉就足以毀掉整個(gè)視頻塊的觀感,平均分會(huì)替那一幀"洗白",最低分才能真正揪出它。
七、這套方案還有哪些沒解決的問題
SDVG并不完美,研究團(tuán)隊(duì)也坦誠(chéng)地指出了三個(gè)局限。
第一個(gè)問題是"分布漂移"。傳統(tǒng)文字AI的推測(cè)性解碼有一個(gè)數(shù)學(xué)保證:最終輸出的分布和大模型單跑完全一致,不會(huì)有任何質(zhì)量損失。SDVG做不到這一點(diǎn),因?yàn)楸唤邮艿男∧P洼敵霰举|(zhì)上不等于大模型輸出,只是質(zhì)量相近。閾值越嚴(yán)格,漂移越小,但速度提升也越有限,這是一個(gè)無(wú)法完全消除的根本性權(quán)衡。
第二個(gè)問題是ImageReward本身的局限。這個(gè)評(píng)分工具是為靜態(tài)圖片設(shè)計(jì)的,它對(duì)每一幀獨(dú)立打分,完全不考慮幀與幀之間的運(yùn)動(dòng)流暢性和時(shí)間一致性。如果一個(gè)視頻塊的每一幀單獨(dú)看都還不錯(cuò),但幀間存在抖動(dòng)或運(yùn)動(dòng)不連貫,ImageReward可能無(wú)法識(shí)別。一個(gè)專門為視頻塊質(zhì)量設(shè)計(jì)的評(píng)分模型會(huì)更理想,但目前尚未開發(fā)。
第三個(gè)問題是被拒絕的草稿會(huì)浪費(fèi)計(jì)算資源。每次小模型生成一個(gè)候選塊都需要跑完整的4步去噪加VAE解碼,如果最終被拒絕,這些計(jì)算就白費(fèi)了。特別是第一塊,無(wú)論質(zhì)量如何都會(huì)被強(qiáng)制拒絕,小模型的那次運(yùn)算純屬徒勞。研究團(tuán)隊(duì)提出了批量化或推測(cè)性VAE解碼等潛在優(yōu)化方向,但尚未在本文中實(shí)現(xiàn)。
歸根結(jié)底,SDVG做了一件聽起來(lái)簡(jiǎn)單但實(shí)現(xiàn)起來(lái)頗費(fèi)心思的事:讓便宜的小模型多干活,昂貴的大模型專門處理小模型搞不定的部分,用一個(gè)"質(zhì)檢員"來(lái)做中間的把關(guān)人。這套流程完全不需要修改任何模型結(jié)構(gòu),不需要重新訓(xùn)練任何東西,拿來(lái)就能用,調(diào)一個(gè)數(shù)字就能在速度和質(zhì)量之間找到自己想要的平衡。
對(duì)于普通用戶來(lái)說(shuō),這意味著未來(lái)用AI生成視頻時(shí),可能不再需要等上那么久。頂級(jí)質(zhì)量的視頻生成速度或許能提升到接近兩倍,讓原本需要一分多鐘的生成縮短到不到一分鐘,而畫面質(zhì)量幾乎感知不到差異。更長(zhǎng)遠(yuǎn)的影響在于,這套框架為"推測(cè)性加速"在視頻生成領(lǐng)域打開了一扇門——后續(xù)研究者可以在此基礎(chǔ)上引入更好的視頻質(zhì)量評(píng)分模型、嘗試更復(fù)雜的路由策略、或者把這套框架和其他加速技術(shù)(如步驟蒸餾)疊加使用,進(jìn)一步壓榨生成速度的上限。
對(duì)這個(gè)方向感興趣的讀者,可以通過論文編號(hào)arXiv:2604.17397查閱完整原文,里面有更詳盡的實(shí)驗(yàn)設(shè)置和技術(shù)細(xì)節(jié)。
Q&A
Q1:SDVG是什么技術(shù),和普通視頻生成有什么區(qū)別?
A:SDVG是一種針對(duì)自回歸視頻生成的加速框架,核心思路是用一個(gè)參數(shù)量小、速度快的小模型先生成視頻草稿,再用圖像質(zhì)量評(píng)分工具判斷草稿是否合格。合格的草稿直接采用,不合格的才讓大模型重新生成。相比普通方法全程依賴大模型,SDVG能在幾乎不損失畫質(zhì)的前提下,將生成速度提升約1.59倍至2.09倍。
Q2:SDVG里的τ(閾值)是什么,應(yīng)該怎么設(shè)置?
A:τ是控制質(zhì)量與速度平衡的核心參數(shù),相當(dāng)于一個(gè)"質(zhì)檢嚴(yán)格程度"的旋鈕。τ設(shè)得越嚴(yán)格(數(shù)字越接近0,如–0.7),只有高質(zhì)量草稿才會(huì)被接受,最終視頻質(zhì)量高但速度提升較小(約1.59倍);τ設(shè)得越寬松(如–2.5),更多草稿會(huì)被接受,速度提升更大(約2.09倍),但質(zhì)量會(huì)有輕微下滑。實(shí)驗(yàn)顯示τ在–0.7到–1.0之間是質(zhì)量與速度最平衡的區(qū)間。
Q3:SDVG為什么要對(duì)第一個(gè)視頻塊強(qiáng)制重新生成?
A:第一個(gè)視頻塊決定了整段視頻的場(chǎng)景構(gòu)圖、主體位置和視覺風(fēng)格,后續(xù)所有塊都會(huì)通過KV緩存繼承這些特征。由于第一塊沒有任何前序畫面作為參考,小模型在這一步最容易出錯(cuò),一旦出現(xiàn)構(gòu)圖錯(cuò)誤,會(huì)沿著KV緩存?zhèn)鲗?dǎo)到后續(xù)所有塊,造成全程跑偏。因此強(qiáng)制由大模型重做第一塊,相當(dāng)于給整段視頻打好穩(wěn)固的視覺地基。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.