網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

加州大學(xué)伯克利分校出了個(gè)"視頻生成加速器"

2026-04-30 21:52:50　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由加州大學(xué)伯克利分校主導(dǎo)的研究于2026年4月以預(yù)印本形式公開發(fā)布，論文編號(hào)為arXiv:2604.17397，感興趣的讀者可以通過該編號(hào)查閱完整原文。研究聚焦于一個(gè)讓AI視頻生成領(lǐng)域頭疼已久的難題：怎么讓頂級(jí)視頻生成模型跑得更快，同時(shí)不讓畫面質(zhì)量大幅下滑。

先說(shuō)說(shuō)背景，讓你感受一下這個(gè)問題有多棘手。現(xiàn)在最先進(jìn)的AI視頻生成模型，動(dòng)輒要用上百億個(gè)參數(shù)的超大型神經(jīng)網(wǎng)絡(luò)。以本文實(shí)驗(yàn)用的旗艦?zāi)Ｐ蜑槔馐悄Ｐ捅旧砭陀?40億個(gè)參數(shù)，需要頂級(jí)顯卡才能流暢運(yùn)行。這就好比開一輛V12發(fā)動(dòng)機(jī)的超跑——性能頂尖，但油耗驚人。與此同時(shí)，也有小巧得多的13億參數(shù)"輕型車"，跑得飛快，但畫面質(zhì)量會(huì)打折扣。研究團(tuán)隊(duì)面對(duì)的靈魂拷問是：能不能讓"輕型車"多跑，"超跑"在關(guān)鍵時(shí)刻才出場(chǎng)，最終既省油又保證抵達(dá)終點(diǎn)的質(zhì)量？

這套思路并非憑空捏造，而是借鑒了大型語(yǔ)言模型（也就是ChatGPT這類文字AI）里早已成熟的"推測(cè)性解碼"技術(shù)。在文字AI的世界里，小模型先猜一堆詞，大模型再快速驗(yàn)一遍，不對(duì)的推翻重來(lái)，對(duì)的直接采用——效率大幅提升。然而視頻和文字有一個(gè)根本區(qū)別：文字是離散的符號(hào)，可以精確比對(duì)；視頻是連續(xù)的像素流，根本沒有"這幀對(duì)不對(duì)"的精確標(biāo)準(zhǔn)可言。這個(gè)鴻溝讓視頻領(lǐng)域的推測(cè)性加速長(zhǎng)期停留在"理論上可行、實(shí)踐上沒人做成"的階段。

這支團(tuán)隊(duì)給出的方案叫做SDVG（Speculative Decoding for Video Generation，自回歸視頻生成的推測(cè)性解碼），它的核心思路可以用一個(gè)生活場(chǎng)景來(lái)理解：公司招聘時(shí)，先讓實(shí)習(xí)生（小模型）寫一份工作報(bào)告初稿，再由經(jīng)驗(yàn)豐富的主管（大模型）審核。如果初稿質(zhì)量過關(guān)，主管直接簽字發(fā)出；如果初稿太差，主管親自重寫。關(guān)鍵在于，審核這一步不需要"逐字核對(duì)"，只需要一個(gè)資深編輯（圖像質(zhì)量評(píng)分器）掃一眼，判斷質(zhì)量高低即可。這個(gè)"掃一眼就能判斷好壞"的裁判，就是SDVG繞過精確概率比對(duì)難題的核心創(chuàng)新。

一、視頻是"一塊一塊"生成的，這很關(guān)鍵

要理解SDVG為什么能工作，得先明白現(xiàn)代自回歸視頻生成模型是怎么運(yùn)轉(zhuǎn)的。不像早期視頻AI一口氣生成所有幀，自回歸模型采用的是"分塊流式"策略：先生成第一組畫面，再以此為基礎(chǔ)生成第二組，就像在搭積木，每一塊都依賴前一塊的位置。整個(gè)視頻被切分成若干"視頻塊"，模型通過一個(gè)叫做KV緩存（Key-Value Cache）的記憶機(jī)制，讓后續(xù)塊能"記住"之前畫面的內(nèi)容，確保整段視頻連貫一致。

這種分塊結(jié)構(gòu)產(chǎn)生了一個(gè)天然優(yōu)勢(shì)：每一塊視頻都是一個(gè)相對(duì)獨(dú)立的評(píng)判單位。在這個(gè)單位上進(jìn)行"小模型出草稿、大模型審核"的操作，邏輯上非常自然。這就是為什么SDVG的設(shè)計(jì)思路能落地的結(jié)構(gòu)性前提。

實(shí)驗(yàn)中使用的具體模型是基于萬(wàn)象2.1（Wan2.1）架構(gòu)打造的一對(duì)搭檔。負(fù)責(zé)審核的"大模型"目標(biāo)端是Krea Realtime Video 14B，擁有140億參數(shù)，通過一種叫"自強(qiáng)迫"（Self-Forcing）的訓(xùn)練技術(shù)從原版模型蒸餾而來(lái)，擅長(zhǎng)生成高質(zhì)量視頻。負(fù)責(zé)打草稿的"小模型"起草端是萬(wàn)象2.1-T2V-1.3B，只有13億參數(shù)，速度快但質(zhì)量相對(duì)較低。兩者共享相同的因果注意力骨架，這意味著它們的KV緩存格式兼容，可以無(wú)縫對(duì)接——這是整個(gè)框架能夠運(yùn)作的技術(shù)基礎(chǔ)。

每段視頻被分為9個(gè)視頻塊，每塊對(duì)應(yīng)3個(gè)潛空間幀，最終解碼產(chǎn)生像素幀，分辨率為832×480。無(wú)論是大模型還是小模型，每個(gè)視頻塊都只需要跑4步去噪，遵循固定的時(shí)間步表，以bfloat16精度運(yùn)行，引導(dǎo)比例3.0。這些參數(shù)設(shè)定保證了兩個(gè)模型的運(yùn)行方式高度一致，便于公平比較和無(wú)縫銜接。

二、誰(shuí)來(lái)當(dāng)"質(zhì)檢員"，怎么打分

SDVG解決"視頻沒有精確標(biāo)準(zhǔn)"這個(gè)難題的方式，是引入一個(gè)現(xiàn)成的圖像質(zhì)量評(píng)分工具：ImageReward。這是一個(gè)專門用來(lái)評(píng)判文字生成圖像質(zhì)量的模型，它被訓(xùn)練成能模擬人類對(duì)圖片的審美偏好——畫面清晰、內(nèi)容與描述吻合、沒有奇怪的扭曲變形，就能得到較高的分?jǐn)?shù)；反之則低分。

每次小模型生成一個(gè)視頻塊的候選結(jié)果后，這個(gè)候選塊會(huì)先經(jīng)過VAE解碼器（一種把壓縮的潛空間數(shù)據(jù)還原成真實(shí)像素圖像的工具，類似于解壓縮軟件）轉(zhuǎn)換成可看的圖片幀，再由ImageReward對(duì)每一幀打分。最終決定這個(gè)視頻塊命運(yùn)的，是一個(gè)叫做"最差幀聚合"的策略：取所有幀中分?jǐn)?shù)最低的那一幀作為整個(gè)塊的代表分?jǐn)?shù)。

為什么要取最低分而不是平均分？道理很直觀。一段3幀的視頻塊，如果前兩幀很好、最后一幀出現(xiàn)了奇怪的形變或模糊，觀眾看視頻時(shí)一定會(huì)注意到那一幀的瑕疵，造成閃爍感。如果用平均分，兩幀高分會(huì)把那一幀的低分"稀釋"掉，質(zhì)檢員誤判通過，最終輸出的視頻就會(huì)有一幀明顯穿幫。用最低分則相當(dāng)于"一票否決制"——只要有一幀不過關(guān)，整個(gè)塊就要返工。

打完分之后，會(huì)將這個(gè)塊的得分與一個(gè)固定閾值τ（tau，一個(gè)可以手動(dòng)調(diào)整的數(shù)字）進(jìn)行比較。分?jǐn)?shù)高于τ，說(shuō)明小模型這次發(fā)揮不錯(cuò)，直接采用，接受。分?jǐn)?shù)低于τ，說(shuō)明草稿質(zhì)量不達(dá)標(biāo)，丟棄，讓大模型重新生成這個(gè)塊，拒絕。被接受的塊會(huì)提交到大模型的KV緩存中，成為后續(xù)塊生成的上下文基礎(chǔ)。被拒絕的塊則由大模型從相同的初始噪聲出發(fā)重新生成，保證畫面內(nèi)容的一致性。

有一個(gè)細(xì)節(jié)值得注意：VAE解碼的中間狀態(tài)在草稿評(píng)分之前會(huì)被克隆保存，如果這個(gè)塊最終被拒絕，就會(huì)恢復(fù)到克隆的狀態(tài)，而不是用草稿解碼后的狀態(tài)繼續(xù)推進(jìn)。這個(gè)操作確保了時(shí)間連貫性——已接受的塊和被拒絕后重生成的塊之間，不會(huì)因?yàn)榻獯a順序混亂而出現(xiàn)畫面跳變。

三、"第一塊必須由大模型親自來(lái)"，這個(gè)規(guī)定有點(diǎn)講究

SDVG還有一條特殊規(guī)定：無(wú)論小模型生成的第一個(gè)視頻塊質(zhì)量有多高，都必須強(qiáng)制拒絕，交由大模型重新生成。這條規(guī)則乍聽起來(lái)有點(diǎn)浪費(fèi)，但背后的道理非常扎實(shí)。

第一個(gè)視頻塊是整段視頻的"開場(chǎng)定調(diào)"。它不僅決定了畫面的整體色調(diào)、光線風(fēng)格，還確立了主要角色或場(chǎng)景的構(gòu)圖和位置。由于第一塊沒有任何前序視頻塊作為參考，它完全依賴文字提示來(lái)生成，這正是小模型最容易出錯(cuò)的場(chǎng)景——在沒有視覺上下文的情況下，小模型更可能產(chǎn)生與提示不符的畫面布局或風(fēng)格。

更致命的是，后續(xù)所有視頻塊都會(huì)通過KV緩存"繼承"第一塊的視覺風(fēng)格和構(gòu)圖。如果第一塊出了問題，比如場(chǎng)景里的建筑位置放錯(cuò)了、主角的服裝顏色搞錯(cuò)了，后續(xù)8個(gè)塊都會(huì)在這個(gè)錯(cuò)誤基礎(chǔ)上延續(xù)，最終整段視頻都會(huì)跑偏。大模型重做一次第一塊，相當(dāng)于給整段視頻打好地基，后續(xù)無(wú)論哪些塊被小模型接手，都能在正確的視覺框架內(nèi)延展。

這個(gè)設(shè)計(jì)的成本是固定的：無(wú)論視頻多長(zhǎng)、閾值設(shè)得多寬松，第一塊必然要消耗一次大模型的計(jì)算資源。但這個(gè)固定成本換來(lái)的收益是整段視頻的構(gòu)圖穩(wěn)定性，在研究團(tuán)隊(duì)看來(lái)是完全值得的。

四、一個(gè)數(shù)字τ，撥動(dòng)質(zhì)量與速度的天平

SDVG整個(gè)框架里最優(yōu)雅的設(shè)計(jì)可能就是這個(gè)τ了。它是一個(gè)單一的固定數(shù)字，控制著整段視頻中有多少塊會(huì)被小模型"承包"，有多少塊會(huì)被大模型接管。

τ設(shè)得嚴(yán)格（比如–0.7），意味著只有小模型表現(xiàn)非常優(yōu)秀的塊才會(huì)被接受，大部分塊還是要大模型來(lái)做，質(zhì)量接近大模型單跑，但加速效果有限。τ設(shè)得寬松（比如–2.5），意味著只要不是極其糟糕的塊都被接受，小模型承包的比例大幅上升，速度提升明顯，但質(zhì)量也會(huì)有所下滑。

這就像一個(gè)音響的音量旋鈕：撥大，聲音更響（速度更快）；撥小，聲音更細(xì)膩（質(zhì)量更高）。使用者可以根據(jù)自己的需求在這兩者之間找到合適的平衡點(diǎn)，無(wú)需重新訓(xùn)練任何模型，無(wú)需修改任何代碼，撥一下τ就搞定。這種"一個(gè)旋鈕管全局"的設(shè)計(jì)極大地降低了實(shí)際部署的門檻。

五、實(shí)驗(yàn)數(shù)據(jù)說(shuō)話：效果到底怎么樣

研究團(tuán)隊(duì)在1003條電影級(jí)視頻提示詞上進(jìn)行了全面測(cè)試，這些提示詞來(lái)自MovieGenVideoBench，涵蓋風(fēng)景、動(dòng)物、人物活動(dòng)、電影場(chǎng)景等多種類別，堪稱一個(gè)相當(dāng)全面的壓力測(cè)試場(chǎng)。所有視頻均以832×480分辨率生成，實(shí)驗(yàn)在兩塊NVIDIA RTX A6000顯卡（各48GB顯存）上進(jìn)行。

質(zhì)量評(píng)估采用的是VisionReward——一個(gè)基于視覺問答的綜合評(píng)分系統(tǒng)，會(huì)從視覺質(zhì)量、時(shí)間一致性、運(yùn)動(dòng)自然度、文字與視頻對(duì)齊等29個(gè)維度打分，得分越高越好。效率則用每段視頻的實(shí)際生成時(shí)間（秒）來(lái)衡量。

基準(zhǔn)線有兩條：大模型單跑（Target-only）代表最高質(zhì)量，每段視頻平均耗時(shí)97秒，VisionReward得分0.0788；小模型單跑（Draft-only）代表最快速度，每段視頻平均只需25.7秒，VisionReward得分0.0644，比大模型低了約18%。

SDVG在不同τ值下展現(xiàn)出一條平滑的"帕累托曲線"（即質(zhì)量與速度之間的最優(yōu)權(quán)衡曲線）。在最保守的τ=–0.7時(shí)，每段視頻平均耗時(shí)60.9秒，比大模型單跑快了1.59倍，VisionReward得分0.0773，保留了大模型98.1%的質(zhì)量，同時(shí)比小模型單跑高出約20%。隨著τ逐步放寬到–0.8、–0.9、–1.0，速度繼續(xù)提升（分別達(dá)到1.66倍、1.66倍、1.69倍），質(zhì)量下滑極為緩慢（分別保留97.6%、97.8%、96.95%）。繼續(xù)放寬到τ=–1.5、–2.0、–2.5，速度分別達(dá)到1.88倍、2.05倍、2.09倍，質(zhì)量保留率也依然維持在96.1%、95.9%、95.7%，全程比小模型單跑高出17%以上。

有意思的是，從τ=–1.5往后，速度提升越來(lái)越小，但質(zhì)量損失也越來(lái)越慢。這個(gè)現(xiàn)象說(shuō)明，絕大多數(shù)對(duì)質(zhì)量有顯著影響的視頻塊，它們的ImageReward得分都在–1.5以上。換句話說(shuō)，大多數(shù)"關(guān)鍵幀"小模型本來(lái)就能做好，即使把τ放寬很多，也只是多接受了一些原本就還不錯(cuò)的塊，邊際效益自然越來(lái)越低。

六、如果不用質(zhì)量評(píng)分，隨機(jī)亂猜行不行

為了驗(yàn)證ImageReward質(zhì)檢員確實(shí)有用，研究團(tuán)隊(duì)做了一個(gè)"隨機(jī)路由"的對(duì)照實(shí)驗(yàn)：不看分?jǐn)?shù)，完全隨機(jī)決定哪些塊由小模型承包、哪些由大模型重做，但保持整體接受率和SDVG相同（約70%）。

結(jié)果很能說(shuō)明問題。隨機(jī)路由的VisionReward只有0.0706，不僅遠(yuǎn)低于SDVG的0.0773，甚至比"強(qiáng)制第一塊用大模型+隨機(jī)路由"的0.0771還低——后者至少保住了場(chǎng)景構(gòu)圖，但隨機(jī)接受的塊里混入了太多質(zhì)量差的，還是把整體分?jǐn)?shù)拉低了。沒有質(zhì)檢員，小模型的劣質(zhì)草稿會(huì)堂而皇之地混進(jìn)最終輸出，整體質(zhì)量就像讓實(shí)習(xí)生隨機(jī)簽發(fā)文件，效果可想而知。

與此同時(shí)，研究團(tuán)隊(duì)還比較了"最差幀聚合"和"平均幀聚合"兩種打分策略。以τ=–0.7為參考點(diǎn)，最差幀聚合以73.1%的接受率取得了0.0773的VisionReward；而平均幀聚合在相近條件下（τ=–0.2，接受率70.2%）只有0.0767，質(zhì)量更低，速度還更慢。即便將平均幀聚合的閾值放寬到τ=–0.7（接受率78.4%），也只得到0.0755，比最差幀聚合差了不少。這印證了一點(diǎn)：一幀壞掉就足以毀掉整個(gè)視頻塊的觀感，平均分會(huì)替那一幀"洗白"，最低分才能真正揪出它。

七、這套方案還有哪些沒解決的問題

SDVG并不完美，研究團(tuán)隊(duì)也坦誠(chéng)地指出了三個(gè)局限。

第一個(gè)問題是"分布漂移"。傳統(tǒng)文字AI的推測(cè)性解碼有一個(gè)數(shù)學(xué)保證：最終輸出的分布和大模型單跑完全一致，不會(huì)有任何質(zhì)量損失。SDVG做不到這一點(diǎn)，因?yàn)楸唤邮艿男∧Ｐ洼敵霰举|(zhì)上不等于大模型輸出，只是質(zhì)量相近。閾值越嚴(yán)格，漂移越小，但速度提升也越有限，這是一個(gè)無(wú)法完全消除的根本性權(quán)衡。

第二個(gè)問題是ImageReward本身的局限。這個(gè)評(píng)分工具是為靜態(tài)圖片設(shè)計(jì)的，它對(duì)每一幀獨(dú)立打分，完全不考慮幀與幀之間的運(yùn)動(dòng)流暢性和時(shí)間一致性。如果一個(gè)視頻塊的每一幀單獨(dú)看都還不錯(cuò)，但幀間存在抖動(dòng)或運(yùn)動(dòng)不連貫，ImageReward可能無(wú)法識(shí)別。一個(gè)專門為視頻塊質(zhì)量設(shè)計(jì)的評(píng)分模型會(huì)更理想，但目前尚未開發(fā)。

第三個(gè)問題是被拒絕的草稿會(huì)浪費(fèi)計(jì)算資源。每次小模型生成一個(gè)候選塊都需要跑完整的4步去噪加VAE解碼，如果最終被拒絕，這些計(jì)算就白費(fèi)了。特別是第一塊，無(wú)論質(zhì)量如何都會(huì)被強(qiáng)制拒絕，小模型的那次運(yùn)算純屬徒勞。研究團(tuán)隊(duì)提出了批量化或推測(cè)性VAE解碼等潛在優(yōu)化方向，但尚未在本文中實(shí)現(xiàn)。

歸根結(jié)底，SDVG做了一件聽起來(lái)簡(jiǎn)單但實(shí)現(xiàn)起來(lái)頗費(fèi)心思的事：讓便宜的小模型多干活，昂貴的大模型專門處理小模型搞不定的部分，用一個(gè)"質(zhì)檢員"來(lái)做中間的把關(guān)人。這套流程完全不需要修改任何模型結(jié)構(gòu)，不需要重新訓(xùn)練任何東西，拿來(lái)就能用，調(diào)一個(gè)數(shù)字就能在速度和質(zhì)量之間找到自己想要的平衡。

對(duì)于普通用戶來(lái)說(shuō)，這意味著未來(lái)用AI生成視頻時(shí)，可能不再需要等上那么久。頂級(jí)質(zhì)量的視頻生成速度或許能提升到接近兩倍，讓原本需要一分多鐘的生成縮短到不到一分鐘，而畫面質(zhì)量幾乎感知不到差異。更長(zhǎng)遠(yuǎn)的影響在于，這套框架為"推測(cè)性加速"在視頻生成領(lǐng)域打開了一扇門——后續(xù)研究者可以在此基礎(chǔ)上引入更好的視頻質(zhì)量評(píng)分模型、嘗試更復(fù)雜的路由策略、或者把這套框架和其他加速技術(shù)（如步驟蒸餾）疊加使用，進(jìn)一步壓榨生成速度的上限。

對(duì)這個(gè)方向感興趣的讀者，可以通過論文編號(hào)arXiv:2604.17397查閱完整原文，里面有更詳盡的實(shí)驗(yàn)設(shè)置和技術(shù)細(xì)節(jié)。

Q&A

Q1：SDVG是什么技術(shù)，和普通視頻生成有什么區(qū)別？

A：SDVG是一種針對(duì)自回歸視頻生成的加速框架，核心思路是用一個(gè)參數(shù)量小、速度快的小模型先生成視頻草稿，再用圖像質(zhì)量評(píng)分工具判斷草稿是否合格。合格的草稿直接采用，不合格的才讓大模型重新生成。相比普通方法全程依賴大模型，SDVG能在幾乎不損失畫質(zhì)的前提下，將生成速度提升約1.59倍至2.09倍。

Q2：SDVG里的τ（閾值）是什么，應(yīng)該怎么設(shè)置？

A：τ是控制質(zhì)量與速度平衡的核心參數(shù)，相當(dāng)于一個(gè)"質(zhì)檢嚴(yán)格程度"的旋鈕。τ設(shè)得越嚴(yán)格（數(shù)字越接近0，如–0.7），只有高質(zhì)量草稿才會(huì)被接受，最終視頻質(zhì)量高但速度提升較小（約1.59倍）；τ設(shè)得越寬松（如–2.5），更多草稿會(huì)被接受，速度提升更大（約2.09倍），但質(zhì)量會(huì)有輕微下滑。實(shí)驗(yàn)顯示τ在–0.7到–1.0之間是質(zhì)量與速度最平衡的區(qū)間。

Q3：SDVG為什么要對(duì)第一個(gè)視頻塊強(qiáng)制重新生成？

A：第一個(gè)視頻塊決定了整段視頻的場(chǎng)景構(gòu)圖、主體位置和視覺風(fēng)格，后續(xù)所有塊都會(huì)通過KV緩存繼承這些特征。由于第一塊沒有任何前序畫面作為參考，小模型在這一步最容易出錯(cuò)，一旦出現(xiàn)構(gòu)圖錯(cuò)誤，會(huì)沿著KV緩存?zhèn)鲗?dǎo)到后續(xù)所有塊，造成全程跑偏。因此強(qiáng)制由大模型重做第一塊，相當(dāng)于給整段視頻打好穩(wěn)固的視覺地基。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.