VAST+清華提出3D生成新范式，空間智能密度控制把算力花在刀刃上

2026-05-21 11:29:10　來源: 機器之心Pro

天津舉報

分享至

如果把現(xiàn)在最熱門的幾條 3D 生成技術(shù)線放在一起看，你會發(fā)現(xiàn)它們正在遇到一個很像的問題。

做 3D AIGC 的人會發(fā)現(xiàn)，模型已經(jīng)越來越會 “生成一個東西”，但生成結(jié)果的復雜度很固定，不夠靈活；做圖形學和渲染的人會更在意，3D 表示到底能不能把有限的計算預算用在最關(guān)鍵的地方；做游戲、XR 和交互內(nèi)容的人則會繼續(xù)追問，同一個 3D 資產(chǎn)能不能既有高質(zhì)量版本，也有輕量版本，而不是每次都重新做一套。

這些問題背后，其實都指向同一個核心矛盾：

今天很多 3D 生成方法，雖然能生成 3D 結(jié)果，但還不夠 “會分配資源”。

以 3D 高斯表示為例，哪里高斯球應該密一點，哪里可以稀疏一點；哪里值得放更多表示能力，哪里只需要一個粗略近似，很多方法其實并沒有真正學會。現(xiàn)有方法更像是在用一種固定模板生成 3D，而不是根據(jù)物體本身的結(jié)構(gòu)復雜度，自適應地決定 “該放多少高斯、放在哪里”。

SIGGRAPH 2026 論文《Generative 3D Gaussians with Learned Density Control》，想解決的正是這個問題。

論文：《Generative 3D Gaussians with Learned Density Control》
論文鏈接：https://arxiv.org/abs/2605.16355

這篇工作來自 VAST 和清華大學，提出了一種新的 3D 表示方式Density-Sampled Gaussians（DeG）。它的目標不是簡單生成固定數(shù)量的 3D 高斯球，而是讓模型自己學會一種 “高斯球采樣策略”: 在復雜區(qū)域多放高斯球，在簡單區(qū)域少放高斯球，并且這種策略還能直接從渲染誤差里學出來。

這件事聽起來像是工程優(yōu)化，但其實非常關(guān)鍵。因為它決定了 3D 生成結(jié)果最終是一個 “看起來還行但很笨重的靜態(tài)輸出”，還是一個真正可以按預算伸縮、按需求部署、按場景適配的 3D 表示。

過去一段時間，3D 高斯之所以火，一個很重要的原因是它在畫質(zhì)和效率之間找到了很好的平衡。它不用像傳統(tǒng)網(wǎng)格那樣依賴復雜拓撲，也能渲染出高質(zhì)量結(jié)果。3D 高斯的優(yōu)化過程有一個關(guān)鍵優(yōu)點，也恰恰也是它最難被 Diffusion 等生成式模型繼承的部分，就是空間密度控制 (density control)。

在 3D 高斯優(yōu)化過程里，優(yōu)化算法會不斷做密集化 (densification) 和稀疏化 (pruning)。簡單理解就是：

如果某個局部沒擬合好，就往那里 “補” 更多高斯；如果某些高斯貢獻不大，就把它們刪掉。

這套機制很有效，因為現(xiàn)實里的 3D 物體本來就不是均勻復雜的。邊緣、薄結(jié)構(gòu)、紋理劇烈變化的區(qū)域，需要更多表示能力；而大塊平整、變化不大的區(qū)域，其實沒必要堆太多高斯球。

問題在于，這種 “補點和刪點” 的流程本質(zhì)上是離散的、啟發(fā)式的、不可微分的。

這個過程對單個物體的擬合很有用，但不可為微分的特性對一個做前饋式生成、從圖像直接預測 3D 高斯的模型來說，就很難直接搬過來套用。于是很多現(xiàn)有方法退而求其次，選擇固定結(jié)構(gòu):

有的方法把高斯綁在體素網(wǎng)格上 (GaussianCube)；
有的方法給每個 voxel 分配固定數(shù)量的高斯 (TRELLIS.1)；
有的方法給每個 2D 圖像的像素預測固定數(shù)量的高斯 (LGM)。

這樣做當然更容易訓練，但代價也很明顯：失去了 3D 高斯最珍貴的靈活性。

DeG 的核心思路，就是把 “高斯球中心在哪” 這件事，從一個固定回歸問題，改寫成一個從概率密度里采樣的問題。

換句話說，模型不再死板地輸出一組固定坐標，而是先學一個 3D 空間里的概率密度分布。這個分布可以理解為：

哪些位置更值得放高斯，哪些位置沒那么重要，即實現(xiàn)了某種“空間智能密度控制”。

在推理時，模型從這個分布里直接采樣出一批高斯球，組成最終的 3D 高斯資產(chǎn)。

這樣一來，整個表示立刻獲得了兩個非常實用的能力。

第一個能力，是任意數(shù)量采樣。

因為模型學到的是 “分布”，而不是 “固定長度輸出”，所以在推理時可以按實際需求采樣不同數(shù)量的高斯球。想做移動端、實時預覽或者低成本傳輸，可以少采一些；想做高保真渲染、離線展示或者更復雜場景，可以多采一些。

也就是說，這不是 “每種分辨率都要重新訓一個模型”，而是同一個模型、同一個表示，根據(jù)預算直接調(diào)采樣數(shù)。

考慮到 3D 高斯的渲染成本并不低，靈活的高斯球數(shù)量對實際部署非常重要。因為很多應用要的不是絕對最強畫質(zhì)，而是 “在當前設備和當前時延預算下，拿到最合適的 3D 資產(chǎn)”。

第二個能力，是非均勻采樣。

DeG 并不是在整個空間里平均撒點，而是會在模型訓練時根據(jù)渲染重構(gòu)損失，把更多采樣預算放到真正復雜的區(qū)域。比如薄的結(jié)構(gòu)、尖銳邊緣、局部幾何變化大、紋理更敏感的區(qū)域，都可以自然得到更高密度；而在平坦、規(guī)則、變化較小的區(qū)域，則可以少放一些高斯。

這意味著，模型開始真正具備一種“哪里重要就把容量放哪里”的能力。

而這，也是本文最有意思的算法問題所在：

這個空間上的智能密度控制策略，到底怎么學？

很多人第一次看到這里會覺得，既然最后有渲染損失，那就直接反向傳播不就行了？

但真正的難點在于，高斯球的位置是采樣出來的。采樣本身不是一個普通的連續(xù)映射，因此渲染誤差沒法像常規(guī)神經(jīng)網(wǎng)絡那樣，順滑地一路反傳回 “空間密度分布”。

也就是說，模型雖然知道渲染結(jié)果哪里錯了，卻不容易知道：

到底應該提高哪些區(qū)域被采樣到的概率，又該降低哪些區(qū)域的概率。

這篇論文的關(guān)鍵突破，就是給這個問題構(gòu)造了一個可訓練的梯度信號。作者把它稱為渲染損失貢獻梯度 (render loss contribution gradient)，本質(zhì)上是一種強化學習策略，可以理解為一種面向高斯采樣的policy gradient。

這個想法其實很直觀。

假設當前我們從密度分布里采樣出了一批高斯球。現(xiàn)在，如果把其中某一個高斯球去掉，重新看渲染損失會發(fā)生什么？

如果去掉它之后，渲染結(jié)果明顯變差，說明這個高斯球很重要，它確實幫模型把這個區(qū)域表示好了。那么系統(tǒng)就應該提升類似位置今后被采樣到的概率。

反過來，如果去掉它幾乎沒影響，甚至讓結(jié)果更好，那說明這類位置的采樣價值不高，概率就不該那么大。

換成更口語的話，這個梯度在回答的問題其實就是：

“這一個被采到的高斯球，到底值不值得被采到？”

這就是一種非常典型的策略學習視角。采樣位置像是在 “做決策”，渲染誤差則提供 “獎懲信號”。對降低誤差有幫助的位置，就獎勵；幫助不大的位置，就少獎勵甚至懲罰。

從數(shù)學上看，這套思路和 policy gradient 是一致的。作者把它進一步寫成了 difference reward 的形式，也就是比較 “有這個高斯球” 和 “沒有這個高斯球” 時，渲染損失到底相差多少。這個差值，正好刻畫了該高斯球的邊際貢獻。

更重要的是，這里不只是一個直覺上說得通的解釋，而是有明確的正確性依據(jù)。論文直接從 “渲染損失期望值” 出發(fā)，計算了它對密度分布參數(shù)的梯度大小，最后得到的就是這里真正用來優(yōu)化的梯度信號，也就是渲染損失貢獻梯度。換句話說，作者并不是憑經(jīng)驗設計了一個看起來合理的訓練技巧，而是在用梯度下降的方式，直接優(yōu)化高斯該如何分布、如何采樣；這和傳統(tǒng)高斯里基于人工規(guī)則的剪枝、密化，是結(jié)果類似、但思路完全不同的一條路。

如果嚴格去算每個高斯球的 leave-one-out 貢獻，代價會非常高，因為看起來像是要把每個高斯都單獨刪掉，再重新渲染一遍。

接下來的問題就變成了：這個目標雖然定義得很清楚，但怎樣才能把它高效算出來？作者針對 L1 渲染損失給出了一種相當精確、同時又很高效的計算辦法。

簡單來說，對于 L1 渲染項，渲染器在正常渲染過程中其實已經(jīng)拿到了幾個關(guān)鍵數(shù)值，只需要做一點額外計算，就能得到我們需要的貢獻值，而不必反復刪掉高斯再重渲染。具體計算過程可以直接閱讀論文中的偽代碼。

這樣一來，原本依賴規(guī)則的密集化 / 稀疏化過程，就被改寫成了一個可微、可學習、可批量訓練的空間密度優(yōu)化過程。這篇工作第一次把 3D 高斯的密度控制，真正實現(xiàn)成了一個端到端優(yōu)化的問題。

在以往的高斯方法里，密度控制更多是靠人工規(guī)則驅(qū)動的，比如什么時候分裂、什么時候刪點、閾值怎么設、什么區(qū)域算 “該加密” 或 “該剪枝”，本質(zhì)上都還是啟發(fā)式設計。DeG 的不同之處在于，它不再依賴這些手工定義的規(guī)則去調(diào)度高斯數(shù)量，而是讓 “哪里該多采、哪里該少采” 直接由渲染誤差反向決定。

如果從應用視角看，這套方法的價值更能直觀體現(xiàn)。

首先，它讓 3D 資產(chǎn)真正具備了按預算伸縮的能力。

以前很多方法一旦生成完成，輸出規(guī)模基本就固定了。你想要更輕量，往往只能后處理壓縮；你想要更高質(zhì)量，也常常意味著重新訓練、重新擬合，或者一開始就背上很重的表示成本。

而在 DeG 里，模型輸出的是一個 “可采樣的密度”。這意味著同一個對象，可以自然得到不同規(guī)模的高斯版本。對移動端、實時交互、在線預覽來說，可以采樣更少、更輕的版本；對影視級展示、數(shù)字藏品、離線精修等任務，則可以直接提高采樣預算，得到更密、更細致的版本。

其次，它讓 3D 表示真正開始理解局部復雜度。

很多固定結(jié)構(gòu)方法的問題不在于它們不能生成高斯，而在于它們不知道哪些地方更值得花預算。結(jié)果往往是簡單地方堆得太多，復雜地方反而不夠。DeG 的非均勻采樣恰好反過來，把容量更集中地放在細節(jié)、邊界、薄結(jié)構(gòu)和高誤差區(qū)域上。這件事在低預算場景里尤其重要。因為當總高斯數(shù)量有限時，“怎么分配” 比 “總量多少” 更關(guān)鍵。論文實驗里也顯示，這種空間智能密度控制帶來的收益，在少數(shù)量高斯的區(qū)間尤其明顯。換句話說，預算越緊，這種方法越體現(xiàn)價值。

再進一步看，這種能力對于很多場景都很關(guān)鍵：

對游戲和 XR 來說，它意味著同一個生成模型更容易適配不同設備等級和實時性能約束。
對 3D 內(nèi)容平臺來說，它意味著資產(chǎn)可以更自然地提供多種質(zhì)量檔位，而不是為每個檔位單獨制作，實現(xiàn)類似 LoD 的效果。
對 AIGC 工作流來說，它意味著生成系統(tǒng)不只是 “給一個結(jié)果”，而是給出一個更可調(diào)、更可部署的表示。
對機器人仿真、數(shù)字孿生和交互式 AI 環(huán)境來說，它則意味著有限資源可以優(yōu)先用在真正影響幾何感知和渲染質(zhì)量的部分。

論文里也給出了很有代表性的結(jié)果。作為一種單圖到 3D 的生成框架，DeG 在重建和生成上都取得了很強的表現(xiàn)。在接近的高斯預算下，它相比 TRELLIS、UniLat3D 等代表性方法取得了更好的視覺質(zhì)量；而如果只看 “達到相近視覺質(zhì)量要用多少高斯”，DeG 能顯著減少所需高斯數(shù)量。論文中還提到，在某些場景下，它達到與 TRELLIS 相當?shù)囊曈X質(zhì)量時，所需高斯數(shù)量不到后者的一半。

從更長的技術(shù)脈絡看，這篇工作提示了一個很重要的方向：

3D 生成模型能不能不只負責 “生成出來”，還負責決定 “資源該怎么分配”？

這看上去像一個底層問題，但它直接決定了 3D AIGC 能不能從 “實驗室效果” 走向 “實際可用”。真實世界的部署從來不是無限預算的，真正有價值的模型，不只是會生成，還要知道在預算有限的情況下，什么最值得被保留。

DeG 的意義，就在于把這種 “保留什么、強調(diào)什么、稀疏什么” 的能力，第一次以可學習、可優(yōu)化的方式交給模型自己去決定。它讓 3D 表示不再是固定長度、固定密度的靜態(tài)輸出，而變成一種能按需要調(diào)密度、調(diào)成本、調(diào)質(zhì)量的表達。

如果再往前想一步，這篇工作還會逼著我們重新思考一個很基礎(chǔ)的問題：一個物體的高模和低模，到底應該被看成兩個不同的東西，還是同一個物體在不同資源約束下的兩種狀態(tài)？

在傳統(tǒng)流程里，我們通常把它們當成兩份不同資產(chǎn)，所以建模、簡化、LOD 制作和部署被拆成了幾條鏈路。但 DeG 提示了一種更自然的理解：物體本身沒有變，變化的只是我們愿意為它分配多少表示能力和渲染預算。

如果這個視角成立，那么未來的 3D 生成模型學到的就不只是 “長什么樣”，還包括 “在什么條件下，該以什么密度、什么成本被呈現(xiàn)出來”。那時，高模、低模、移動端版本，也許都不再是彼此割裂的幾份資產(chǎn)，而會變成同一個對象在不同場景下的連續(xù)狀態(tài)。

從這個意義上說，DeG 雖然做的是 3D 高斯，但它真正有意思的地方，也許在于它提醒我們：未來的 3D 內(nèi)容不一定是一份靜態(tài)答案，而更可能是一種會隨著設備、任務和預算不斷調(diào)整的“活表示”。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.