![]()
如果把現(xiàn)在最熱門的幾條 3D 生成技術(shù)線放在一起看,你會發(fā)現(xiàn)它們正在遇到一個很像的問題。
做 3D AIGC 的人會發(fā)現(xiàn),模型已經(jīng)越來越會 “生成一個東西”,但生成結(jié)果的復雜度很固定,不夠靈活;做圖形學和渲染的人會更在意,3D 表示到底能不能把有限的計算預算用在最關(guān)鍵的地方;做游戲、XR 和交互內(nèi)容的人則會繼續(xù)追問,同一個 3D 資產(chǎn)能不能既有高質(zhì)量版本,也有輕量版本,而不是每次都重新做一套。
這些問題背后,其實都指向同一個核心矛盾:
今天很多 3D 生成方法,雖然能生成 3D 結(jié)果,但還不夠 “會分配資源”。
以 3D 高斯表示為例,哪里高斯球應該密一點,哪里可以稀疏一點;哪里值得放更多表示能力,哪里只需要一個粗略近似,很多方法其實并沒有真正學會。現(xiàn)有方法更像是在用一種固定模板生成 3D,而不是根據(jù)物體本身的結(jié)構(gòu)復雜度,自適應地決定 “該放多少高斯、放在哪里”。
SIGGRAPH 2026 論文《Generative 3D Gaussians with Learned Density Control》,想解決的正是這個問題。
![]()
- 論文:《Generative 3D Gaussians with Learned Density Control》
- 論文鏈接:https://arxiv.org/abs/2605.16355
這篇工作來自 VAST 和清華大學,提出了一種新的 3D 表示方式Density-Sampled Gaussians(DeG)。它的目標不是簡單生成固定數(shù)量的 3D 高斯球,而是讓模型自己學會一種 “高斯球采樣策略”: 在復雜區(qū)域多放高斯球,在簡單區(qū)域少放高斯球,并且這種策略還能直接從渲染誤差里學出來。
這件事聽起來像是工程優(yōu)化,但其實非常關(guān)鍵。因為它決定了 3D 生成結(jié)果最終是一個 “看起來還行但很笨重的靜態(tài)輸出”,還是一個真正可以按預算伸縮、按需求部署、按場景適配的 3D 表示。
過去一段時間,3D 高斯之所以火,一個很重要的原因是它在畫質(zhì)和效率之間找到了很好的平衡。它不用像傳統(tǒng)網(wǎng)格那樣依賴復雜拓撲,也能渲染出高質(zhì)量結(jié)果。3D 高斯的優(yōu)化過程有一個關(guān)鍵優(yōu)點,也恰恰也是它最難被 Diffusion 等生成式模型繼承的部分,就是空間密度控制 (density control)。
在 3D 高斯優(yōu)化過程里,優(yōu)化算法會不斷做 密集化 (densification) 和 稀疏化 (pruning)。簡單理解就是:
如果某個局部沒擬合好,就往那里 “補” 更多高斯;如果某些高斯貢獻不大,就把它們刪掉。
這套機制很有效,因為現(xiàn)實里的 3D 物體本來就不是均勻復雜的。邊緣、薄結(jié)構(gòu)、紋理劇烈變化的區(qū)域,需要更多表示能力;而大塊平整、變化不大的區(qū)域,其實沒必要堆太多高斯球。
問題在于,這種 “補點和刪點” 的流程本質(zhì)上是離散的、啟發(fā)式的、不可微分的。
這個過程對單個物體的擬合很有用,但不可為微分的特性對一個做前饋式生成、從圖像直接預測 3D 高斯 的模型來說,就很難直接搬過來套用。于是很多現(xiàn)有方法退而求其次,選擇固定結(jié)構(gòu):
- 有的方法把高斯綁在體素網(wǎng)格上 (GaussianCube);
- 有的方法給每個 voxel 分配固定數(shù)量的高斯 (TRELLIS.1);
- 有的方法給每個 2D 圖像的像素預測固定數(shù)量的高斯 (LGM)。
這樣做當然更容易訓練,但代價也很明顯:失去了 3D 高斯最珍貴的靈活性。
DeG 的核心思路,就是把 “高斯球中心在哪” 這件事,從一個固定回歸問題,改寫成一個從概率密度里采樣的問題。
換句話說,模型不再死板地輸出一組固定坐標,而是先學一個 3D 空間里的概率密度分布。這個分布可以理解為:
哪些位置更值得放高斯,哪些位置沒那么重要,即實現(xiàn)了某種“空間智能密度控制”。
在推理時,模型從這個分布里直接采樣出一批高斯球,組成最終的 3D 高斯資產(chǎn)。
這樣一來,整個表示立刻獲得了兩個非常實用的能力。
第一個能力,是任意數(shù)量采樣。
因為模型學到的是 “分布”,而不是 “固定長度輸出”,所以在推理時可以按實際需求采樣不同數(shù)量的高斯球。想做移動端、實時預覽或者低成本傳輸,可以少采一些;想做高保真渲染、離線展示或者更復雜場景,可以多采一些。
也就是說,這不是 “每種分辨率都要重新訓一個模型”,而是同一個模型、同一個表示,根據(jù)預算直接調(diào)采樣數(shù)。
考慮到 3D 高斯的渲染成本并不低,靈活的高斯球數(shù)量對實際部署非常重要。因為很多應用要的不是絕對最強畫質(zhì),而是 “在當前設備和當前時延預算下,拿到最合適的 3D 資產(chǎn)”。
![]()
第二個能力,是非均勻采樣。
DeG 并不是在整個空間里平均撒點,而是會在模型訓練時根據(jù)渲染重構(gòu)損失,把更多采樣預算放到真正復雜的區(qū)域。比如薄的結(jié)構(gòu)、尖銳邊緣、局部幾何變化大、紋理更敏感的區(qū)域,都可以自然得到更高密度;而在平坦、規(guī)則、變化較小的區(qū)域,則可以少放一些高斯。
![]()
這意味著,模型開始真正具備一種“哪里重要就把容量放哪里”的能力。
而這,也是本文最有意思的算法問題所在:
這個空間上的智能密度控制策略,到底怎么學?
很多人第一次看到這里會覺得,既然最后有渲染損失,那就直接反向傳播不就行了?
但真正的難點在于,高斯球的位置是采樣出來的。采樣本身不是一個普通的連續(xù)映射,因此渲染誤差沒法像常規(guī)神經(jīng)網(wǎng)絡那樣,順滑地一路反傳回 “空間密度分布”。
也就是說,模型雖然知道渲染結(jié)果哪里錯了,卻不容易知道:
到底應該提高哪些區(qū)域被采樣到的概率,又該降低哪些區(qū)域的概率。
這篇論文的關(guān)鍵突破,就是給這個問題構(gòu)造了一個可訓練的梯度信號。作者把它稱為渲染損失貢獻梯度 (render loss contribution gradient),本質(zhì)上是一種強化學習策略,可以理解為一種面向高斯采樣的policy gradient。
這個想法其實很直觀。
假設當前我們從密度分布里采樣出了一批高斯球。現(xiàn)在,如果把其中某一個高斯球去掉,重新看渲染損失會發(fā)生什么?
如果去掉它之后,渲染結(jié)果明顯變差,說明這個高斯球很重要,它確實幫模型把這個區(qū)域表示好了。那么系統(tǒng)就應該提升類似位置今后被采樣到的概率。
反過來,如果去掉它幾乎沒影響,甚至讓結(jié)果更好,那說明這類位置的采樣價值不高,概率就不該那么大。
換成更口語的話,這個梯度在回答的問題其實就是:
“這一個被采到的高斯球,到底值不值得被采到?”
這就是一種非常典型的策略學習視角。采樣位置像是在 “做決策”,渲染誤差則提供 “獎懲信號”。對降低誤差有幫助的位置,就獎勵;幫助不大的位置,就少獎勵甚至懲罰。
從數(shù)學上看,這套思路和 policy gradient 是一致的。作者把它進一步寫成了 difference reward 的形式,也就是比較 “有這個高斯球” 和 “沒有這個高斯球” 時,渲染損失到底相差多少。這個差值,正好刻畫了該高斯球的邊際貢獻。
![]()
更重要的是,這里不只是一個直覺上說得通的解釋,而是有明確的正確性依據(jù)。論文直接從 “渲染損失期望值” 出發(fā),計算了它對密度分布參數(shù)的梯度大小,最后得到的就是這里真正用來優(yōu)化的梯度信號,也就是渲染損失貢獻梯度。換句話說,作者并不是憑經(jīng)驗設計了一個看起來合理的訓練技巧,而是在用梯度下降的方式,直接優(yōu)化高斯該如何分布、如何采樣;這和傳統(tǒng)高斯里基于人工規(guī)則的剪枝、密化,是結(jié)果類似、但思路完全不同的一條路。
如果嚴格去算每個高斯球的 leave-one-out 貢獻,代價會非常高,因為看起來像是要把每個高斯都單獨刪掉,再重新渲染一遍。
接下來的問題就變成了:這個目標雖然定義得很清楚,但怎樣才能把它高效算出來?作者針對 L1 渲染損失給出了一種相當精確、同時又很高效的計算辦法。
簡單來說,對于 L1 渲染項,渲染器在正常渲染過程中其實已經(jīng)拿到了幾個關(guān)鍵數(shù)值,只需要做一點額外計算,就能得到我們需要的貢獻值,而不必反復刪掉高斯再重渲染。具體計算過程可以直接閱讀論文中的偽代碼。
這樣一來,原本依賴規(guī)則的密集化 / 稀疏化過程,就被改寫成了一個可微、可學習、可批量訓練的空間密度優(yōu)化過程。這篇工作第一次把 3D 高斯的密度控制,真正實現(xiàn)成了一個端到端優(yōu)化的問題。
在以往的高斯方法里,密度控制更多是靠人工規(guī)則驅(qū)動的,比如什么時候分裂、什么時候刪點、閾值怎么設、什么區(qū)域算 “該加密” 或 “該剪枝”,本質(zhì)上都還是啟發(fā)式設計。DeG 的不同之處在于,它不再依賴這些手工定義的規(guī)則去調(diào)度高斯數(shù)量,而是讓 “哪里該多采、哪里該少采” 直接由渲染誤差反向決定。
如果從應用視角看,這套方法的價值更能直觀體現(xiàn)。
首先,它讓 3D 資產(chǎn)真正具備了按預算伸縮的能力。
以前很多方法一旦生成完成,輸出規(guī)模基本就固定了。你想要更輕量,往往只能后處理壓縮;你想要更高質(zhì)量,也常常意味著重新訓練、重新擬合,或者一開始就背上很重的表示成本。
而在 DeG 里,模型輸出的是一個 “可采樣的密度”。這意味著同一個對象,可以自然得到不同規(guī)模的高斯版本。對移動端、實時交互、在線預覽來說,可以采樣更少、更輕的版本;對影視級展示、數(shù)字藏品、離線精修等任務,則可以直接提高采樣預算,得到更密、更細致的版本。
其次,它讓 3D 表示真正開始理解局部復雜度。
很多固定結(jié)構(gòu)方法的問題不在于它們不能生成高斯,而在于它們不知道哪些地方更值得花預算。結(jié)果往往是簡單地方堆得太多,復雜地方反而不夠。DeG 的非均勻采樣恰好反過來,把容量更集中地放在細節(jié)、邊界、薄結(jié)構(gòu)和高誤差區(qū)域上。這件事在低預算場景里尤其重要。因為當總高斯數(shù)量有限時,“怎么分配” 比 “總量多少” 更關(guān)鍵。論文實驗里也顯示,這種空間智能密度控制帶來的收益,在少數(shù)量高斯的區(qū)間尤其明顯。換句話說,預算越緊,這種方法越體現(xiàn)價值。
再進一步看,這種能力對于很多場景都很關(guān)鍵:
- 對游戲和 XR 來說,它意味著同一個生成模型更容易適配不同設備等級和實時性能約束。
- 對 3D 內(nèi)容平臺來說,它意味著資產(chǎn)可以更自然地提供多種質(zhì)量檔位,而不是為每個檔位單獨制作,實現(xiàn)類似 LoD 的效果。
- 對 AIGC 工作流來說,它意味著生成系統(tǒng)不只是 “給一個結(jié)果”,而是給出一個更可調(diào)、更可部署的表示。
- 對機器人仿真、數(shù)字孿生和交互式 AI 環(huán)境來說,它則意味著有限資源可以優(yōu)先用在真正影響幾何感知和渲染質(zhì)量的部分。
論文里也給出了很有代表性的結(jié)果。作為一種單圖到 3D 的生成框架,DeG 在重建和生成上都取得了很強的表現(xiàn)。在接近的高斯預算下,它相比 TRELLIS、UniLat3D 等代表性方法取得了更好的視覺質(zhì)量;而如果只看 “達到相近視覺質(zhì)量要用多少高斯”,DeG 能顯著減少所需高斯數(shù)量。論文中還提到,在某些場景下,它達到與 TRELLIS 相當?shù)囊曈X質(zhì)量時,所需高斯數(shù)量不到后者的一半。
![]()
![]()
從更長的技術(shù)脈絡看,這篇工作提示了一個很重要的方向:
3D 生成模型能不能不只負責 “生成出來”,還負責決定 “資源該怎么分配”?
這看上去像一個底層問題,但它直接決定了 3D AIGC 能不能從 “實驗室效果” 走向 “實際可用”。真實世界的部署從來不是無限預算的,真正有價值的模型,不只是會生成,還要知道在預算有限的情況下,什么最值得被保留。
DeG 的意義,就在于把這種 “保留什么、強調(diào)什么、稀疏什么” 的能力,第一次以可學習、可優(yōu)化的方式交給模型自己去決定。它讓 3D 表示不再是固定長度、固定密度的靜態(tài)輸出,而變成一種能按需要調(diào)密度、調(diào)成本、調(diào)質(zhì)量的表達。
如果再往前想一步,這篇工作還會逼著我們重新思考一個很基礎(chǔ)的問題:一個物體的高模和低模,到底應該被看成兩個不同的東西,還是同一個物體在不同資源約束下的兩種狀態(tài)?
在傳統(tǒng)流程里,我們通常把它們當成兩份不同資產(chǎn),所以建模、簡化、LOD 制作和部署被拆成了幾條鏈路。但 DeG 提示了一種更自然的理解:物體本身沒有變,變化的只是我們愿意為它分配多少表示能力和渲染預算。
如果這個視角成立,那么未來的 3D 生成模型學到的就不只是 “長什么樣”,還包括 “在什么條件下,該以什么密度、什么成本被呈現(xiàn)出來”。那時,高模、低模、移動端版本,也許都不再是彼此割裂的幾份資產(chǎn),而會變成同一個對象在不同場景下的連續(xù)狀態(tài)。
從這個意義上說,DeG 雖然做的是 3D 高斯,但它真正有意思的地方,也許在于它提醒我們:未來的 3D 內(nèi)容不一定是一份靜態(tài)答案,而更可能是一種會隨著設備、任務和預算不斷調(diào)整的“活表示”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.