![]()
這項(xiàng)由麻省理工學(xué)院(MIT)與獨(dú)立研究者合作完成的研究,于2026年發(fā)表在計(jì)算機(jī)圖形學(xué)頂級(jí)會(huì)議ACM SIGGRAPH 2026的論文集中,會(huì)議定于2026年7月19日至23日在美國洛杉磯舉行。論文題為《Soft Anisotropic Diagrams for Differentiable Image Representation》,編號(hào)為arXiv:2604.21984,有興趣深入鉆研的讀者可通過該編號(hào)查詢完整原文。
**圖像存儲(chǔ),其實(shí)是一道"壓縮藝術(shù)題"**
每當(dāng)你給朋友發(fā)送一張照片,或者在網(wǎng)頁上看到一張清晰的產(chǎn)品圖,背后都隱藏著一套極其復(fù)雜的"壓縮與還原"機(jī)制。照片本身的信息量是巨大的,存儲(chǔ)或傳輸時(shí)必須把它"壓縮"成緊湊的格式,使用時(shí)再"還原"出來。這道題的關(guān)鍵,不只是壓得有多小,還有還原出來有多像原圖,以及這個(gè)壓縮過程有多快。
在人工智能和計(jì)算機(jī)圖形學(xué)領(lǐng)域,研究者們一直在探索一種叫做"可微分圖像表示"的技術(shù),通俗說就是:用一組可以被計(jì)算機(jī)自動(dòng)調(diào)整、自動(dòng)優(yōu)化的"參數(shù)"來表達(dá)一張圖像,而不是直接存儲(chǔ)每一個(gè)像素點(diǎn)的顏色。這就好像你不直接記錄一幅城市地圖里每條街道的顏色,而是記錄幾百個(gè)"標(biāo)志性地點(diǎn)"的位置和顏色,然后通過某種規(guī)則,讓這些標(biāo)志點(diǎn)"輻射"出它們周圍區(qū)域的顏色,最終拼出整張地圖。這種思路既省空間,又方便后續(xù)的圖像編輯、物理模擬等操作。
然而,現(xiàn)有的方法都有各自的痛點(diǎn)。一類方法叫做"隱式神經(jīng)網(wǎng)絡(luò)",它把整張圖像塞進(jìn)一個(gè)神經(jīng)網(wǎng)絡(luò)的權(quán)重里,雖然靈活,但你沒法直接看出"哪部分參數(shù)負(fù)責(zé)圖像的哪個(gè)區(qū)域",編輯起來非常麻煩。另一類方法叫做"高斯?jié)姙R"(Gaussian Splatting),它用一堆"橢圓形氣泡"覆蓋在圖像上,每個(gè)氣泡貢獻(xiàn)一點(diǎn)顏色,最終疊加出完整圖像——這就像用一堆半透明的彩色墨水氣泡噴在畫布上,氣泡之間大量重疊,邊界處顏色混亂,很難精確控制誰負(fù)責(zé)哪塊區(qū)域,剪枝和優(yōu)化也相當(dāng)費(fèi)力。
正是在這樣的背景下,MIT與獨(dú)立研究者聯(lián)手提出了一套全新方案,他們把它叫做**SAD**(Soft Anisotropic Diagrams,軟各向異性圖)。這個(gè)名字聽起來有些拗口,但核心思想其實(shí)可以用一個(gè)非常直觀的比喻來理解:把圖像的二維平面想象成一張城市地圖,在地圖上放置若干個(gè)"勢(shì)力范圍站點(diǎn)",每個(gè)站點(diǎn)都有自己的影響力范圍和方向,整張地圖被這些站點(diǎn)劃分成一塊塊"勢(shì)力區(qū)域",每塊區(qū)域的顏色由負(fù)責(zé)它的那個(gè)站點(diǎn)決定。這種劃分方式在數(shù)學(xué)上叫做"Voronoi圖",而SAD對(duì)這個(gè)經(jīng)典概念做了大量升級(jí),使其能夠被計(jì)算機(jī)自動(dòng)優(yōu)化,最終實(shí)現(xiàn)了比現(xiàn)有方法快4到19倍的訓(xùn)練速度,同時(shí)圖像質(zhì)量還更好。
**一、地圖分區(qū)的數(shù)學(xué)基礎(chǔ):從Voronoi圖到Apollonius圖**
要理解SAD的核心,先要了解研究者借鑒的那個(gè)古老的數(shù)學(xué)工具——Voronoi圖(沃羅諾伊圖)。這個(gè)概念其實(shí)非常直觀。假設(shè)你在一片空地上放了若干個(gè)消防站,每個(gè)居民遇到火災(zāi)都去最近的那個(gè)消防站求救。按照"就近原則",整片空地就被自然劃分成若干個(gè)區(qū)域,每個(gè)區(qū)域內(nèi)的居民都屬于同一個(gè)消防站的管轄范圍。這些區(qū)域的邊界線,就是Voronoi圖的分割線。
普通的Voronoi圖以純粹的直線距離來劃分,每個(gè)站點(diǎn)的"勢(shì)力范圍"是正六邊形或多邊形,非常規(guī)整。但現(xiàn)實(shí)世界的圖像可不是這么規(guī)整的——一只貓的輪廓是曲線,建筑物的邊緣可能是斜的,頭發(fā)絲兒是細(xì)長的。為了讓這些分區(qū)能夠適應(yīng)圖像的形狀,研究者引入了兩個(gè)關(guān)鍵改進(jìn)。
第一個(gè)改進(jìn)叫做"加權(quán)距離",也叫Apollonius圖(阿波羅尼斯圖)。還是用消防站的比喻:普通情況下,消防站管轄的是距離它最近的區(qū)域。但加權(quán)版本允許每個(gè)消防站設(shè)定一個(gè)"影響半徑"——有的消防站設(shè)備精良,能管轄更大范圍,相當(dāng)于在距離基礎(chǔ)上減去一個(gè)"特權(quán)半徑"。這樣一來,強(qiáng)大的消防站可以把影響力延伸得更遠(yuǎn),管轄更大的地盤。在SAD里,這個(gè)"影響半徑"就是每個(gè)站點(diǎn)(學(xué)術(shù)上叫"site",本文統(tǒng)一稱"站點(diǎn)")的參數(shù)r,它控制著這個(gè)站點(diǎn)的顏色能輻射多遠(yuǎn)。
第二個(gè)改進(jìn)叫做"各向異性"(anisotropy)。普通消防站的管轄范圍是一個(gè)圓,四面八方等距。但各向異性版本允許管轄范圍變成一個(gè)橢圓——某個(gè)方向延伸得長,垂直方向短一些。這非常重要:圖像里的很多特征都是有方向的,比如一根長直線條、一片橫向的天空、一塊斜向的紋理。如果站點(diǎn)的"影響橢圓"能自動(dòng)與這些特征對(duì)齊,就能用更少的站點(diǎn)覆蓋更多的圖像區(qū)域,效率大幅提升。
把這兩個(gè)改進(jìn)合在一起,SAD里每個(gè)站點(diǎn)的"分?jǐn)?shù)"計(jì)算方式就是:到該站點(diǎn)的橢圓化距離,再減去它的影響半徑。分?jǐn)?shù)越低,說明這個(gè)像素點(diǎn)越應(yīng)該歸屬于這個(gè)站點(diǎn)。
**二、"軟邊界"的奧秘:溫度參數(shù)如何化解優(yōu)化難題**
純粹的Voronoi分區(qū)是硬邊界——每個(gè)像素要么屬于A站點(diǎn),要么屬于B站點(diǎn),非此即彼,中間沒有過渡。這在數(shù)學(xué)上叫做"不可微",意思是計(jì)算機(jī)在優(yōu)化參數(shù)時(shí),沒有辦法計(jì)算"把A站點(diǎn)稍微挪一點(diǎn),圖像質(zhì)量會(huì)怎么變化",因?yàn)橐慌簿蜁?huì)出現(xiàn)像素突然跳到另一個(gè)站點(diǎn)的情況,梯度無法計(jì)算。
SAD的解決方案來自一個(gè)在機(jī)器學(xué)習(xí)里非常經(jīng)典的函數(shù)——softmax。簡單說,softmax可以把若干個(gè)數(shù)值轉(zhuǎn)換成一組加起來等于1的權(quán)重,每個(gè)權(quán)重代表"這個(gè)像素點(diǎn)有多少比例應(yīng)該歸屬于某個(gè)站點(diǎn)"。這樣一來,每個(gè)像素的顏色就不再是"只取最近站點(diǎn)的顏色",而是"按照各站點(diǎn)的分?jǐn)?shù),對(duì)所有候選站點(diǎn)的顏色做加權(quán)平均"。邊界處的像素可能70%歸屬A站點(diǎn)、30%歸屬B站點(diǎn),因此顏色是兩者的混合,過渡非常平滑。
但這里有個(gè)關(guān)鍵問題:如果軟邊界太"軟",圖像里所有的銳利邊緣都會(huì)變得模糊,質(zhì)量會(huì)很差。如果邊界太"硬",又回到了不可微的問題,優(yōu)化就卡住了。SAD的聰明之處在于,給每個(gè)站點(diǎn)設(shè)置了一個(gè)獨(dú)立的"溫度參數(shù)"τ(希臘字母tau)。溫度高,這個(gè)站點(diǎn)的邊界就銳利清晰,就像冰一樣;溫度低,邊界就柔軟模糊,就像水一樣。更妙的是,每個(gè)站點(diǎn)的溫度可以獨(dú)立學(xué)習(xí),自動(dòng)調(diào)整。
這意味著什么呢?位于圖像邊緣處的站點(diǎn),優(yōu)化后會(huì)自動(dòng)學(xué)到很高的溫度,形成清晰的顏色分割;位于天空、墻面等平坦區(qū)域的站點(diǎn),會(huì)自動(dòng)學(xué)到較低的溫度,形成柔和的過渡。整個(gè)系統(tǒng)在訓(xùn)練開始時(shí)用低溫度(軟邊界)保證梯度信息流通,隨著訓(xùn)練推進(jìn)逐漸在需要的地方自動(dòng)調(diào)高溫度,最終在邊緣處形成清晰的分割線,在平坦區(qū)域保持平滑過渡。實(shí)驗(yàn)證明,僅僅加入可學(xué)習(xí)的溫度參數(shù),圖像質(zhì)量就能比固定溫度基準(zhǔn)提升2.30 dB PSNR(一種衡量圖像質(zhì)量的指標(biāo),越高越好)。
**三、只看"最近的K個(gè)站點(diǎn)":計(jì)算效率的核心秘密**
到目前為止,SAD的數(shù)學(xué)原理已經(jīng)很清晰了:一堆站點(diǎn),每個(gè)站點(diǎn)有位置、顏色、影響半徑、橢圓方向和溫度,每個(gè)像素通過softmax對(duì)附近站點(diǎn)的顏色加權(quán)平均得到最終顏色。但這里有一個(gè)效率問題:如果圖像上有50000個(gè)站點(diǎn),那么每個(gè)像素理論上要和所有50000個(gè)站點(diǎn)計(jì)算距離,然后做加權(quán)平均。一張照片有幾百萬個(gè)像素,50000×幾百萬次計(jì)算,速度簡直慢得令人絕望。
SAD的解決方案非常自然:每個(gè)像素其實(shí)只需要關(guān)注離它最近的K個(gè)站點(diǎn),那些距離極遠(yuǎn)的站點(diǎn)對(duì)這個(gè)像素的顏色貢獻(xiàn)幾乎為零,根本不用管它們。研究者選擇K=8,也就是每個(gè)像素只和最近的8個(gè)候選站點(diǎn)打交道。這樣計(jì)算量從"50000×像素?cái)?shù)"直接降到"8×像素?cái)?shù)",效率提升了幾千倍。
但隨之而來的新問題是:怎么快速找到每個(gè)像素的"最近8個(gè)站點(diǎn)"?這個(gè)問題本身就不簡單——如果站點(diǎn)的位置在不斷移動(dòng)和優(yōu)化,那每次都要重新搜索一遍,代價(jià)依然很高。
研究團(tuán)隊(duì)的解決方案叫做"Top-K傳播算法",靈感來自一個(gè)叫做"跳躍洪水算法"(Jump Flooding Algorithm,JFA)的經(jīng)典圖形學(xué)工具。這個(gè)算法的思路可以用"流言擴(kuò)散"來理解:假設(shè)你要弄清楚城市里每棟樓離哪個(gè)地鐵站最近,你不需要讓每棟樓都跑遍全市。你可以讓每個(gè)地鐵站把自己的信息告訴相鄰樓棟,相鄰樓棟再把這條信息轉(zhuǎn)告更遠(yuǎn)的鄰居,就像流言一樣,一輪一輪地?cái)U(kuò)散出去。經(jīng)過幾輪擴(kuò)散后,全城每棟樓基本都知道自己離哪個(gè)地鐵站最近了。
SAD的Top-K傳播算法基于同樣的思路,但更聰明。它同時(shí)利用了三種機(jī)制:第一是"時(shí)間復(fù)用",即上一輪迭代的候選名單通常變化不大,本輪可以直接繼承上一輪的結(jié)果作為出發(fā)點(diǎn);第二是"空間傳播",每個(gè)像素從自己和上下左右4個(gè)鄰居那里借用候選站點(diǎn),合并之后保留最優(yōu)的K個(gè);第三是"隨機(jī)注入",每輪額外隨機(jī)撒入少量全局候選站點(diǎn),防止出現(xiàn)某個(gè)站點(diǎn)移動(dòng)到新位置后長時(shí)間無法被任何像素"發(fā)現(xiàn)"的情況。
這三種機(jī)制配合,使得維護(hù)"每個(gè)像素最近K個(gè)站點(diǎn)"的名單,每輪只需要固定的、很小的計(jì)算量,完全不會(huì)隨著站點(diǎn)總數(shù)增加而變慢。實(shí)驗(yàn)表明,在1024×1024的圖像上,經(jīng)過12到16輪傳播后,96%以上的像素都能找到完全正確的Top-8候選名單,準(zhǔn)確率非常高。
**四、站點(diǎn)的"生與死":自適應(yīng)預(yù)算控制機(jī)制**
SAD在優(yōu)化過程中還有一個(gè)動(dòng)態(tài)管理機(jī)制,負(fù)責(zé)決定在哪里增加站點(diǎn)(加密),在哪里刪除站點(diǎn)(修剪)。這個(gè)機(jī)制叫做"自適應(yīng)預(yù)算控制",核心思想是:讓計(jì)算資源集中到最需要它的地方。
評(píng)價(jià)每個(gè)站點(diǎn)"需不需要被拆分"的標(biāo)準(zhǔn),用一個(gè)打分公式來衡量:站點(diǎn)當(dāng)前負(fù)責(zé)的像素區(qū)域內(nèi),殘差誤差(當(dāng)前顏色與目標(biāo)顏色之差)有多大,同時(shí)這個(gè)站點(diǎn)的"實(shí)際負(fù)責(zé)面積"有多小。一個(gè)站點(diǎn)如果負(fù)責(zé)的面積很小,但誤差卻很大,說明它所在的區(qū)域非常難以被準(zhǔn)確表達(dá),需要更多站點(diǎn)來精細(xì)覆蓋。這樣的站點(diǎn)會(huì)被選中,分裂成兩個(gè)子站點(diǎn)。
分裂時(shí),研究者會(huì)根據(jù)該站點(diǎn)覆蓋區(qū)域內(nèi)的殘差分布,計(jì)算出一個(gè)"主要方向"——誤差最集中、變化最劇烈的方向——然后把兩個(gè)子站點(diǎn)沿這個(gè)方向分開,分別去覆蓋原來區(qū)域的兩半。子站點(diǎn)的溫度參數(shù)、影響半徑都從父站點(diǎn)繼承并略微調(diào)整,顏色則重新從目標(biāo)圖像對(duì)應(yīng)位置取樣。
與此同時(shí),那些貢獻(xiàn)極小、幾乎不影響圖像質(zhì)量的站點(diǎn)會(huì)被"修剪"掉。衡量"貢獻(xiàn)"的方式叫做"刪除差分"(removal delta):假設(shè)把這個(gè)站點(diǎn)刪掉,剩下的K-1個(gè)站點(diǎn)重新歸一化權(quán)重后,圖像誤差會(huì)增加多少?增加越少,說明這個(gè)站點(diǎn)越可有可無,優(yōu)先刪除。
整個(gè)加密和修剪過程有嚴(yán)格的時(shí)間窗口和百分比控制,并且當(dāng)用戶指定目標(biāo)比特率(即最終壓縮到多小)時(shí),系統(tǒng)會(huì)自動(dòng)調(diào)整加密和修剪的力度,確保訓(xùn)練結(jié)束時(shí)站點(diǎn)數(shù)量恰好符合目標(biāo)。SAD的訓(xùn)練從一個(gè)較大的初始站點(diǎn)數(shù)(如128,000個(gè))出發(fā),通過不斷修剪和少量加密,最終收斂到目標(biāo)數(shù)量(如25,000個(gè))。
**五、GPU上的"流水線":讓一切都在顯卡里飛奔**
光有好的算法還不夠,工程實(shí)現(xiàn)的質(zhì)量直接決定速度。SAD的整個(gè)訓(xùn)練和渲染流程完全在GPU內(nèi)部運(yùn)行,研究者手工編寫了Metal(蘋果芯片用)、CUDA(英偉達(dá)顯卡用)和WebGPU(瀏覽器用)三套底層代碼,不依賴任何自動(dòng)微分框架,徹底消除了CPU和GPU之間來回傳輸數(shù)據(jù)的等待時(shí)間。
梯度計(jì)算也做了專門優(yōu)化。樸素的做法是:對(duì)圖像里每個(gè)像素,計(jì)算梯度之后,把結(jié)果"原子寫入"到各個(gè)站點(diǎn)的梯度緩沖區(qū)。但當(dāng)很多像素同時(shí)要更新同一個(gè)站點(diǎn)的梯度時(shí),就會(huì)發(fā)生"擁堵"——大量寫操作互相等待,顯卡的并行計(jì)算能力被浪費(fèi)。SAD改用了一種"分組哈希縮減"的方式:把圖像分成很多16×16的小塊,同一個(gè)小塊里的像素先在本地的共享內(nèi)存里完成梯度的匯總,只有最終結(jié)果才寫到全局內(nèi)存,全局寫操作的次數(shù)從"像素?cái)?shù)×K"降到了"小塊數(shù)×站點(diǎn)數(shù)",競(jìng)爭大幅減少。
站點(diǎn)的存儲(chǔ)也做了精心設(shè)計(jì)。用于訓(xùn)練的站點(diǎn)保存為完整精度的32位浮點(diǎn)數(shù),共10個(gè)參數(shù)(x坐標(biāo)、y坐標(biāo)、溫度、半徑、RGB三個(gè)顏色通道、各向異性方向x分量、y分量,以及各向異性縮放參數(shù))。用于最終渲染的站點(diǎn)則壓縮打包成每個(gè)16字節(jié)的格式:坐標(biāo)用15位定點(diǎn)數(shù)表示,顏色用11/11/10位分別表示RGB,溫度和半徑用16位存儲(chǔ),各向異性方向用16位角度編碼,各向異性縮放用float16存儲(chǔ)。整個(gè)壓縮包在不影響圖像質(zhì)量的前提下,大幅減少了內(nèi)存帶寬消耗,這也是高分辨率下速度依然很快的重要原因。
**六、實(shí)驗(yàn)結(jié)果:數(shù)字背后的真實(shí)差距**
研究者在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上與主流方法做了詳細(xì)對(duì)比。主要的競(jìng)爭對(duì)手是Image-GS(一種基于2D高斯?jié)姙R的圖像表示方法,發(fā)表于ACM SIGGRAPH 2025)和Instant-NGP(基于多分辨率哈希網(wǎng)格的神經(jīng)圖形基元方法,發(fā)表于ACM Trans. Graph. 2022),以及其他幾個(gè)相關(guān)方法。
在Kodak數(shù)據(jù)集(24張經(jīng)典測(cè)試圖片,分辨率768×512)上,使用50000個(gè)站點(diǎn)(約16 BPP的參數(shù)預(yù)算),SAD達(dá)到了46.00 dB PSNR、0.9871 SSIM、0.0032 LPIPS,訓(xùn)練時(shí)間僅2.2秒。相比之下,Image-GS在同等協(xié)議下得到36.90 dB,訓(xùn)練時(shí)間28秒;Instant-NGP得到37.72 dB,訓(xùn)練時(shí)間8.2秒。另一個(gè)近期方法Fast 2DGS在同等站點(diǎn)數(shù)下得到43.13 dB,訓(xùn)練時(shí)間10秒。SAD在質(zhì)量上領(lǐng)先最近的競(jìng)爭對(duì)手超過2.87 dB,同時(shí)速度快4.5倍以上。
在Image-GS提供的專屬基準(zhǔn)測(cè)試數(shù)據(jù)集(45張圖片)上,不同壓縮率下,SAD的優(yōu)勢(shì)一以貫之:0.5 BPP時(shí)達(dá)到37.86 dB,而Image-GS僅有34.57 dB,Instant-NGP更是只有30.69 dB。在DIV2K驗(yàn)證集(100張高分辨率圖片)上,2.0 BPP時(shí)SAD達(dá)到34.73 dB,超過Image-GS的32.15 dB和Instant-NGP的29.24 dB。在CLIC驗(yàn)證集(41張圖片)上,2.0 BPP時(shí)SAD達(dá)到36.13 dB,同樣大幅領(lǐng)先對(duì)手。
訓(xùn)練速度方面,研究者專門做了一組控制實(shí)驗(yàn),在512?到2048?共5種分辨率下,以"每遍歷完整圖像一次的時(shí)間"為單位進(jìn)行比較,在NVIDIA RTX 5090顯卡上測(cè)試。SAD在所有分辨率下都是最快的,比Instant-NGP快1.75到3.36倍,比Image-GS快4.08到15.10倍。在2048×2048的圖像上,SAD處理一輪只需3.6毫秒,而Instant-NGP需要12.1毫秒,Image-GS需要14.7毫秒。
研究者還分析了訓(xùn)練迭代次數(shù)與圖像質(zhì)量的關(guān)系。大體規(guī)律是:訓(xùn)練2000次迭代就能達(dá)到最終質(zhì)量的97%以上,4000次迭代基本到達(dá)峰值,再往后質(zhì)量略有下降(這不是過擬合,而是由固定預(yù)算約束導(dǎo)致的調(diào)度效應(yīng))。這意味著對(duì)于需要快速處理大量圖像的場(chǎng)景,可以在幾秒鐘內(nèi)得到非常好的結(jié)果。
對(duì)每個(gè)可學(xué)習(xí)參數(shù)的貢獻(xiàn),研究者也做了詳細(xì)的消融實(shí)驗(yàn):固定溫度基準(zhǔn)(固定log τ=7.5)PSNR為28.20 dB;加入可學(xué)習(xí)溫度后提升到30.50 dB,增加了2.30 dB;在此基礎(chǔ)上加入可學(xué)習(xí)半徑,提升到31.76 dB,再增加1.26 dB;加入各向異性后達(dá)到34.77 dB,相對(duì)于只有可學(xué)習(xí)溫度增加了4.27 dB;三者都啟用的完整SAD模型達(dá)到35.35 dB,比固定溫度基準(zhǔn)整整高出7.15 dB。其中各向異性的貢獻(xiàn)最大,說明讓橢圓形的"勢(shì)力范圍"與圖像內(nèi)容的方向自動(dòng)對(duì)齊,是SAD超越各向同性方法的核心原因。
**七、不只是壓圖:SAD的兩個(gè)額外應(yīng)用**
研究者還展示了SAD超越純粹圖像壓縮的兩個(gè)應(yīng)用場(chǎng)景,證明這套框架的通用性。
第一個(gè)應(yīng)用是微分方程求解。物理學(xué)里有很多現(xiàn)象(熱傳導(dǎo)、電場(chǎng)分布、流體流動(dòng)等)可以用偏微分方程(PDE)來描述,求解這些方程就是找出滿足方程條件的函數(shù)。研究者用SAD來求解一個(gè)二維泊松方程——在一個(gè)"笑臉"形狀的不規(guī)則區(qū)域內(nèi)(512×512分辨率),指定邊界處函數(shù)值為0,內(nèi)部有一個(gè)均勻的源項(xiàng),求滿足這些條件的函數(shù)分布。SAD的優(yōu)勢(shì)在于,它的站點(diǎn)結(jié)構(gòu)是顯式的——研究者直接把邊界上的站點(diǎn)凍結(jié)(不參與梯度更新),就輕松實(shí)現(xiàn)了嚴(yán)格的Dirichlet邊界條件,這在隱式神經(jīng)網(wǎng)絡(luò)里是非常困難的操作,通常需要額外的懲罰項(xiàng)或特殊的網(wǎng)絡(luò)設(shè)計(jì)。經(jīng)過1000到2000步梯度下降,誤差就收斂到了1e-6以下(機(jī)器精度級(jí)別),學(xué)習(xí)到的站點(diǎn)分布自動(dòng)聚集在邊界和高曲率區(qū)域附近,展現(xiàn)出內(nèi)容自適應(yīng)的特性。
第二個(gè)應(yīng)用是一維信號(hào)擬合,這個(gè)實(shí)驗(yàn)主要用來展示SAD的溫度參數(shù)如何應(yīng)對(duì)不連續(xù)點(diǎn)(信號(hào)里的突變)。研究者用三種信號(hào)做了對(duì)比:一是純正弦波(光滑信號(hào)),二是階躍函數(shù)加正弦波(有突變),三是多頻率混合信號(hào)。對(duì)比對(duì)象是高斯?jié)姙R(64個(gè)splats,256個(gè)參數(shù))和SIREN(小型正弦激活神經(jīng)網(wǎng)絡(luò),321個(gè)參數(shù))。結(jié)果是:高斯?jié)姙R非常擅長光滑信號(hào)(79.6 dB),但在階躍函數(shù)處因?yàn)楣潭ㄐ螤畹母咚购藷o法精確表達(dá)突變,質(zhì)量降到47.3 dB;SIREN擅長連續(xù)變化,但在不連續(xù)點(diǎn)附近會(huì)出現(xiàn)類似"振鈴效應(yīng)"的波動(dòng)(43.1 dB);SAD在階躍函數(shù)上達(dá)到57.2 dB,多頻率信號(hào)上達(dá)到42.0 dB,兩項(xiàng)都領(lǐng)先,原因正是溫度參數(shù)可以在突變處自動(dòng)調(diào)高,讓分區(qū)邊界精確對(duì)準(zhǔn)信號(hào)的跳變位置。
**八、坦誠的局限性與未來方向**
SAD并非沒有缺點(diǎn),研究者在論文中做了坦誠的分析。Top-K候選名單基于傳播算法維護(hù),在極低預(yù)算、站點(diǎn)大幅移動(dòng)或大規(guī)模加密/修剪之后,名單可能一時(shí)失準(zhǔn),影響圖像質(zhì)量。渲染速度方面,緩存Top-K名單后的純渲染非常快(512?圖像僅0.015毫秒),但如果需要完整刷新候選名單(16次傳播),在2048?圖像上需要16毫秒,高分辨率下刷新代價(jià)較高。對(duì)于非常細(xì)密的隨機(jī)紋理(比如樹皮的細(xì)紋、沙粒的隨機(jī)分布),SAD可能需要更多站點(diǎn)才能精確還原,或者會(huì)出現(xiàn)輕微的過平滑現(xiàn)象。邊緣對(duì)齊是優(yōu)化的自然結(jié)果而非強(qiáng)制保證,在對(duì)比度弱的邊緣處有時(shí)表現(xiàn)不夠理想。
未來的研究方向包括:更智能的候選名單維護(hù)策略(比如多分辨率緩存、流式刷新調(diào)度);給每個(gè)站點(diǎn)配備更豐富的表示能力(比如本地的低階多項(xiàng)式顏色,而不是當(dāng)前的單一顏色);改進(jìn)距離度量本身(引入可學(xué)習(xí)的各向異性距離函數(shù));以及利用SAD的顯式鄰接結(jié)構(gòu)做熵編碼,進(jìn)一步提升壓縮率。更遠(yuǎn)期的方向則是把SAD擴(kuò)展到三維空間,用于體素表示或表面表示,以及作為圖像的結(jié)構(gòu)化分詞器,把圖像編碼為一組可解釋的顯式圖元,用于生成模型或多模態(tài)學(xué)習(xí)。
說到底,SAD做的事情,就是把一個(gè)在數(shù)學(xué)上已經(jīng)存在了一百多年的古老工具(Voronoi圖)重新改造,加上三個(gè)精心設(shè)計(jì)的新特性:有方向的橢圓形勢(shì)力范圍、可調(diào)節(jié)的影響半徑,以及可學(xué)習(xí)的"軟硬"溫度,然后配合一套高效的GPU工程實(shí)現(xiàn),讓整個(gè)系統(tǒng)能在幾秒鐘內(nèi)自動(dòng)優(yōu)化出高質(zhì)量的圖像表示。結(jié)果就是:圖像質(zhì)量比競(jìng)爭對(duì)手高幾個(gè)dB,同時(shí)訓(xùn)練速度快一個(gè)量級(jí)。這種質(zhì)量與效率的雙重提升,背后是算法設(shè)計(jì)和工程實(shí)現(xiàn)的協(xié)同優(yōu)化,而不是靠單一因素堆砌出來的。
對(duì)于普通人來說,這項(xiàng)研究最直接的意義是:未來你在手機(jī)上壓縮照片、在網(wǎng)頁上快速加載圖片、甚至在消費(fèi)級(jí)設(shè)備上運(yùn)行圖像編輯軟件時(shí),背后的算法可能就用到了類似SAD這樣的技術(shù),讓這些操作又快又好。在更遠(yuǎn)的將來,當(dāng)物理模擬、游戲渲染、醫(yī)療圖像處理等領(lǐng)域也普遍采用這類可微分表示時(shí),SAD所展示的"顯式站點(diǎn)+軟分區(qū)+GPU友好傳播"思路,有望成為其中一個(gè)重要的基礎(chǔ)模塊。
有興趣深入探究的讀者,可以通過arXiv編號(hào)2604.21984查閱完整論文,作者團(tuán)隊(duì)也在 luckyiyi.github.io/SAD 提供了配套代碼。
Q&A
Q1:SAD方法和普通的高斯?jié)姙R圖像壓縮有什么本質(zhì)區(qū)別?
A:高斯?jié)姙R用一堆橢圓形"氣泡"疊加來表達(dá)圖像,氣泡之間大量重疊,每個(gè)像素要把所有壓在自己身上的氣泡顏色疊加,不清楚誰真正負(fù)責(zé)這個(gè)像素,邊界處顏色混亂。SAD則用類似"勢(shì)力范圍地圖"的方式,每個(gè)站點(diǎn)只負(fù)責(zé)一塊明確的區(qū)域,邊界由可學(xué)習(xí)的溫度參數(shù)控制軟硬,不重疊、不模糊。這使得SAD能更精確地表達(dá)圖像邊緣,同時(shí)計(jì)算時(shí)每個(gè)像素只需要處理最近的8個(gè)站點(diǎn),效率遠(yuǎn)高于高斯?jié)姙R的全局掃描方式。
Q2:SAD訓(xùn)練速度為什么比Image-GS快那么多?
A:速度差距來自兩方面協(xié)同作用。一是SAD的計(jì)算量和站點(diǎn)總數(shù)無關(guān),每個(gè)像素只看最近8個(gè)站點(diǎn),計(jì)算量固定;Image-GS則要掃描每個(gè)像素上方所有重疊的高斯氣泡,站點(diǎn)多、重疊多時(shí)代價(jià)急劇上升。二是梯度計(jì)算時(shí),SAD用了分組哈希縮減技術(shù),把大量全局內(nèi)存競(jìng)爭轉(zhuǎn)化為局部共享內(nèi)存操作,顯卡并行效率大幅提升;Image-GS的反向傳播則充斥著大量原子寫操作沖突,嚴(yán)重制約了GPU利用率。
Q3:SAD的溫度參數(shù)τ具體是怎么影響圖像質(zhì)量的?
A:溫度τ控制每個(gè)站點(diǎn)邊界的軟硬程度。τ高時(shí),softmax權(quán)重集中到距離最近的那個(gè)站點(diǎn),邊界清晰銳利;τ低時(shí),權(quán)重分散到多個(gè)站點(diǎn),邊界柔軟模糊。關(guān)鍵是每個(gè)站點(diǎn)的τ獨(dú)立可學(xué)習(xí),因此位于圖像邊緣處的站點(diǎn)會(huì)自動(dòng)學(xué)到高τ(形成清晰分割),位于天空或墻面等平坦區(qū)域的站點(diǎn)會(huì)自動(dòng)學(xué)到低τ(形成平滑過渡)。實(shí)驗(yàn)中,僅引入可學(xué)習(xí)τ就能將圖像質(zhì)量從28.20 dB提升到30.50 dB,提升了2.30 dB。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.