網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

MIT聯(lián)手獨(dú)立研究者，用"地圖分區(qū)"思路讓圖像壓縮速度提升19倍

2026-05-08 20:07:43　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由麻省理工學(xué)院（MIT）與獨(dú)立研究者合作完成的研究，于2026年發(fā)表在計(jì)算機(jī)圖形學(xué)頂級(jí)會(huì)議ACM SIGGRAPH 2026的論文集中，會(huì)議定于2026年7月19日至23日在美國洛杉磯舉行。論文題為《Soft Anisotropic Diagrams for Differentiable Image Representation》，編號(hào)為arXiv:2604.21984，有興趣深入鉆研的讀者可通過該編號(hào)查詢完整原文。

**圖像存儲(chǔ)，其實(shí)是一道"壓縮藝術(shù)題"**

每當(dāng)你給朋友發(fā)送一張照片，或者在網(wǎng)頁上看到一張清晰的產(chǎn)品圖，背后都隱藏著一套極其復(fù)雜的"壓縮與還原"機(jī)制。照片本身的信息量是巨大的，存儲(chǔ)或傳輸時(shí)必須把它"壓縮"成緊湊的格式，使用時(shí)再"還原"出來。這道題的關(guān)鍵，不只是壓得有多小，還有還原出來有多像原圖，以及這個(gè)壓縮過程有多快。

在人工智能和計(jì)算機(jī)圖形學(xué)領(lǐng)域，研究者們一直在探索一種叫做"可微分圖像表示"的技術(shù)，通俗說就是：用一組可以被計(jì)算機(jī)自動(dòng)調(diào)整、自動(dòng)優(yōu)化的"參數(shù)"來表達(dá)一張圖像，而不是直接存儲(chǔ)每一個(gè)像素點(diǎn)的顏色。這就好像你不直接記錄一幅城市地圖里每條街道的顏色，而是記錄幾百個(gè)"標(biāo)志性地點(diǎn)"的位置和顏色，然后通過某種規(guī)則，讓這些標(biāo)志點(diǎn)"輻射"出它們周圍區(qū)域的顏色，最終拼出整張地圖。這種思路既省空間，又方便后續(xù)的圖像編輯、物理模擬等操作。

然而，現(xiàn)有的方法都有各自的痛點(diǎn)。一類方法叫做"隱式神經(jīng)網(wǎng)絡(luò)"，它把整張圖像塞進(jìn)一個(gè)神經(jīng)網(wǎng)絡(luò)的權(quán)重里，雖然靈活，但你沒法直接看出"哪部分參數(shù)負(fù)責(zé)圖像的哪個(gè)區(qū)域"，編輯起來非常麻煩。另一類方法叫做"高斯?jié)姙R"（Gaussian Splatting），它用一堆"橢圓形氣泡"覆蓋在圖像上，每個(gè)氣泡貢獻(xiàn)一點(diǎn)顏色，最終疊加出完整圖像——這就像用一堆半透明的彩色墨水氣泡噴在畫布上，氣泡之間大量重疊，邊界處顏色混亂，很難精確控制誰負(fù)責(zé)哪塊區(qū)域，剪枝和優(yōu)化也相當(dāng)費(fèi)力。

正是在這樣的背景下，MIT與獨(dú)立研究者聯(lián)手提出了一套全新方案，他們把它叫做**SAD**（Soft Anisotropic Diagrams，軟各向異性圖）。這個(gè)名字聽起來有些拗口，但核心思想其實(shí)可以用一個(gè)非常直觀的比喻來理解：把圖像的二維平面想象成一張城市地圖，在地圖上放置若干個(gè)"勢(shì)力范圍站點(diǎn)"，每個(gè)站點(diǎn)都有自己的影響力范圍和方向，整張地圖被這些站點(diǎn)劃分成一塊塊"勢(shì)力區(qū)域"，每塊區(qū)域的顏色由負(fù)責(zé)它的那個(gè)站點(diǎn)決定。這種劃分方式在數(shù)學(xué)上叫做"Voronoi圖"，而SAD對(duì)這個(gè)經(jīng)典概念做了大量升級(jí)，使其能夠被計(jì)算機(jī)自動(dòng)優(yōu)化，最終實(shí)現(xiàn)了比現(xiàn)有方法快4到19倍的訓(xùn)練速度，同時(shí)圖像質(zhì)量還更好。

**一、地圖分區(qū)的數(shù)學(xué)基礎(chǔ)：從Voronoi圖到Apollonius圖**

要理解SAD的核心，先要了解研究者借鑒的那個(gè)古老的數(shù)學(xué)工具——Voronoi圖（沃羅諾伊圖）。這個(gè)概念其實(shí)非常直觀。假設(shè)你在一片空地上放了若干個(gè)消防站，每個(gè)居民遇到火災(zāi)都去最近的那個(gè)消防站求救。按照"就近原則"，整片空地就被自然劃分成若干個(gè)區(qū)域，每個(gè)區(qū)域內(nèi)的居民都屬于同一個(gè)消防站的管轄范圍。這些區(qū)域的邊界線，就是Voronoi圖的分割線。

普通的Voronoi圖以純粹的直線距離來劃分，每個(gè)站點(diǎn)的"勢(shì)力范圍"是正六邊形或多邊形，非常規(guī)整。但現(xiàn)實(shí)世界的圖像可不是這么規(guī)整的——一只貓的輪廓是曲線，建筑物的邊緣可能是斜的，頭發(fā)絲兒是細(xì)長的。為了讓這些分區(qū)能夠適應(yīng)圖像的形狀，研究者引入了兩個(gè)關(guān)鍵改進(jìn)。

第一個(gè)改進(jìn)叫做"加權(quán)距離"，也叫Apollonius圖（阿波羅尼斯圖）。還是用消防站的比喻：普通情況下，消防站管轄的是距離它最近的區(qū)域。但加權(quán)版本允許每個(gè)消防站設(shè)定一個(gè)"影響半徑"——有的消防站設(shè)備精良，能管轄更大范圍，相當(dāng)于在距離基礎(chǔ)上減去一個(gè)"特權(quán)半徑"。這樣一來，強(qiáng)大的消防站可以把影響力延伸得更遠(yuǎn)，管轄更大的地盤。在SAD里，這個(gè)"影響半徑"就是每個(gè)站點(diǎn)（學(xué)術(shù)上叫"site"，本文統(tǒng)一稱"站點(diǎn)"）的參數(shù)r，它控制著這個(gè)站點(diǎn)的顏色能輻射多遠(yuǎn)。

第二個(gè)改進(jìn)叫做"各向異性"（anisotropy）。普通消防站的管轄范圍是一個(gè)圓，四面八方等距。但各向異性版本允許管轄范圍變成一個(gè)橢圓——某個(gè)方向延伸得長，垂直方向短一些。這非常重要：圖像里的很多特征都是有方向的，比如一根長直線條、一片橫向的天空、一塊斜向的紋理。如果站點(diǎn)的"影響橢圓"能自動(dòng)與這些特征對(duì)齊，就能用更少的站點(diǎn)覆蓋更多的圖像區(qū)域，效率大幅提升。

把這兩個(gè)改進(jìn)合在一起，SAD里每個(gè)站點(diǎn)的"分?jǐn)?shù)"計(jì)算方式就是：到該站點(diǎn)的橢圓化距離，再減去它的影響半徑。分?jǐn)?shù)越低，說明這個(gè)像素點(diǎn)越應(yīng)該歸屬于這個(gè)站點(diǎn)。

**二、"軟邊界"的奧秘：溫度參數(shù)如何化解優(yōu)化難題**

純粹的Voronoi分區(qū)是硬邊界——每個(gè)像素要么屬于A站點(diǎn)，要么屬于B站點(diǎn)，非此即彼，中間沒有過渡。這在數(shù)學(xué)上叫做"不可微"，意思是計(jì)算機(jī)在優(yōu)化參數(shù)時(shí)，沒有辦法計(jì)算"把A站點(diǎn)稍微挪一點(diǎn)，圖像質(zhì)量會(huì)怎么變化"，因?yàn)橐慌簿蜁?huì)出現(xiàn)像素突然跳到另一個(gè)站點(diǎn)的情況，梯度無法計(jì)算。

SAD的解決方案來自一個(gè)在機(jī)器學(xué)習(xí)里非常經(jīng)典的函數(shù)——softmax。簡單說，softmax可以把若干個(gè)數(shù)值轉(zhuǎn)換成一組加起來等于1的權(quán)重，每個(gè)權(quán)重代表"這個(gè)像素點(diǎn)有多少比例應(yīng)該歸屬于某個(gè)站點(diǎn)"。這樣一來，每個(gè)像素的顏色就不再是"只取最近站點(diǎn)的顏色"，而是"按照各站點(diǎn)的分?jǐn)?shù)，對(duì)所有候選站點(diǎn)的顏色做加權(quán)平均"。邊界處的像素可能70%歸屬A站點(diǎn)、30%歸屬B站點(diǎn)，因此顏色是兩者的混合，過渡非常平滑。

但這里有個(gè)關(guān)鍵問題：如果軟邊界太"軟"，圖像里所有的銳利邊緣都會(huì)變得模糊，質(zhì)量會(huì)很差。如果邊界太"硬"，又回到了不可微的問題，優(yōu)化就卡住了。SAD的聰明之處在于，給每個(gè)站點(diǎn)設(shè)置了一個(gè)獨(dú)立的"溫度參數(shù)"τ（希臘字母tau）。溫度高，這個(gè)站點(diǎn)的邊界就銳利清晰，就像冰一樣；溫度低，邊界就柔軟模糊，就像水一樣。更妙的是，每個(gè)站點(diǎn)的溫度可以獨(dú)立學(xué)習(xí)，自動(dòng)調(diào)整。

這意味著什么呢？位于圖像邊緣處的站點(diǎn)，優(yōu)化后會(huì)自動(dòng)學(xué)到很高的溫度，形成清晰的顏色分割；位于天空、墻面等平坦區(qū)域的站點(diǎn)，會(huì)自動(dòng)學(xué)到較低的溫度，形成柔和的過渡。整個(gè)系統(tǒng)在訓(xùn)練開始時(shí)用低溫度（軟邊界）保證梯度信息流通，隨著訓(xùn)練推進(jìn)逐漸在需要的地方自動(dòng)調(diào)高溫度，最終在邊緣處形成清晰的分割線，在平坦區(qū)域保持平滑過渡。實(shí)驗(yàn)證明，僅僅加入可學(xué)習(xí)的溫度參數(shù)，圖像質(zhì)量就能比固定溫度基準(zhǔn)提升2.30 dB PSNR（一種衡量圖像質(zhì)量的指標(biāo)，越高越好）。

**三、只看"最近的K個(gè)站點(diǎn)"：計(jì)算效率的核心秘密**

到目前為止，SAD的數(shù)學(xué)原理已經(jīng)很清晰了：一堆站點(diǎn)，每個(gè)站點(diǎn)有位置、顏色、影響半徑、橢圓方向和溫度，每個(gè)像素通過softmax對(duì)附近站點(diǎn)的顏色加權(quán)平均得到最終顏色。但這里有一個(gè)效率問題：如果圖像上有50000個(gè)站點(diǎn)，那么每個(gè)像素理論上要和所有50000個(gè)站點(diǎn)計(jì)算距離，然后做加權(quán)平均。一張照片有幾百萬個(gè)像素，50000×幾百萬次計(jì)算，速度簡直慢得令人絕望。

SAD的解決方案非常自然：每個(gè)像素其實(shí)只需要關(guān)注離它最近的K個(gè)站點(diǎn)，那些距離極遠(yuǎn)的站點(diǎn)對(duì)這個(gè)像素的顏色貢獻(xiàn)幾乎為零，根本不用管它們。研究者選擇K=8，也就是每個(gè)像素只和最近的8個(gè)候選站點(diǎn)打交道。這樣計(jì)算量從"50000×像素?cái)?shù)"直接降到"8×像素?cái)?shù)"，效率提升了幾千倍。

但隨之而來的新問題是：怎么快速找到每個(gè)像素的"最近8個(gè)站點(diǎn)"？這個(gè)問題本身就不簡單——如果站點(diǎn)的位置在不斷移動(dòng)和優(yōu)化，那每次都要重新搜索一遍，代價(jià)依然很高。

研究團(tuán)隊(duì)的解決方案叫做"Top-K傳播算法"，靈感來自一個(gè)叫做"跳躍洪水算法"（Jump Flooding Algorithm，JFA）的經(jīng)典圖形學(xué)工具。這個(gè)算法的思路可以用"流言擴(kuò)散"來理解：假設(shè)你要弄清楚城市里每棟樓離哪個(gè)地鐵站最近，你不需要讓每棟樓都跑遍全市。你可以讓每個(gè)地鐵站把自己的信息告訴相鄰樓棟，相鄰樓棟再把這條信息轉(zhuǎn)告更遠(yuǎn)的鄰居，就像流言一樣，一輪一輪地?cái)U(kuò)散出去。經(jīng)過幾輪擴(kuò)散后，全城每棟樓基本都知道自己離哪個(gè)地鐵站最近了。

SAD的Top-K傳播算法基于同樣的思路，但更聰明。它同時(shí)利用了三種機(jī)制：第一是"時(shí)間復(fù)用"，即上一輪迭代的候選名單通常變化不大，本輪可以直接繼承上一輪的結(jié)果作為出發(fā)點(diǎn)；第二是"空間傳播"，每個(gè)像素從自己和上下左右4個(gè)鄰居那里借用候選站點(diǎn)，合并之后保留最優(yōu)的K個(gè)；第三是"隨機(jī)注入"，每輪額外隨機(jī)撒入少量全局候選站點(diǎn)，防止出現(xiàn)某個(gè)站點(diǎn)移動(dòng)到新位置后長時(shí)間無法被任何像素"發(fā)現(xiàn)"的情況。

這三種機(jī)制配合，使得維護(hù)"每個(gè)像素最近K個(gè)站點(diǎn)"的名單，每輪只需要固定的、很小的計(jì)算量，完全不會(huì)隨著站點(diǎn)總數(shù)增加而變慢。實(shí)驗(yàn)表明，在1024×1024的圖像上，經(jīng)過12到16輪傳播后，96%以上的像素都能找到完全正確的Top-8候選名單，準(zhǔn)確率非常高。

**四、站點(diǎn)的"生與死"：自適應(yīng)預(yù)算控制機(jī)制**

SAD在優(yōu)化過程中還有一個(gè)動(dòng)態(tài)管理機(jī)制，負(fù)責(zé)決定在哪里增加站點(diǎn)（加密），在哪里刪除站點(diǎn)（修剪）。這個(gè)機(jī)制叫做"自適應(yīng)預(yù)算控制"，核心思想是：讓計(jì)算資源集中到最需要它的地方。

評(píng)價(jià)每個(gè)站點(diǎn)"需不需要被拆分"的標(biāo)準(zhǔn)，用一個(gè)打分公式來衡量：站點(diǎn)當(dāng)前負(fù)責(zé)的像素區(qū)域內(nèi)，殘差誤差（當(dāng)前顏色與目標(biāo)顏色之差）有多大，同時(shí)這個(gè)站點(diǎn)的"實(shí)際負(fù)責(zé)面積"有多小。一個(gè)站點(diǎn)如果負(fù)責(zé)的面積很小，但誤差卻很大，說明它所在的區(qū)域非常難以被準(zhǔn)確表達(dá)，需要更多站點(diǎn)來精細(xì)覆蓋。這樣的站點(diǎn)會(huì)被選中，分裂成兩個(gè)子站點(diǎn)。

分裂時(shí)，研究者會(huì)根據(jù)該站點(diǎn)覆蓋區(qū)域內(nèi)的殘差分布，計(jì)算出一個(gè)"主要方向"——誤差最集中、變化最劇烈的方向——然后把兩個(gè)子站點(diǎn)沿這個(gè)方向分開，分別去覆蓋原來區(qū)域的兩半。子站點(diǎn)的溫度參數(shù)、影響半徑都從父站點(diǎn)繼承并略微調(diào)整，顏色則重新從目標(biāo)圖像對(duì)應(yīng)位置取樣。

與此同時(shí)，那些貢獻(xiàn)極小、幾乎不影響圖像質(zhì)量的站點(diǎn)會(huì)被"修剪"掉。衡量"貢獻(xiàn)"的方式叫做"刪除差分"（removal delta）：假設(shè)把這個(gè)站點(diǎn)刪掉，剩下的K-1個(gè)站點(diǎn)重新歸一化權(quán)重后，圖像誤差會(huì)增加多少？增加越少，說明這個(gè)站點(diǎn)越可有可無，優(yōu)先刪除。

整個(gè)加密和修剪過程有嚴(yán)格的時(shí)間窗口和百分比控制，并且當(dāng)用戶指定目標(biāo)比特率（即最終壓縮到多小）時(shí)，系統(tǒng)會(huì)自動(dòng)調(diào)整加密和修剪的力度，確保訓(xùn)練結(jié)束時(shí)站點(diǎn)數(shù)量恰好符合目標(biāo)。SAD的訓(xùn)練從一個(gè)較大的初始站點(diǎn)數(shù)（如128,000個(gè)）出發(fā)，通過不斷修剪和少量加密，最終收斂到目標(biāo)數(shù)量（如25,000個(gè)）。

**五、GPU上的"流水線"：讓一切都在顯卡里飛奔**

光有好的算法還不夠，工程實(shí)現(xiàn)的質(zhì)量直接決定速度。SAD的整個(gè)訓(xùn)練和渲染流程完全在GPU內(nèi)部運(yùn)行，研究者手工編寫了Metal（蘋果芯片用）、CUDA（英偉達(dá)顯卡用）和WebGPU（瀏覽器用）三套底層代碼，不依賴任何自動(dòng)微分框架，徹底消除了CPU和GPU之間來回傳輸數(shù)據(jù)的等待時(shí)間。

梯度計(jì)算也做了專門優(yōu)化。樸素的做法是：對(duì)圖像里每個(gè)像素，計(jì)算梯度之后，把結(jié)果"原子寫入"到各個(gè)站點(diǎn)的梯度緩沖區(qū)。但當(dāng)很多像素同時(shí)要更新同一個(gè)站點(diǎn)的梯度時(shí)，就會(huì)發(fā)生"擁堵"——大量寫操作互相等待，顯卡的并行計(jì)算能力被浪費(fèi)。SAD改用了一種"分組哈希縮減"的方式：把圖像分成很多16×16的小塊，同一個(gè)小塊里的像素先在本地的共享內(nèi)存里完成梯度的匯總，只有最終結(jié)果才寫到全局內(nèi)存，全局寫操作的次數(shù)從"像素?cái)?shù)×K"降到了"小塊數(shù)×站點(diǎn)數(shù)"，競(jìng)爭大幅減少。

站點(diǎn)的存儲(chǔ)也做了精心設(shè)計(jì)。用于訓(xùn)練的站點(diǎn)保存為完整精度的32位浮點(diǎn)數(shù)，共10個(gè)參數(shù)（x坐標(biāo)、y坐標(biāo)、溫度、半徑、RGB三個(gè)顏色通道、各向異性方向x分量、y分量，以及各向異性縮放參數(shù)）。用于最終渲染的站點(diǎn)則壓縮打包成每個(gè)16字節(jié)的格式：坐標(biāo)用15位定點(diǎn)數(shù)表示，顏色用11/11/10位分別表示RGB，溫度和半徑用16位存儲(chǔ)，各向異性方向用16位角度編碼，各向異性縮放用float16存儲(chǔ)。整個(gè)壓縮包在不影響圖像質(zhì)量的前提下，大幅減少了內(nèi)存帶寬消耗，這也是高分辨率下速度依然很快的重要原因。

**六、實(shí)驗(yàn)結(jié)果：數(shù)字背后的真實(shí)差距**

研究者在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上與主流方法做了詳細(xì)對(duì)比。主要的競(jìng)爭對(duì)手是Image-GS（一種基于2D高斯?jié)姙R的圖像表示方法，發(fā)表于ACM SIGGRAPH 2025）和Instant-NGP（基于多分辨率哈希網(wǎng)格的神經(jīng)圖形基元方法，發(fā)表于ACM Trans. Graph. 2022），以及其他幾個(gè)相關(guān)方法。

在Kodak數(shù)據(jù)集（24張經(jīng)典測(cè)試圖片，分辨率768×512）上，使用50000個(gè)站點(diǎn)（約16 BPP的參數(shù)預(yù)算），SAD達(dá)到了46.00 dB PSNR、0.9871 SSIM、0.0032 LPIPS，訓(xùn)練時(shí)間僅2.2秒。相比之下，Image-GS在同等協(xié)議下得到36.90 dB，訓(xùn)練時(shí)間28秒；Instant-NGP得到37.72 dB，訓(xùn)練時(shí)間8.2秒。另一個(gè)近期方法Fast 2DGS在同等站點(diǎn)數(shù)下得到43.13 dB，訓(xùn)練時(shí)間10秒。SAD在質(zhì)量上領(lǐng)先最近的競(jìng)爭對(duì)手超過2.87 dB，同時(shí)速度快4.5倍以上。

在Image-GS提供的專屬基準(zhǔn)測(cè)試數(shù)據(jù)集（45張圖片）上，不同壓縮率下，SAD的優(yōu)勢(shì)一以貫之：0.5 BPP時(shí)達(dá)到37.86 dB，而Image-GS僅有34.57 dB，Instant-NGP更是只有30.69 dB。在DIV2K驗(yàn)證集（100張高分辨率圖片）上，2.0 BPP時(shí)SAD達(dá)到34.73 dB，超過Image-GS的32.15 dB和Instant-NGP的29.24 dB。在CLIC驗(yàn)證集（41張圖片）上，2.0 BPP時(shí)SAD達(dá)到36.13 dB，同樣大幅領(lǐng)先對(duì)手。

訓(xùn)練速度方面，研究者專門做了一組控制實(shí)驗(yàn)，在512?到2048?共5種分辨率下，以"每遍歷完整圖像一次的時(shí)間"為單位進(jìn)行比較，在NVIDIA RTX 5090顯卡上測(cè)試。SAD在所有分辨率下都是最快的，比Instant-NGP快1.75到3.36倍，比Image-GS快4.08到15.10倍。在2048×2048的圖像上，SAD處理一輪只需3.6毫秒，而Instant-NGP需要12.1毫秒，Image-GS需要14.7毫秒。

研究者還分析了訓(xùn)練迭代次數(shù)與圖像質(zhì)量的關(guān)系。大體規(guī)律是：訓(xùn)練2000次迭代就能達(dá)到最終質(zhì)量的97%以上，4000次迭代基本到達(dá)峰值，再往后質(zhì)量略有下降（這不是過擬合，而是由固定預(yù)算約束導(dǎo)致的調(diào)度效應(yīng)）。這意味著對(duì)于需要快速處理大量圖像的場(chǎng)景，可以在幾秒鐘內(nèi)得到非常好的結(jié)果。

對(duì)每個(gè)可學(xué)習(xí)參數(shù)的貢獻(xiàn)，研究者也做了詳細(xì)的消融實(shí)驗(yàn)：固定溫度基準(zhǔn)（固定log τ=7.5）PSNR為28.20 dB；加入可學(xué)習(xí)溫度后提升到30.50 dB，增加了2.30 dB；在此基礎(chǔ)上加入可學(xué)習(xí)半徑，提升到31.76 dB，再增加1.26 dB；加入各向異性后達(dá)到34.77 dB，相對(duì)于只有可學(xué)習(xí)溫度增加了4.27 dB；三者都啟用的完整SAD模型達(dá)到35.35 dB，比固定溫度基準(zhǔn)整整高出7.15 dB。其中各向異性的貢獻(xiàn)最大，說明讓橢圓形的"勢(shì)力范圍"與圖像內(nèi)容的方向自動(dòng)對(duì)齊，是SAD超越各向同性方法的核心原因。

**七、不只是壓圖：SAD的兩個(gè)額外應(yīng)用**

研究者還展示了SAD超越純粹圖像壓縮的兩個(gè)應(yīng)用場(chǎng)景，證明這套框架的通用性。

第一個(gè)應(yīng)用是微分方程求解。物理學(xué)里有很多現(xiàn)象（熱傳導(dǎo)、電場(chǎng)分布、流體流動(dòng)等）可以用偏微分方程（PDE）來描述，求解這些方程就是找出滿足方程條件的函數(shù)。研究者用SAD來求解一個(gè)二維泊松方程——在一個(gè)"笑臉"形狀的不規(guī)則區(qū)域內(nèi)（512×512分辨率），指定邊界處函數(shù)值為0，內(nèi)部有一個(gè)均勻的源項(xiàng)，求滿足這些條件的函數(shù)分布。SAD的優(yōu)勢(shì)在于，它的站點(diǎn)結(jié)構(gòu)是顯式的——研究者直接把邊界上的站點(diǎn)凍結(jié)（不參與梯度更新），就輕松實(shí)現(xiàn)了嚴(yán)格的Dirichlet邊界條件，這在隱式神經(jīng)網(wǎng)絡(luò)里是非常困難的操作，通常需要額外的懲罰項(xiàng)或特殊的網(wǎng)絡(luò)設(shè)計(jì)。經(jīng)過1000到2000步梯度下降，誤差就收斂到了1e-6以下（機(jī)器精度級(jí)別），學(xué)習(xí)到的站點(diǎn)分布自動(dòng)聚集在邊界和高曲率區(qū)域附近，展現(xiàn)出內(nèi)容自適應(yīng)的特性。

第二個(gè)應(yīng)用是一維信號(hào)擬合，這個(gè)實(shí)驗(yàn)主要用來展示SAD的溫度參數(shù)如何應(yīng)對(duì)不連續(xù)點(diǎn)（信號(hào)里的突變）。研究者用三種信號(hào)做了對(duì)比：一是純正弦波（光滑信號(hào)），二是階躍函數(shù)加正弦波（有突變），三是多頻率混合信號(hào)。對(duì)比對(duì)象是高斯?jié)姙R（64個(gè)splats，256個(gè)參數(shù)）和SIREN（小型正弦激活神經(jīng)網(wǎng)絡(luò)，321個(gè)參數(shù)）。結(jié)果是：高斯?jié)姙R非常擅長光滑信號(hào)（79.6 dB），但在階躍函數(shù)處因?yàn)楣潭ㄐ螤畹母咚购藷o法精確表達(dá)突變，質(zhì)量降到47.3 dB；SIREN擅長連續(xù)變化，但在不連續(xù)點(diǎn)附近會(huì)出現(xiàn)類似"振鈴效應(yīng)"的波動(dòng)（43.1 dB）；SAD在階躍函數(shù)上達(dá)到57.2 dB，多頻率信號(hào)上達(dá)到42.0 dB，兩項(xiàng)都領(lǐng)先，原因正是溫度參數(shù)可以在突變處自動(dòng)調(diào)高，讓分區(qū)邊界精確對(duì)準(zhǔn)信號(hào)的跳變位置。

**八、坦誠的局限性與未來方向**

SAD并非沒有缺點(diǎn)，研究者在論文中做了坦誠的分析。Top-K候選名單基于傳播算法維護(hù)，在極低預(yù)算、站點(diǎn)大幅移動(dòng)或大規(guī)模加密/修剪之后，名單可能一時(shí)失準(zhǔn)，影響圖像質(zhì)量。渲染速度方面，緩存Top-K名單后的純渲染非常快（512?圖像僅0.015毫秒），但如果需要完整刷新候選名單（16次傳播），在2048?圖像上需要16毫秒，高分辨率下刷新代價(jià)較高。對(duì)于非常細(xì)密的隨機(jī)紋理（比如樹皮的細(xì)紋、沙粒的隨機(jī)分布），SAD可能需要更多站點(diǎn)才能精確還原，或者會(huì)出現(xiàn)輕微的過平滑現(xiàn)象。邊緣對(duì)齊是優(yōu)化的自然結(jié)果而非強(qiáng)制保證，在對(duì)比度弱的邊緣處有時(shí)表現(xiàn)不夠理想。

未來的研究方向包括：更智能的候選名單維護(hù)策略（比如多分辨率緩存、流式刷新調(diào)度）；給每個(gè)站點(diǎn)配備更豐富的表示能力（比如本地的低階多項(xiàng)式顏色，而不是當(dāng)前的單一顏色）；改進(jìn)距離度量本身（引入可學(xué)習(xí)的各向異性距離函數(shù)）；以及利用SAD的顯式鄰接結(jié)構(gòu)做熵編碼，進(jìn)一步提升壓縮率。更遠(yuǎn)期的方向則是把SAD擴(kuò)展到三維空間，用于體素表示或表面表示，以及作為圖像的結(jié)構(gòu)化分詞器，把圖像編碼為一組可解釋的顯式圖元，用于生成模型或多模態(tài)學(xué)習(xí)。

說到底，SAD做的事情，就是把一個(gè)在數(shù)學(xué)上已經(jīng)存在了一百多年的古老工具（Voronoi圖）重新改造，加上三個(gè)精心設(shè)計(jì)的新特性：有方向的橢圓形勢(shì)力范圍、可調(diào)節(jié)的影響半徑，以及可學(xué)習(xí)的"軟硬"溫度，然后配合一套高效的GPU工程實(shí)現(xiàn)，讓整個(gè)系統(tǒng)能在幾秒鐘內(nèi)自動(dòng)優(yōu)化出高質(zhì)量的圖像表示。結(jié)果就是：圖像質(zhì)量比競(jìng)爭對(duì)手高幾個(gè)dB，同時(shí)訓(xùn)練速度快一個(gè)量級(jí)。這種質(zhì)量與效率的雙重提升，背后是算法設(shè)計(jì)和工程實(shí)現(xiàn)的協(xié)同優(yōu)化，而不是靠單一因素堆砌出來的。

對(duì)于普通人來說，這項(xiàng)研究最直接的意義是：未來你在手機(jī)上壓縮照片、在網(wǎng)頁上快速加載圖片、甚至在消費(fèi)級(jí)設(shè)備上運(yùn)行圖像編輯軟件時(shí)，背后的算法可能就用到了類似SAD這樣的技術(shù)，讓這些操作又快又好。在更遠(yuǎn)的將來，當(dāng)物理模擬、游戲渲染、醫(yī)療圖像處理等領(lǐng)域也普遍采用這類可微分表示時(shí)，SAD所展示的"顯式站點(diǎn)+軟分區(qū)+GPU友好傳播"思路，有望成為其中一個(gè)重要的基礎(chǔ)模塊。

有興趣深入探究的讀者，可以通過arXiv編號(hào)2604.21984查閱完整論文，作者團(tuán)隊(duì)也在 luckyiyi.github.io/SAD 提供了配套代碼。

Q&A

Q1：SAD方法和普通的高斯?jié)姙R圖像壓縮有什么本質(zhì)區(qū)別？

A：高斯?jié)姙R用一堆橢圓形"氣泡"疊加來表達(dá)圖像，氣泡之間大量重疊，每個(gè)像素要把所有壓在自己身上的氣泡顏色疊加，不清楚誰真正負(fù)責(zé)這個(gè)像素，邊界處顏色混亂。SAD則用類似"勢(shì)力范圍地圖"的方式，每個(gè)站點(diǎn)只負(fù)責(zé)一塊明確的區(qū)域，邊界由可學(xué)習(xí)的溫度參數(shù)控制軟硬，不重疊、不模糊。這使得SAD能更精確地表達(dá)圖像邊緣，同時(shí)計(jì)算時(shí)每個(gè)像素只需要處理最近的8個(gè)站點(diǎn)，效率遠(yuǎn)高于高斯?jié)姙R的全局掃描方式。

Q2：SAD訓(xùn)練速度為什么比Image-GS快那么多？

A：速度差距來自兩方面協(xié)同作用。一是SAD的計(jì)算量和站點(diǎn)總數(shù)無關(guān)，每個(gè)像素只看最近8個(gè)站點(diǎn)，計(jì)算量固定；Image-GS則要掃描每個(gè)像素上方所有重疊的高斯氣泡，站點(diǎn)多、重疊多時(shí)代價(jià)急劇上升。二是梯度計(jì)算時(shí)，SAD用了分組哈希縮減技術(shù)，把大量全局內(nèi)存競(jìng)爭轉(zhuǎn)化為局部共享內(nèi)存操作，顯卡并行效率大幅提升；Image-GS的反向傳播則充斥著大量原子寫操作沖突，嚴(yán)重制約了GPU利用率。

Q3：SAD的溫度參數(shù)τ具體是怎么影響圖像質(zhì)量的？

A：溫度τ控制每個(gè)站點(diǎn)邊界的軟硬程度。τ高時(shí)，softmax權(quán)重集中到距離最近的那個(gè)站點(diǎn)，邊界清晰銳利；τ低時(shí)，權(quán)重分散到多個(gè)站點(diǎn)，邊界柔軟模糊。關(guān)鍵是每個(gè)站點(diǎn)的τ獨(dú)立可學(xué)習(xí)，因此位于圖像邊緣處的站點(diǎn)會(huì)自動(dòng)學(xué)到高τ（形成清晰分割），位于天空或墻面等平坦區(qū)域的站點(diǎn)會(huì)自動(dòng)學(xué)到低τ（形成平滑過渡）。實(shí)驗(yàn)中，僅引入可學(xué)習(xí)τ就能將圖像質(zhì)量從28.20 dB提升到30.50 dB，提升了2.30 dB。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.