IT之家5月27日消息,英偉達團隊最新發(fā)布圖像生成技術 PiD,在消費級單張 RTX 5090顯卡上,能在1秒內(nèi)將512×512圖像潛變量直接解碼并放大到2048×2048像素,峰值顯存為13 GB。
![]()
英偉達發(fā)布PiD圖像生成技術
根據(jù)博文介紹,高分辨率文本生成圖像過程中,通常先在潛在空間生成,再由解碼器恢復成清晰圖像。
潛在空間指模型把原始圖像壓縮后得到的數(shù)值表示空間,保留主體結構、語義關系等關鍵信息,卻省去大量像素級細節(jié),因此計算成本更低。
這種路線計算效率高,但傳統(tǒng)解碼器主要負責還原編碼器輸出,擅長“復原”,不擅長主動補出高分辨率細節(jié),面對百萬像素級圖像時,速度與質量都存在明顯瓶頸。
英偉達提出的 PiD,完整名稱為 Pixel Diffusion Decoder(像素擴散解碼器)。這項方法把潛在解碼重新定義為條件式像素擴散,并把解碼與上采樣合并到同一個生成模塊中,因此能在輸出階段補足紋理、結構和局部細節(jié)。
IT之家注:條件式像素擴散是一種在像素空間中逐步生成圖像的方法,但它不是無條件生成,主要通過參考額外輸入來約束結果。
PiD 基于 PixelDiT 構建,并加入輕量級 ControlNet 風格適配器。這個適配器會把含噪的潛在表示注入模型,再通過與西格瑪相關的門控機制,按噪聲強弱動態(tài)調(diào)整對潛在表示的信任程度。
為了繼續(xù)壓低延遲,團隊還采用 DMD2蒸餾,把推理步數(shù)壓縮到4步。配合早停機制,PiD 兼顧了速度與輸出質量。
它不僅適用于傳統(tǒng) VAE(變分自編碼器)潛變量,也兼容近期 RAE 路線常用的語義潛變量,比如 SigLIP 和 DINOv2,這讓它具備較強的通用性。
從公開數(shù)據(jù)看,PiD 可把512×512圖像潛變量直接解碼并放大到2048×2048像素。在消費級 RTX 5090上,峰值顯存為13 GB,耗時不足1秒;在 GB200 GPU 上,最快可達210 ms。
![]()
![]()
英偉達團隊最新發(fā)布圖像生成技術 PiD
對比級聯(lián)式擴散超分方案,PiD 端到端延遲最多快5.9×,文中也概括為約6×,同時視覺保真度更好。
IT之家附上參考地址
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.