ComfyUI v0.21.0 更新解讀：視頻音頻同步加載、PyAV 圖像引擎切換、動態(tài)顯存優(yōu)化、云端與工作流能力全面升級

2026-05-13 00:12:29　來源: moonfdd

北京舉報

分享至

一、ComfyUI v0.21.0 正式發(fā)布

ComfyUI v0.21.0 已于 2026 年 5 月 11 日發(fā)布。本次版本更新量非常大，涵蓋了視頻處理、圖像加載、顯存優(yōu)化、模型支持、節(jié)點修復、API 規(guī)范、工作流模板、云端運行能力、合作節(jié)點、前端包升級等多個方向。

整體來看，這一版本的關鍵詞可以概括為：

?視頻能力增強
?PyAV 圖像/視頻加載全面切換
?顯存與內(nèi)存優(yōu)化
?節(jié)點穩(wěn)定性與兼容性修復
?模型支持持續(xù)擴展
?云端與 API 能力補強
?工作流模板與前端持續(xù)演進

對于正在使用 ComfyUI 的用戶來說，這個版本不僅是一次功能更新，更是一次底層能力的系統(tǒng)升級。尤其是視頻相關節(jié)點、圖片加載方式、顯存管理和 API 結(jié)構(gòu)方面，變化非常明顯。

二、核心更新一覽

本次更新內(nèi)容非常豐富，以下按主題進行整理。

1. 視頻與音頻處理增強

本版本最值得關注的變化之一，是在視頻 loader 節(jié)點中實現(xiàn)了音頻與視頻同時讀取。這意味著在處理多媒體輸入時，ComfyUI 的能力更完整，不再只局限于視頻幀本身。

同時，圍繞 PyAV 的加載方式，官方還做了多項增強：

? 處理元數(shù)據(jù)旋轉(zhuǎn)信息
? 支持 tRNS PNG
? 使用 PyAV 加載圖片而不是 Pillow
? 降低 8 位格式的峰值內(nèi)存占用
? 改進 JPEG 其他格式的加載內(nèi)存表現(xiàn)
? 修復與音頻 latents 相關的解碼問題
? 讓視頻 tiny VAE 的峰值顯存更低、解碼更快
? 增強對時間維度和視頻生成流程的支持

這些變化說明 ComfyUI 正在持續(xù)向更高效、更統(tǒng)一的多媒體處理體系靠攏。

2. 顯存、內(nèi)存和性能優(yōu)化

動態(tài)顯存與緩存相關優(yōu)化也是本版本的重要內(nèi)容。

更新中包括：

? dynamicVRAM + --cache-ram 2
? AMD portable 增加動態(tài)顯存啟動腳本
? 優(yōu)化動態(tài)顯存準備日志
? 預取邏輯在無 offload 情況下的保護
? 為 frame interpolation 修正內(nèi)存估算
? 為 LTX 相關流程實施 block prefetch、Lora Async load 等速度優(yōu)化
? 讓某些模型權(quán)重在多次計算時更好地處理
? 修復固有的 device mismatch 問題
? 修復多設備、多通道、不同圖像格式下的內(nèi)存行為

這些改進對于顯存較緊張、使用大模型、視頻模型或復雜工作流的用戶非常關鍵。

3. 模型支持繼續(xù)擴展

v0.21.0 對模型支持進行了大量擴展，包括但不限于：

? Comfy-AIMDO v0.3.0
? Cogvideox
? Gemma4 文本生成支持
? Auto-regressive video generation
? Void model 的進一步支持
? 支持 BiRefNet 背景去除模型
? 支持 Wan-Dancer
? 支持 LTX-2.x 生成的音頻 latents
? 支持 Causal forcing model 的 I2V
? 支持 More model families and partner nodes integrations

與此同時，還新增了一系列合作節(jié)點模型，例如：

? GPTImage2 自定義分辨率
? ByteDance 虛擬人像庫
? Topaz Astra 2
? Luma UNI-1
? Gpt 5.5 和 5.5-pro
? grok-imagine-image-quality
? NanoBanana2
? Tripo3D 3.1
? Kling V3 motion control 價格徽標修復
? 針對 SD2 的 adaptive aspect ratio
? 以及其他合作節(jié)點模型擴展

這表明 ComfyUI 在“圖像生成 + 視頻生成 + 文本模型 + 3D 模型 + 商業(yè) API 模型”上都在持續(xù)擴張。

4. 節(jié)點修復與兼容性增強

本版本對很多節(jié)點做了修復，涉及圖像處理、掩碼處理、批量處理、裁剪、顏色轉(zhuǎn)換、文本節(jié)點、圖層、tile 操作等。

比如：

? SolidMask 和 MaskComposite 在 gpu-only 模式下設備不一致的問題
? ImageBlend 和 ImageCompositeMasked 對不同通道數(shù)圖像的處理問題
? JoinImageWithAlpha 的 batch broadcasting
? LoadImageMask 重構(gòu)為復用 LoadImage 代碼
? ColorTransfer 節(jié)點的參考圖像要求修復
? SplitImageToTileList 與 ImageMergeTileList 的垂直 stride 最小值修復
? Content-Disposition 頭處理
? get_file_info 返回毫秒級時間戳
? NodeReplaceManager 注冊冪等性
? mask 不在同一設備時的錯誤
? LTXVAddGuide 中 guide image 的 center-crop 行為
? LTXVImgToVideoInplace 不再錯誤修改輸入 latents 并丟失 noise_mask

這些修復內(nèi)容雖然分散，但對實際使用體驗提升非常明顯。

三、按模塊詳細解讀更新內(nèi)容

下面逐項展開說明，方便你在文章中體現(xiàn)“全面、專業(yè)、信息密度高”的特點。

1）視頻 loader 節(jié)點同時讀取音頻和視頻

本次更新中，視頻 loader 節(jié)點增加了同時讀取音頻和視頻的能力。
這意味著在處理視頻素材時，音畫信息可以被更完整地保留和利用，對后續(xù)多模態(tài)工作流有直接幫助。

2）處理未初始化 meta-tensors 的問題

修復了模型中未初始化 meta-tensors 的處理問題，這也修復了某些 CPU TE 崩潰情況。
這類底層修復雖然不顯眼，但對于穩(wěn)定性非常重要。

3）保存 3D 模型節(jié)點的文件名前綴調(diào)整

保存 3D 模型的節(jié)點，其文件名前綴改為3d/ComfyUI。
這一變化有助于統(tǒng)一管理導出資源。

4）SolidMask 和 MaskComposite 的設備不一致修復

在--gpu-only場景下，SolidMask 和 MaskComposite 可能存在設備不一致問題，本次已修復。
對于嚴格顯存或單 GPU 運行場景，這類問題很關鍵。

5）處理 metadata rotation

PyAV 代碼中增加了對元數(shù)據(jù)旋轉(zhuǎn)信息的處理。
這對圖像和視頻的方向識別非常重要，尤其是來自不同設備或平臺的媒體文件。

6）PyAV 加載代碼支持 tRNS PNG

tRNS PNG 是一種帶透明度信息的 PNG 形式，本次更新讓加載代碼可以正確處理。
這進一步提升了圖片兼容性。

7）改用 PyAV 加載圖片

官方將圖片加載邏輯從 Pillow 切換為 PyAV。
這是一個非常重要的底層變化，意味著圖像、視頻和其他多媒體資源的處理邏輯更加統(tǒng)一。

8）dynamicVRAM 與 --cache-ram 2

顯存管理邏輯進一步增強，特別是在動態(tài)顯存配合緩存 RAM 的場景下進行了適配。
這對低顯存設備和復雜工作流特別有幫助。

9）減少視頻 tiny VAE 的峰值顯存和解碼時間

視頻 tiny VAE 的峰值顯存更低，解碼速度更快。
對視頻生成和視頻解碼工作流來說，這是直接可感知的優(yōu)化。

10）Cogvideox 支持

新增了 Cogvideox 相關支持，進一步擴展視頻生成能力。

11）Flux2 latents 高質(zhì)量預覽支持

Flux2 latents 增加了高質(zhì)量預覽支持。
這對于查看中間結(jié)果、調(diào)試流程非常有價值。

12）8 bit 格式低峰值內(nèi)存優(yōu)化

在 PyAV 的支持下，8 位格式的加載峰值內(nèi)存得到了降低。
對于大批量圖片和視頻輸入來說，能夠顯著緩解內(nèi)存壓力。

13）SQLAlchemy 版本格式修正

修復了 requirements.txt 中 SQLAlchemy 版本格式問題。
屬于依賴管理層面的修正。

14）GPTImage2 支持自定義分辨率

合作節(jié)點中，GPTImage2 現(xiàn)在支持自定義分辨率，同時還能始終顯示自定義寬高。
這使得生成參數(shù)更直觀。

15）ByteDance 虛擬人像庫

增加了適用于普通圖像的虛擬人像庫能力。
屬于合作節(jié)點擴展。

16）JPEG 其他格式低內(nèi)存加載

進一步優(yōu)化 JPEG 其他格式的加載方式，減少內(nèi)存占用。

17）OneTrainer ERNIE LoRA 支持

新增 OneTrainer 對 ERNIE LoRA 的支持。
對訓練生態(tài)是補充。

18）工作流模板升級

工作流模板持續(xù)更新到多個版本，包括：

? v0.9.65
? v0.9.66
? v0.9.68
? v0.9.69
? v0.9.72
? v0.9.73

這說明模板體系在持續(xù)演進，用戶可以直接受益于新模板結(jié)構(gòu)。

19）代碼所有者更新

更新了多個代碼所有者配置。
屬于維護性內(nèi)容。

20）Moonvalley API 節(jié)點移除

API 節(jié)點中移除了 Moonvalley 相關內(nèi)容。
屬于接口整理。

21）伙伴 API 節(jié)點超時默認值提升

合作節(jié)點 API 任務默認超時時間提升，減少超時失敗概率。

22）移除 IPEX 支持

Intel Extension for Pytorch 支持被移除。
這對相關環(huán)境的用戶是重要變更。

23）SDPose resize 修復

SDPose 的 resize 邏輯修復，增強圖像姿態(tài)節(jié)點穩(wěn)定性。

24）README 與文檔更新

README 做了多項更新，包括：

? 更新說明
? 更新截圖
? 列出全部 portable 下載項
? 更新 frontend 安裝警告文案
? 文檔中說明核心穩(wěn)定版本發(fā)布頻率約為兩周一次

這些改動有助于新用戶快速理解項目現(xiàn)狀。

25）加載圖像節(jié)點清理與重構(gòu)

load image節(jié)點進行了清理；LoadImageMask也重構(gòu)為復用LoadImage代碼。
這類改動能減少重復邏輯并提升維護性。

26）PrimitiveInt 默認控件行為修正

control_after_generatewidget 默認改為 fixed。
屬于交互體驗優(yōu)化。

27）ColorTransfer 節(jié)點修復

ColorTransfer 節(jié)點的ref_image現(xiàn)在必須提供。
這讓節(jié)點行為更明確。

28）端口占用錯誤處理修復

啟動服務時如果端口被占用，現(xiàn)可更優(yōu)雅地處理。
這對開發(fā)者非常實用。

29）JoinImageWithAlpha 批處理廣播支持

該節(jié)點加入 batch broadcasting，提升批處理兼容性。

30）triton comfy kitchen 命令行支持

支持通過 CLI 參數(shù)啟用 triton comfy kitchen。

31）控制網(wǎng)加載順序確定化

control-net 的加載順序變得確定。
這有助于結(jié)果可復現(xiàn)。

32）同一權(quán)重多次計算處理

修復了相同權(quán)重多次計算時的處理問題。

33）顯示名稱與分類調(diào)整

多個節(jié)點的 display names 和 categories 被更新。
這類調(diào)整通常影響前端展示和分類組織。

34）OpenAPI 與 spec 擴展

規(guī)范層面增加了很多內(nèi)容：

? DeviceStats.index 與 NodeInfo.essentials_category 改為可空
? PromptRequest 增加 workflow_id / workflow_version_id
? 伙伴節(jié)點 API 調(diào)用增加 Comfy-Env 頭
? cloud-runtime 的前端操作加入規(guī)范
? cloud-runtime 實驗節(jié)點 schema endpoints 加入規(guī)范
? cloud-specific 字段在 OSS openapi.yaml 中設為 nullable
? MultiCombo multi_select 序列化修正
? Content-Disposition 相關問題處理
? 為 openapi.yaml 增加 Spectral lint CI gate

這些內(nèi)容說明 API 規(guī)范化正在加強。

35）核心版本節(jié)奏說明

文檔明確指出核心穩(wěn)定版本發(fā)布頻率約為兩周一次。
這對使用者和集成者來說，是一個重要的信息。

36）自動回歸視頻生成支持

新增 Auto-regressive video generation 支持，擴展視頻生成路線。

37）tile 相關節(jié)點 stride 修復

SplitImageToTileList 和 ImageMergeTileList 的垂直 stride 最小值修復，保證切塊處理正確。

38）Luma UNI-1、Gpt 5.5、Gpt 5.5-pro、grok-imagine-image-quality 等合作模型

合作節(jié)點繼續(xù)擴展到更多模型和能力。

39）背景去除模型支持

新增 BiRefNet 背景移除模型支持。

40）LTXV 系列修復

包括：

? guide image 的居中裁剪
? 不再錯誤修改輸入 latents
? 不再丟失 noise_mask

這些修復對視頻和 latent 流程很關鍵。

41）mask 設備一致性修復

解決 mask 不在同一設備上的問題。

42）Blueprint 子圖描述字段

增加了 blueprint subgraphs 的 description 字段。
增強藍圖可讀性。

43）Wan-Dancer 支持

新增 Wan-Dancer 支持。

44）LatentCutToBatch 替換

有處流程改用了LatentCutToBatch。

45）Math Expression 節(jié)點支持布爾值

數(shù)學表達式節(jié)點增加 Boolean 支持。

46）新藍圖加入

加入新的 blueprints。
屬于工作流資源補充。

四、這次更新適合誰關注

如果你是以下幾類用戶，這次更新都值得重點看：

?視頻生成用戶：音頻+視頻同步讀取、Auto-regressive video generation、Cogvideox、LTX、WAN 相關變化都很重要。
?低顯存用戶：dynamicVRAM、cache-ram、tiny VAE 優(yōu)化、8bit 內(nèi)存優(yōu)化都很有價值。
?工作流開發(fā)者：API spec、節(jié)點分類、display name、藍圖字段、模板升級等都影響實際開發(fā)。
?合作節(jié)點使用者：GPTImage2、Topaz Astra 2、Luma UNI-1、Tripo3D 3.1、Gpt 5.5 系列等更新頻繁。
?圖像與掩碼處理用戶：圖像通道處理、alpha 合并、mask 修復、LoadImage 重構(gòu)會直接影響結(jié)果。
?部署與運維人員：端口占用處理、前端安裝提示、portable 下載說明、環(huán)境頭、超時設置等都很重要。

五、總結(jié)

代碼地址：github.com/Comfy-Org/ComfyUI

ComfyUI v0.21.0 是一個非常典型的“大版本連續(xù)演進”更新。它沒有只停留在表面功能堆疊，而是從底層加載方式、顯存管理、視頻處理、API 規(guī)范、工作流模板、節(jié)點兼容性到合作生態(tài)都進行了廣泛調(diào)整。

我們相信人工智能為普通人提供了一種“增強工具”，并致力于分享全方位的AI知識。在這里，您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業(yè)洞察。歡迎關注“福大大架構(gòu)師每日一題”，發(fā)消息可獲得面試資料，讓AI助力您的未來發(fā)展。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.