<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      挑戰擴散自回歸!字節提出視覺生成第三種路線,讓模型邊畫邊改

      0
      分享至

      • 鷺羽 發自 凹非寺
      • 量子位 | 公眾號 QbitAI

      ber!這個五一假期,我也是真夠忙的:

      自拍、電影、追劇、街頭采訪、聽音樂會,還抽空回老家結了次婚……


      視頻鏈接:https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw


      視頻鏈接:https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw



      視頻鏈接:https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw

      (咳咳)不賣關子了,其實以上這些,通通都是AI生成。

      但u1s1,就這逼真的眼神和動作,也太對味了!

      它們都出自字節商業化技術團隊研發的新一代視覺生成模型,更妙的是——

      它的底層架構,不是主流的擴散模型,也并非近來大火的自回歸模型,而是全新的第三條路



      這篇研究論文,提出了另一種AI視覺生成構想:

      讓AI像人類一樣畫畫,不僅可以邊畫邊改,還能復雜多畫、簡單少畫。也就是生成精煉網絡GRN(Generative Refinement Networks)。

      簡單來說,如果把AI視覺生成比作在白紙上作畫,那么現有的擴散和自回歸模型各有各的優缺點。

      先說擴散模型,作為目前最常用的視覺生成架構,還是有兩把刷子的,其所生成的視頻幾乎能夠以假亂真。

      但實則它的繪畫過程還像個笨拙的學生,無論是畫簡單的一顆蘋果,還是復雜的巴洛克壁畫,都必須老老實實一筆一筆畫,所以即使是復雜度天差地別的畫作,也要花費相同的時間步數。

      自回歸模型這邊,雖然天生具備畫面復雜度感知,但由于需要先將顏色離散化,畫作始終缺乏高頻細節。

      它還粗心大意沒有橡皮,前面一筆畫錯了,不僅不改,還會“自由發揮”越畫越離譜。

      GRN則從根本上解決了這些問題,知錯就改,可以在畫的過程中就不斷修改細化,直到滿意為止。



      比如下面這些風格多樣的頭像,都是生成精煉網絡所畫。



      再比如這些,all by GRN。



      類別生圖、文生圖、文生視頻、圖生視頻,GRN樣樣手拿把掐。

      畢竟懂的都懂,“允許犯錯、及時糾正”,這套一以貫之的思路真的很字節范兒~(doge)

      實測架構性能

      說一千道一萬,咱再來仔細實測看看。

      目前GRN T2I模型直接在HuggingFace就能體驗(
      https://huggingface.co/spaces/hanjian/GRN)。

      可以自行調整參數,比如提示詞相關性、創意發散程度等。



      先來生成一張80年代家庭照片。

      一張80年代生日派對上拍攝的全家福。一個小男孩吹滅奶油蛋糕上的蠟燭,家人圍繞在他身邊鼓掌。



      很有CCD老照片那味兒了~

      再上難度,讓GRN嘗試生成一張漫畫:

      Two men dressed in dark suits, red ties, and black hats. They are both wearing sunglasses and holding revolvers, pointing them directly at the viewer. The men have stern expressions on their faces. Their attire and demeanor suggest a sense of authority and menace…
      兩名男子身著深色西裝、系紅色領帶、頭戴黑色禮帽。二人均佩戴墨鏡,手持左輪手槍,槍口直指觀者。兩人神情冷峻,著裝與氣場透著威嚴感與威懾感…



      一眼望去,配色大膽、風格鮮明,角色與構圖也搭配和諧。

      文生視頻這邊,作者開源了2B模型,同時提供了一個Discord網站Demo,大家登錄Discord之后,點擊下面這個鏈接就可以體驗:
      http://opensource.bytedance.com/discord/invite。

      在左側導航欄,可以找到GRN-T2V 2B模型,然后在聊天框輸入/generate_video [提示詞]即可。



      先來一個單人簡單場景的測試:

      A man in an orange shirt and glasses stands before a red brick wall, holding and presenting a dark gray cylindrical object.
      一名身穿橙色上衣、戴著眼鏡的男子站在紅磚墻前,手持并展示一個深灰色的圓柱形物體。


      視頻鏈接:https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw

      人物皮膚、面部細節和動作流暢度都不像是只有2B參數的模型~

      再看看一個多人舞蹈、鏡頭快速推進的例子,也沒有出現畫面畸形的情況。

      A K-pop group performs on stage with vibrant lighting and dynamic choreography, singing a song about preferring night meetings, as shown in a live broadcast.
      一場直播畫面中,一支韓國流行偶像團體在絢麗的舞臺燈光下登臺表演,舞步靈動富有張力,演唱著一首偏愛夜間相約主題的歌曲。


      視頻鏈接:https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw

      另外,各種復雜的人物動作和鏡頭調度,也都能一步到位,還原得相當絲滑。


      視頻鏈接:https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw

      妥妥成片級表現,直接給到夯!

      這就引出了新的問題——

      為什么團隊要執意跳出舒適區,探索一套全新的生成范式呢?

      AI視覺生成的第三條路

      這就源自團隊對現有主流技術路線的洞察——

      • 擴散模型:雖然生成質量高,但不夠智能。它對所有樣本,無論復雜與否,都分配相同的迭代步數,缺乏自適應能力。
      • 自回歸模型:通過似然估計,天然具有復雜度感知能力。但一方面,受限于離散token化,存在嚴重的信息損失。另一方面,存在誤差累計和誤差傳播的問題,早期錯誤無法修正,于是越錯越離譜。

      而GRN則是對二者的揚長補短,同時兼顧全局精調和內容復雜度感知。

      其核心架構包括三個部分:

      1、層次二叉樹量化(HBQ)

      首先針對自回歸模型的離散損失,HBQ采用近乎無損的離散編碼,能夠避免在壓縮過程中丟失信息,同時實現圖像與視頻的統一建模。



      具體來說,它將VAE編碼后的連續特征映射到[-1, +1]區間,然后通過二叉樹結構進行多輪二進制量化。

      這樣重建誤差就會隨著量化輪數增加逐漸被分配到更精細的量化區間,量化誤差隨著輪數指數級衰減,理論上可以實現完全無損的量化。

      最終將獲得M個二進制標簽,分別代表從粗到細的信息層次。

      其中,GRN包含兩種預測目標,GRN_ind是將通道維度的M位二進制合并成一個整數標簽進行預測,更適合簡單量化輪數少的情況;GRN_bit則是直接逐位預測二進制值,更適合量化輪次高、模型大、任務復雜的情況,比如視頻生成。

      另外,二者均采用多token并行預測,以提升生成速度。

      2、全局精煉網絡(GRN)

      至于解決誤差積累問題,GRN引入了全局精調過程,模擬人類繪畫過程,從隨機token圖開始,逐輪開始修改迭代。



      首先每一步的生成狀態都由兩部分組成:

      • 當前已經生成的內容,也就是已畫好的部分([F] token);
      • 隨機token,模擬空白畫布 ([R] token]);

      然后Transformer就會基于當前狀態,預測一個更優的token圖。

      這個過程中,GRN需要自己從當前輸入判斷哪些是畫好的[F] token,哪些是隨機的[R] token,然后對所有token都輸出一個refine后的結果。

      當然,如果GRN判斷是畫好的[F] token,傾向于復制輸出。對于[R] token,需要根據全局上下文的token推斷應該畫上什么。



      通過這個全局refine的更新機制,確定的token不斷增多,不確定的token反復改寫,就像一個畫家一樣,真正做到了邊畫邊改,生成效果也越來越好,徹底解決了自回歸模型錯誤累計、錯誤傳播的老大難問題!

      3、復雜度感知采樣

      為了避免擴散模型一刀切的計算分配方式,GRN采用熵來衡量畫面復雜度。

      計算每一步預測的平均熵,熵低意味著樣本簡單,可以分配較少的推理步數,熵高則意味著樣本復雜,需要分配更多的精煉步數。

      應用復雜度感知采樣后,在對步數最敏感、參數量最小的130M模型上,推理步數能夠從總共50步變成了20~40步,平均24步,而gFID僅僅從3.56略微上升到3.79(gFID數值越小越好),真正做到了簡單少畫、復雜多畫!

      并且,簡單的樣本20步就能搞定,復雜的樣本GRN也只分配了40步。

      基于此,實驗結果顯示,GRN在多項基準測試中均刷新了SOTA記錄。

      首先在ImageNet 256×256的圖像重建上,HBQ達到了0.56 rFID,遠超SD-VAE (0.87)、RAE (0.62)、VAR(0.85)、Open-MAGVIT2(1.17)。

      在視頻重建時,8輪HBQ效果與連續VAE基線標準相當,說明HBQ無需增加隱層通道數,就能在更高的壓縮率下逼近連續編碼質量。

      而將隱層通道從16提升至64,PSNR就會從30.40躍升至33.97,性能媲美當前最優的Wan 2.1,但比特數減少了4倍。



      在類別-圖像生成(C2I)任務中,GRN?G(2B)的FID值為1.81,IS值為299.0,超越了DiT?XL/2、SiT?XL/2、VAR?d30、LlamaGen?XXL、JiT-G主流生成模型。

      另外,相比于MaskGIT(227M),GRN?B(130M)參數量僅為前者的一半,但性能實現反超,FID從6.18降至3.56。

      這也就意味著,GRN的全局精調不僅徹底解決了AR誤差積累問題,生成質量同時還超越主流擴散模型。



      在文生圖(T2I)任務中,GRN_bit 2B在GenEval上得分0.76,超過同為2B參數的SD3 Medium、Infinity,因為2B的參數量限制,落后于其他6B~20B等大模型,不過研究人員表示,GRN這種類似語言模型的離散token建模,有很好的scaling特性,他們會在未來推出更大的模型。



      在文生視頻(T2V)任務中,2B參數的GRN最高可支持480p2~10秒高保真視頻生成,在VBench測試中,超越5B的CogVideoX、14B的Wan 2.1等模型,以及所有同規模的AR和擴散模型



      另外,消融實驗也證明了全局精調、復雜度感知模塊在GRN中的關鍵作用。

      總的來說,在同等參數量下,GRN已經實現了比擴散模型與傳統自回歸模型更聰明的生成

      它證明,在擴散和自回歸這兩條既定路徑之外,視覺生成還有新的可能。GRN同時解決了量化損失、誤差累計、復雜度感知生成的三個問題,在AR和Diffusion中間架起了一座橋梁。

      如果再腦洞大開一下,現在的dLLM或許也可以借鑒GRN的思路。

      dLLM也是一次性生成,一旦早期token出錯,后面就只能將錯就錯,如果像GRN一樣,引入全局精調,也許模型在生成文本后,還有機會推翻之前寫的內容。

      這也不失為一個好的破局之道。

      此外,GRN證明了純血離散token是能夠做好圖像和視頻生成的。從長遠來看,能夠更好地統一圖像、視頻、文本token,顯著提升模型的多模態理解與生成能力。

      相比自回歸模型,GRN重建上限更高,對抗誤差累計能力更強;相比擴散模型,GRN能更聰明地分配計算步數。GRN用優雅的設計解決了一直以來困擾自回歸和擴散模型的難題。

      論文鏈接:
      https://arxiv.org/abs/2604.13030
      代碼鏈接:
      https://github.com/MGenAI/GRN
      HuggingFace鏈接:
      https://huggingface.co/spaces/hanjian/GRN
      項目主頁:
      https://mgenai.github.io/GRN/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      森林北回應分手,字字藏深意,汪峰卻一言不發,章子怡早把他看透

      森林北回應分手,字字藏深意,汪峰卻一言不發,章子怡早把他看透

      以茶帶書
      2026-05-13 13:27:34
      房產圈最近最大的瓜,當屬貝殼2025年財報的發布——沒有驚喜,全是驚嚇

      房產圈最近最大的瓜,當屬貝殼2025年財報的發布——沒有驚喜,全是驚嚇

      每日質量報道網
      2026-05-11 12:04:19
      零跑熊貓D99:車展吸睛背后的深意

      零跑熊貓D99:車展吸睛背后的深意

      烽火瞭望者
      2026-05-13 08:53:15
      茶葉是血糖的“加速器”?醫生忠告:不想血糖升高,少喝4種茶

      茶葉是血糖的“加速器”?醫生忠告:不想血糖升高,少喝4種茶

      橘子約定
      2026-05-12 20:44:04
      76歲泰國首富出獄!最美前總理女兒戴30萬珠寶迎接

      76歲泰國首富出獄!最美前總理女兒戴30萬珠寶迎接

      商務范
      2026-05-13 16:18:51
      1952年許世友返鄉,不顧老母親下跪勸阻,掏出槍對準三叔:斃了你

      1952年許世友返鄉,不顧老母親下跪勸阻,掏出槍對準三叔:斃了你

      云端小院
      2026-05-12 06:41:03
      劉亦菲迪士尼被偶遇,皮膚白到會發光,網友笑稱:“公主回家了”

      劉亦菲迪士尼被偶遇,皮膚白到會發光,網友笑稱:“公主回家了”

      韓小娛
      2026-05-13 15:56:54
      被定罪之前,莎拉迎來了最大強援,菲軍開始清場,馬科斯渾然不知

      被定罪之前,莎拉迎來了最大強援,菲軍開始清場,馬科斯渾然不知

      奇思妙想生活家
      2026-05-13 18:39:32
      大軍區司令進京開會,軍委首長說:把你降一級調離,有沒有意見?

      大軍區司令進京開會,軍委首長說:把你降一級調離,有沒有意見?

      阿芒娛樂說
      2026-05-13 18:22:13
      空調閑置大半年再開機,千萬別急著開制冷,這些錯誤會傷身體

      空調閑置大半年再開機,千萬別急著開制冷,這些錯誤會傷身體

      開心美食白科
      2026-05-11 13:19:11
      吳石犧牲后,主席很后悔:最大錯誤就是沒集中兩個野戰軍攻打臺灣

      吳石犧牲后,主席很后悔:最大錯誤就是沒集中兩個野戰軍攻打臺灣

      興趣知識
      2026-05-05 16:02:25
      票房飆升至7.3億,大賺2.5億,《給阿嬤的情書》成年度爆款

      票房飆升至7.3億,大賺2.5億,《給阿嬤的情書》成年度爆款

      影視高原說
      2026-05-13 18:10:38
      中國政府獎學金留學人員抵達平壤,正式開啟在朝留學生活

      中國政府獎學金留學人員抵達平壤,正式開啟在朝留學生活

      大風新聞
      2026-05-11 08:36:09
      一把牌輸掉十幾億,欠200億跑路,如今金立手機創始人在印尼翻盤了

      一把牌輸掉十幾億,欠200億跑路,如今金立手機創始人在印尼翻盤了

      毒sir財經
      2026-04-29 16:21:18
      方臘僅有8員大將,為何卻讓梁山損失了70名好漢?原因很簡單

      方臘僅有8員大將,為何卻讓梁山損失了70名好漢?原因很簡單

      掠影后有感
      2026-05-11 11:28:59
      明明有133套湯臣一品的房子,卻過得想自殺,一個月才花一萬塊錢

      明明有133套湯臣一品的房子,卻過得想自殺,一個月才花一萬塊錢

      人生錄
      2026-05-08 19:07:58
      國際足聯主動妥協,五折甩賣世界杯版權,央視為何拒不買單

      國際足聯主動妥協,五折甩賣世界杯版權,央視為何拒不買單

      璀璨幻行者
      2026-05-10 22:09:58
      世界杯歷史進球差了快80個 阿根廷為什么永遠追不上巴西和德國?

      世界杯歷史進球差了快80個 阿根廷為什么永遠追不上巴西和德國?

      體壇八點半的那些事兒
      2026-05-13 18:23:15
      1980年鐘偉直呼毛主席大名,黃克誠舉拐怒斥:你老小子真是忘了本

      1980年鐘偉直呼毛主席大名,黃克誠舉拐怒斥:你老小子真是忘了本

      史之銘
      2026-05-12 20:53:20
      東契奇:我知道大家希望我復出 但我離回歸賽場還差得遠

      東契奇:我知道大家希望我復出 但我離回歸賽場還差得遠

      北青網-北京青年報
      2026-05-13 21:48:42
      2026-05-13 22:51:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12621文章數 176462關注度
      往期回顧 全部

      科技要聞

      騰訊一季度營收1964.6億元 同比增9%

      頭條要聞

      為杜特爾特家族出頭 菲參議員遭ICC通緝被困參院大樓

      頭條要聞

      為杜特爾特家族出頭 菲參議員遭ICC通緝被困參院大樓

      體育要聞

      14年半,74萬,何冰嬌沒選那條更安穩的路

      娛樂要聞

      白鹿掉20萬粉,網友為李晨鳴不平

      財經要聞

      美國總統特朗普抵達北京

      汽車要聞

      C級純電轎跑 吉利銀河"TT"申報圖來了

      態度原創

      藝術
      時尚
      手機
      教育
      軍事航空

      藝術要聞

      乾隆 “翻車” 名畫刷屏!

      專欄 | 進入心流后,不被洪流裹挾

      手機要聞

      消息稱vivo Pocket手持云臺相機Q4發布,備貨預期百萬臺

      教育要聞

      今天主要是顯擺一下

      軍事要聞

      沙特被指3月曾對伊朗發動多次“報復性”空襲

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 极品少妇xxxx| xxxx.中出日韩| 欧美精品中文字幕亚洲专区| 国产精品国产三级国快看| 午夜AAAAA级岛国福利在线| 丰满老熟女丝袜短裙| 久久精品免费免费直播| 中文字幕第1页在线播| 丰满少妇大力进入| 久久AV免费天堂小草播放| 国产精品成人一区二区不卡| 久久99精品国产免费观观| 国内精品久久久久久无码不卡 | 精品人妻av中文字幕乱码按摩| 最近中文字幕完整版2019| 久久精品国产亚洲av热一区 | 国产一区二区丰满熟女人妻| 亚洲成在人线AV品善网好看| 十八禁午夜福利免费网站| 丝袜美腿被操| 一本大道久久a久久综合| 疯狂添女人下部视频免费| 日韩av一二三四区| 国内精品久久久久影院不卡| 一区二区三区视频| 日本在线不卡一区| 亚洲国产高清在线视频| 成人免费A级毛片无码片2022| 97操碰| 亚洲区综合区小说区激情区| 天天澡日日澡狠狠澡欧美老妇| 元阳县| 亚洲一区在线成人av| 99热这里只有精品久久6| xxxx丰满少妇高潮| 久久精品国产亚洲AV日韩| 一区二区和激情视频| 免费看国产黄线在线观看 | 亚洲国产精品综合久久20| 日韩精品福利一区二区三区| 我国产码在线观看av哈哈哈网站|