![]()
智東西
作者 陳駿達(dá)
編輯 漠影
智東西6月11日?qǐng)?bào)道,本周,智象未來(HiDream.ai)推出了其最新商用版圖像生成模型HiDream-O1-Image-1.5,并在全球知名AI模型評(píng)測(cè)平臺(tái)Artificial Analysis上拿下總榜第三、國(guó)內(nèi)第一的成績(jī)。
這一模型的ELO得分超過了Google Nano Banana 2、NVIDIA Cosmos3-Super-Text2Image和字節(jié)跳動(dòng)的Seedream 4.0等國(guó)內(nèi)外大廠的主流圖像生成模型,和GPT-Image 1.5也僅有一分之差。
按廠商排名來看,智象未來已經(jīng)是全球第二、國(guó)內(nèi)第一的生圖模型玩家了。
![]()
HiDream-O1-Image-1.5使用的是一套名為“原生全模態(tài)”的新架構(gòu),此前已在開源模型HiDream-O1-Image上獲得驗(yàn)證。在該架構(gòu)中,圖像像素、文本Token、視頻體素等模態(tài)信號(hào),從模型底層就被映射進(jìn)同一個(gè)共享空間,用一套統(tǒng)一的Transformer來理解和生成。
但榜單和技術(shù)細(xì)節(jié)之外,我們更想知道的答案是:這一模型實(shí)際用起來感受究竟如何,把它和海外頂流拉到同一個(gè)擂臺(tái)上真刀真槍比一場(chǎng),誰(shuí)能贏?
目前,HiDream-O1-Image-1.5已在智象未來的HiHarness平臺(tái)上線,支持在線體驗(yàn)與API調(diào)用。智東西第一時(shí)間對(duì)其進(jìn)行了實(shí)測(cè)。跑完十幾個(gè)案例后,我們也有了初步感受:國(guó)產(chǎn)生圖模型的可用性,正在迅速逼近海外頂流。
HiDream-O1-Image-1.5體驗(yàn)鏈接:
https://vivago.ai/
https://hiharness.ai/
開源模型HiDream-O1-Image下載地址:
GitHub:https://github.com/HiDream-ai/HiDream-O1-Image
Huggingface:https://huggingface.co/HiDream-ai/HiDream-O1-Image
一、三大場(chǎng)景綜合實(shí)測(cè),文字渲染、畫面細(xì)節(jié)表現(xiàn)出色
能否準(zhǔn)確渲染文字,一直是圖像生成領(lǐng)域的痛點(diǎn),也是許多在實(shí)測(cè)中最容易“翻車”的重災(zāi)區(qū)。我們的實(shí)測(cè)也從這類任務(wù)開始。
首個(gè)測(cè)試案例是相對(duì)簡(jiǎn)單的海報(bào)設(shè)計(jì),內(nèi)容是一部太空主題電影的豎版宣傳海報(bào)。HiDream-O1-Image-1.5是輕松過關(guān),它在海報(bào)中采用了三種不同的字體,文字渲染準(zhǔn)確,字體的選擇和設(shè)計(jì)也與畫面主題契合,沒有違和感。
![]()
HiDream-O1-Image-1.5的中文渲染能力也不錯(cuò)。我們讓它給某個(gè)國(guó)內(nèi)音樂節(jié)設(shè)計(jì)一張海報(bào)。這個(gè)任務(wù)的難點(diǎn)在于,文字內(nèi)容有多個(gè)信息層級(jí),包括主標(biāo)題、副標(biāo)題、陣容列表、時(shí)間地點(diǎn)、票價(jià)和票務(wù)平臺(tái)。這些內(nèi)容不能混在一起,必須有大小對(duì)比、區(qū)域劃分。
最終,HiDream-O1-Image-1.5準(zhǔn)確地生成了我們要求的內(nèi)容,豎版文字的渲染也沒有出現(xiàn)錯(cuò)誤,信息呈現(xiàn)清晰,中式水墨畫的風(fēng)格與音樂節(jié)的主題契合。
![]()
最后,我們還測(cè)試了一個(gè)高難度的案例:特定風(fēng)格的高密度文字渲染。我們要求HiDream-O1-Image-1.5生成一本舊詩(shī)集中的某一個(gè)頁(yè)面,內(nèi)容是英國(guó)詩(shī)人的華茲沃斯的I Wondered Lonely as a Cloud。
在提供完整詩(shī)歌內(nèi)容后,HiDream-O1-Image-1.5幾乎完美地渲染了這首詩(shī)歌的絕大部分內(nèi)容,僅有極個(gè)別單詞出現(xiàn)了小錯(cuò)誤。同時(shí),它也理解了提示詞中“舊詩(shī)集”的風(fēng)格要求,圖中的詩(shī)集頁(yè)面略微泛黃,邊角還有些歲月留下的痕跡。
![]()
生圖模型的另一大問題就是真實(shí)性。許多模型生成的結(jié)果一眼看上去就有AI味,比較突出的問題包括油膩感很強(qiáng)、構(gòu)圖和人物等元素不符合事實(shí)等。
HiDream-O1-Image-1.5在“繁忙后廚”這一場(chǎng)景的還原上做得不錯(cuò)。這張圖包含廚具、原材料以及多位廚師。這幾大主體的質(zhì)感都很利落,特別是中間廚師面前那團(tuán)火焰,頗具現(xiàn)場(chǎng)感。
![]()
再來看細(xì)節(jié),砧板上的三文魚紋理、金屬碗里食材的堆疊層次都比較真實(shí),這些屬于畫面“邊角料”的細(xì)節(jié)并沒有被HiDream-O1-Image-1.5忽略,而是保留了清晰的物理形態(tài)。
畫面中,構(gòu)圖和人物動(dòng)作也基本合理,左右兩側(cè)的廚師在備菜,中間的廚師在烹飪,背景里還有忙碌的幫廚,整個(gè)場(chǎng)景非常符合實(shí)際的商業(yè)廚房運(yùn)作邏輯。
在另一個(gè)案例中,我們讓HiDream-O1-Image-1.5生成一張日本街頭的照片。這張圖整體氛圍營(yíng)造比較到位,雨夜、霓虹燈牌、柏油路面反光都得到真實(shí)的呈現(xiàn),前景的清晰與背景的景深虛化處理得也很好。
![]()
不過,美中不足的是,圖里有一個(gè)“穿幫”的小細(xì)節(jié):那輛黑色出租車行駛的方向錯(cuò)了,在日本車應(yīng)該是靠左行駛的。
最后,一款生圖模型要在真實(shí)生產(chǎn)場(chǎng)景發(fā)揮作用,還需具備對(duì)多種不同風(fēng)格、設(shè)計(jì)要求的理解力。我們讓HiDream-O1-Image-1.5集中嘗試了意大利老電影風(fēng)格、1940年代老照片風(fēng)格、拼貼畫這三種截然不同的風(fēng)格。
首個(gè)案例中,模型成功理解了“意大利老電影風(fēng)格”的核心要素,色調(diào)符合風(fēng)格要求,畫面內(nèi)容包含了意大利常見的卵石路、地中海海景等細(xì)節(jié),畫面中人物的樣貌有種膠片電影捕捉到的自然感,在風(fēng)格化與寫實(shí)度之間找到了較好的平衡。
![]()
在下方任務(wù)中,HiDream-O1-Image-1.5成功模擬了20世紀(jì)三四十年代美國(guó)農(nóng)場(chǎng)家庭合影的風(fēng)格,人物的表情、衣著帶有那個(gè)年代特有的風(fēng)格,我們?cè)谔崾驹~中要求的模擬照片老化的效果也得到了還原,可以看到照片的邊角有些缺失和泛黃。
![]()
最后,在這一拼貼風(fēng)格圖像生成的任務(wù)中,HiDream-O1-Image-1.5復(fù)原了手工撕紙的質(zhì)感、舊紙張的肌理以及金屬部件的光澤感,材質(zhì)對(duì)比富有沖擊力。中間的花卉與符號(hào)元素錯(cuò)落有致,很好地傳達(dá)了“想象力與算法碰撞”的主題。
![]()
這幾個(gè)案例跑下來,可以感受到HiDream-O1-Image-1.5在文字渲染上表現(xiàn)扎實(shí),多層級(jí)中文排版也能準(zhǔn)確呈現(xiàn);畫面真實(shí)感強(qiáng),細(xì)節(jié)經(jīng)得起推敲。雖然偶有小Bug,但整體可用性很高,很適合需要高效出圖的海報(bào)、攝影、藝術(shù)創(chuàng)作等真實(shí)生產(chǎn)場(chǎng)景。
二、分鏡、UI、風(fēng)格化,三款主流生圖模型同臺(tái)PK,誰(shuí)更好用?
我們也將HiDream-O1-Image-1.5與幾款當(dāng)前最流行的生圖模型進(jìn)行了對(duì)比實(shí)測(cè),選擇的實(shí)測(cè)玩法包括最近比較流行的分鏡生成、UI設(shè)計(jì)、風(fēng)格化等等。
先看分鏡生成。這類任務(wù)要求模型同時(shí)處理多格畫面的構(gòu)圖邏輯、序號(hào)標(biāo)注、畫面連續(xù)性以及統(tǒng)一的風(fēng)格質(zhì)感,是對(duì)模型綜合理解力的集中考驗(yàn)。我們以“深夜便利店”的6格分鏡稿為統(tǒng)一測(cè)試題,分別輸入HiDream-O1-Image-1.5與Google Nano Banana 2、OpenAI GPT-Image 2中。
Nano Banana 2的生成速度是其中最快的,不過它忽視了我們提示詞中關(guān)于實(shí)拍質(zhì)感的風(fēng)格要求,生成的分鏡圖是漫畫風(fēng)的。
![]()
HiDream-O1-Image-1.5也很快給出了生成結(jié)果。HiDream-O1-Image-1.5做得較為不錯(cuò)的是角色的一致性。圖中人物在分鏡2和5中的樣貌、衣著基本一致。同時(shí),便利店場(chǎng)景的還原也較為符合事實(shí)。
![]()
不過,在生成“從冰柜里拿一瓶黑咖啡”的分鏡3時(shí),HiDream-O1-Image-1.5生成的咖啡罐有些過大,算是一個(gè)小的瑕疵,但在后續(xù)的分鏡中咖啡罐的比例被精準(zhǔn)的調(diào)整了過來。
GPT-Image 2是最后一個(gè)給出生成結(jié)果的模型。在細(xì)節(jié)還原度方面,GPT-Image 2做得十分真實(shí),分鏡3中罐裝咖啡的排布、咖啡罐上的字樣和冷凝水等細(xì)節(jié)都按照提示詞的要求復(fù)原了,整體處理得很自然,基本沒有AI生成痕跡。
![]()
在UI設(shè)計(jì)類任務(wù)中,我們讓三款模型給一個(gè)iPad應(yīng)用設(shè)計(jì)一個(gè)登陸頁(yè)面。HiDream-O1-Image-1.5在設(shè)計(jì)中采用了干凈、現(xiàn)代的風(fēng)格,視覺干擾比較少,重點(diǎn)集中在核心功能上。
![]()
而GPT-Image 2采用了經(jīng)典的卡片風(fēng)格,在淺藍(lán)色背景的中央放置了一個(gè)帶大圓角的白色卡片,比較規(guī)范。同時(shí),它還用藍(lán)色高亮了交互文本。
![]()
Nano Banana 2的生成結(jié)果是這三張圖中最不像UI樣板設(shè)計(jì)的圖片,它包含了環(huán)境背景,更像是用來做展示的效果圖。不過,在核心的UI頁(yè)面方面,它的表現(xiàn)還是比較中規(guī)中矩的。
![]()
我們的最后一個(gè)對(duì)比實(shí)測(cè)任務(wù)是風(fēng)格化。GPT-Image 2較好地還原了商業(yè)攝影與復(fù)古膠片兩種風(fēng)格,但在抽象幾何風(fēng)的處理上仍不夠徹底。
![]()
Nano Banana 2在商業(yè)攝影風(fēng)格上表現(xiàn)不錯(cuò),主動(dòng)呈現(xiàn)出咖啡冒出的熱氣,畫面更具吸引力。然而,其膠片風(fēng)格與商業(yè)攝影之間差異不明顯,缺乏區(qū)分度。在抽象幾何風(fēng)方面雖做了一定調(diào)整,但整體的幾何感仍不夠到位。
![]()
最后看看HiDream-O1-Image-1.5。它在左側(cè)的商業(yè)攝影風(fēng)格上做得不錯(cuò),清晰度和光影都符合要求。而在中間的復(fù)古膠片質(zhì)感方面,畫面有一種膠片的顆粒感,色彩偏移的選擇也比較符合膠片風(fēng)的特點(diǎn)。而在抽象幾何風(fēng)格中,HiDream-O1-Image-1.5的處理比較大膽,按照提示詞要求放棄了物理寫實(shí)。在三個(gè)模型中,它的表現(xiàn)最符合提示詞的要求。
![]()
從實(shí)測(cè)結(jié)果來看,三款模型各有所長(zhǎng)。Nano Banana 2在生成速度上有優(yōu)勢(shì),GPT-Image 2 在細(xì)節(jié)真實(shí)度方面表現(xiàn)突出。而HiDream-O1-Image-1.5在多項(xiàng)任務(wù)中展現(xiàn)了不錯(cuò)的綜合能力,無(wú)論是角色一致性、設(shè)計(jì)風(fēng)格的審美,還是風(fēng)格化任務(wù)中跨越三種風(fēng)格的把控能力,均表現(xiàn)出色。
可以說,HiDream-O1-Image-1.5在不少實(shí)測(cè)案例中已經(jīng)展現(xiàn)出了比肩乃至優(yōu)于頭部閉源生圖模型的表現(xiàn)。
三、實(shí)現(xiàn)真正“原生全模態(tài)”,1個(gè)月內(nèi)連續(xù)三次迭代
HiDream-O1-Image-1.5究竟是如何實(shí)現(xiàn)上述生成效果的?答案就藏在底層架構(gòu)上。
傳統(tǒng)文生圖模型通常采用“文本編碼器+VAE+DiT/擴(kuò)散模型”的模塊化路徑,其形態(tài)更像一棵不斷分叉生長(zhǎng)的樹:文本有自己的tokenizer,圖像和視頻有各自的encoder/decoder,音頻、動(dòng)作、空間關(guān)系也往往沿著不同路徑被處理,模塊之間需要多次轉(zhuǎn)換信息。
在文字密集排版、UI頁(yè)面、多主體生成、多參考圖控制、多分鏡敘事等復(fù)雜任務(wù)中,這種架構(gòu)更容易帶來細(xì)節(jié)損耗、語(yǔ)義錯(cuò)位和結(jié)構(gòu)不穩(wěn)定。
HiDream-O1系列走的是“原生全模態(tài)”路線。所謂原生全模態(tài),并不是先分別訓(xùn)練各模態(tài)模型再拼接,而是從架構(gòu)設(shè)計(jì)之初就讓文本、圖像、視頻、音頻等多種模態(tài)共享同一套表征體系,在模型底層實(shí)現(xiàn)融合。
具體到HiDream-O1-Image系列模型,它去掉了傳統(tǒng)生圖流程中的VAE和獨(dú)立文本編碼器,將圖像像素、文本Token、視頻體素以及音頻、動(dòng)作、空間關(guān)系等原始信號(hào)映射進(jìn)同一個(gè)共享Token空間,與同一套UiT(像素級(jí)統(tǒng)一的 Unified Transformer) 交互,在統(tǒng)一表征系統(tǒng)中完成理解、生成和推理。
![]()
UiT此前在智象未來的開源模型HiDream-O1-Image已經(jīng)獲得采用,此后,智象未來也在快速迭代。今年5月,智象未來發(fā)布了采用同款架構(gòu)的HiDream-O1-Image-Pro,而本月登場(chǎng)的HiDream-O1-Image-1.5則是這一架構(gòu)在商用領(lǐng)域的進(jìn)一步驗(yàn)證。
新一代生圖架構(gòu)從研究到開源再到商用落地,往往需要經(jīng)歷漫長(zhǎng)的周期,而智象未來的UiT架構(gòu)率先在開源社區(qū)和商業(yè)產(chǎn)品兩條線上同時(shí)跑通,并在1個(gè)月左右的時(shí)間內(nèi)連續(xù)推出三款采用這一架構(gòu)的模型。
這種高頻迭代本身就是一個(gè)值得關(guān)注的信號(hào),反映出UiT架構(gòu)本身具備良好的可擴(kuò)展性和工程友好性,能夠支撐起從實(shí)驗(yàn)探索到生產(chǎn)部署的快速跨越。
結(jié)語(yǔ):生圖模型加速走向原生統(tǒng)一架構(gòu)
有越來越多的生圖模型,正從拼接式的架構(gòu)走向原生統(tǒng)一。一旦這條路徑全面走通,模型本就能像理解并生成自然語(yǔ)言內(nèi)容那樣,更好地處理視覺生成任務(wù)。
智象未來在這一架構(gòu)內(nèi)的快速迭代,已經(jīng)初步證明了這個(gè)底座的可擴(kuò)展性。隨著模型規(guī)模、訓(xùn)練數(shù)據(jù)和工程能力的持續(xù)進(jìn)化,我們有理由相信,UiT所代表的技術(shù)范式,有可能成為下一代視覺生成模型的主流架構(gòu)之一。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.