網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

國(guó)產(chǎn)廠商第一，全球第二！我用海外最強(qiáng)生圖模型，試出了這匹黑馬的真實(shí)段位

2026-06-11 11:17:43　來源: 智東西

北京舉報(bào)

分享至

智東西
作者陳駿達(dá)
編輯漠影

智東西6月11日?qǐng)?bào)道，本周，智象未來（HiDream.ai）推出了其最新商用版圖像生成模型HiDream-O1-Image-1.5，并在全球知名AI模型評(píng)測(cè)平臺(tái)Artificial Analysis上拿下總榜第三、國(guó)內(nèi)第一的成績(jī)。

這一模型的ELO得分超過了Google Nano Banana 2、NVIDIA Cosmos3-Super-Text2Image和字節(jié)跳動(dòng)的Seedream 4.0等國(guó)內(nèi)外大廠的主流圖像生成模型，和GPT-Image 1.5也僅有一分之差。

按廠商排名來看，智象未來已經(jīng)是全球第二、國(guó)內(nèi)第一的生圖模型玩家了。

HiDream-O1-Image-1.5使用的是一套名為“原生全模態(tài)”的新架構(gòu)，此前已在開源模型HiDream-O1-Image上獲得驗(yàn)證。在該架構(gòu)中，圖像像素、文本Token、視頻體素等模態(tài)信號(hào)，從模型底層就被映射進(jìn)同一個(gè)共享空間，用一套統(tǒng)一的Transformer來理解和生成。

但榜單和技術(shù)細(xì)節(jié)之外，我們更想知道的答案是：這一模型實(shí)際用起來感受究竟如何，把它和海外頂流拉到同一個(gè)擂臺(tái)上真刀真槍比一場(chǎng)，誰(shuí)能贏？

目前，HiDream-O1-Image-1.5已在智象未來的HiHarness平臺(tái)上線，支持在線體驗(yàn)與API調(diào)用。智東西第一時(shí)間對(duì)其進(jìn)行了實(shí)測(cè)。跑完十幾個(gè)案例后，我們也有了初步感受：國(guó)產(chǎn)生圖模型的可用性，正在迅速逼近海外頂流。

HiDream-O1-Image-1.5體驗(yàn)鏈接:

https://vivago.ai/

https://hiharness.ai/

開源模型HiDream-O1-Image下載地址：

GitHub：https://github.com/HiDream-ai/HiDream-O1-Image

Huggingface：https://huggingface.co/HiDream-ai/HiDream-O1-Image

一、三大場(chǎng)景綜合實(shí)測(cè)，文字渲染、畫面細(xì)節(jié)表現(xiàn)出色

能否準(zhǔn)確渲染文字，一直是圖像生成領(lǐng)域的痛點(diǎn)，也是許多在實(shí)測(cè)中最容易“翻車”的重災(zāi)區(qū)。我們的實(shí)測(cè)也從這類任務(wù)開始。

首個(gè)測(cè)試案例是相對(duì)簡(jiǎn)單的海報(bào)設(shè)計(jì)，內(nèi)容是一部太空主題電影的豎版宣傳海報(bào)。HiDream-O1-Image-1.5是輕松過關(guān)，它在海報(bào)中采用了三種不同的字體，文字渲染準(zhǔn)確，字體的選擇和設(shè)計(jì)也與畫面主題契合，沒有違和感。

HiDream-O1-Image-1.5的中文渲染能力也不錯(cuò)。我們讓它給某個(gè)國(guó)內(nèi)音樂節(jié)設(shè)計(jì)一張海報(bào)。這個(gè)任務(wù)的難點(diǎn)在于，文字內(nèi)容有多個(gè)信息層級(jí)，包括主標(biāo)題、副標(biāo)題、陣容列表、時(shí)間地點(diǎn)、票價(jià)和票務(wù)平臺(tái)。這些內(nèi)容不能混在一起，必須有大小對(duì)比、區(qū)域劃分。

最終，HiDream-O1-Image-1.5準(zhǔn)確地生成了我們要求的內(nèi)容，豎版文字的渲染也沒有出現(xiàn)錯(cuò)誤，信息呈現(xiàn)清晰，中式水墨畫的風(fēng)格與音樂節(jié)的主題契合。

最后，我們還測(cè)試了一個(gè)高難度的案例：特定風(fēng)格的高密度文字渲染。我們要求HiDream-O1-Image-1.5生成一本舊詩(shī)集中的某一個(gè)頁(yè)面，內(nèi)容是英國(guó)詩(shī)人的華茲沃斯的I Wondered Lonely as a Cloud。

在提供完整詩(shī)歌內(nèi)容后，HiDream-O1-Image-1.5幾乎完美地渲染了這首詩(shī)歌的絕大部分內(nèi)容，僅有極個(gè)別單詞出現(xiàn)了小錯(cuò)誤。同時(shí)，它也理解了提示詞中“舊詩(shī)集”的風(fēng)格要求，圖中的詩(shī)集頁(yè)面略微泛黃，邊角還有些歲月留下的痕跡。

生圖模型的另一大問題就是真實(shí)性。許多模型生成的結(jié)果一眼看上去就有AI味，比較突出的問題包括油膩感很強(qiáng)、構(gòu)圖和人物等元素不符合事實(shí)等。

HiDream-O1-Image-1.5在“繁忙后廚”這一場(chǎng)景的還原上做得不錯(cuò)。這張圖包含廚具、原材料以及多位廚師。這幾大主體的質(zhì)感都很利落，特別是中間廚師面前那團(tuán)火焰，頗具現(xiàn)場(chǎng)感。

再來看細(xì)節(jié)，砧板上的三文魚紋理、金屬碗里食材的堆疊層次都比較真實(shí)，這些屬于畫面“邊角料”的細(xì)節(jié)并沒有被HiDream-O1-Image-1.5忽略，而是保留了清晰的物理形態(tài)。

畫面中，構(gòu)圖和人物動(dòng)作也基本合理，左右兩側(cè)的廚師在備菜，中間的廚師在烹飪，背景里還有忙碌的幫廚，整個(gè)場(chǎng)景非常符合實(shí)際的商業(yè)廚房運(yùn)作邏輯。

在另一個(gè)案例中，我們讓HiDream-O1-Image-1.5生成一張日本街頭的照片。這張圖整體氛圍營(yíng)造比較到位，雨夜、霓虹燈牌、柏油路面反光都得到真實(shí)的呈現(xiàn)，前景的清晰與背景的景深虛化處理得也很好。

不過，美中不足的是，圖里有一個(gè)“穿幫”的小細(xì)節(jié)：那輛黑色出租車行駛的方向錯(cuò)了，在日本車應(yīng)該是靠左行駛的。

最后，一款生圖模型要在真實(shí)生產(chǎn)場(chǎng)景發(fā)揮作用，還需具備對(duì)多種不同風(fēng)格、設(shè)計(jì)要求的理解力。我們讓HiDream-O1-Image-1.5集中嘗試了意大利老電影風(fēng)格、1940年代老照片風(fēng)格、拼貼畫這三種截然不同的風(fēng)格。

首個(gè)案例中，模型成功理解了“意大利老電影風(fēng)格”的核心要素，色調(diào)符合風(fēng)格要求，畫面內(nèi)容包含了意大利常見的卵石路、地中海海景等細(xì)節(jié)，畫面中人物的樣貌有種膠片電影捕捉到的自然感，在風(fēng)格化與寫實(shí)度之間找到了較好的平衡。

在下方任務(wù)中，HiDream-O1-Image-1.5成功模擬了20世紀(jì)三四十年代美國(guó)農(nóng)場(chǎng)家庭合影的風(fēng)格，人物的表情、衣著帶有那個(gè)年代特有的風(fēng)格，我們?cè)谔崾驹~中要求的模擬照片老化的效果也得到了還原，可以看到照片的邊角有些缺失和泛黃。

最后，在這一拼貼風(fēng)格圖像生成的任務(wù)中，HiDream-O1-Image-1.5復(fù)原了手工撕紙的質(zhì)感、舊紙張的肌理以及金屬部件的光澤感，材質(zhì)對(duì)比富有沖擊力。中間的花卉與符號(hào)元素錯(cuò)落有致，很好地傳達(dá)了“想象力與算法碰撞”的主題。

這幾個(gè)案例跑下來，可以感受到HiDream-O1-Image-1.5在文字渲染上表現(xiàn)扎實(shí)，多層級(jí)中文排版也能準(zhǔn)確呈現(xiàn)；畫面真實(shí)感強(qiáng)，細(xì)節(jié)經(jīng)得起推敲。雖然偶有小Bug，但整體可用性很高，很適合需要高效出圖的海報(bào)、攝影、藝術(shù)創(chuàng)作等真實(shí)生產(chǎn)場(chǎng)景。

二、分鏡、UI、風(fēng)格化，三款主流生圖模型同臺(tái)PK，誰(shuí)更好用？

我們也將HiDream-O1-Image-1.5與幾款當(dāng)前最流行的生圖模型進(jìn)行了對(duì)比實(shí)測(cè)，選擇的實(shí)測(cè)玩法包括最近比較流行的分鏡生成、UI設(shè)計(jì)、風(fēng)格化等等。

先看分鏡生成。這類任務(wù)要求模型同時(shí)處理多格畫面的構(gòu)圖邏輯、序號(hào)標(biāo)注、畫面連續(xù)性以及統(tǒng)一的風(fēng)格質(zhì)感，是對(duì)模型綜合理解力的集中考驗(yàn)。我們以“深夜便利店”的6格分鏡稿為統(tǒng)一測(cè)試題，分別輸入HiDream-O1-Image-1.5與Google Nano Banana 2、OpenAI GPT-Image 2中。

Nano Banana 2的生成速度是其中最快的，不過它忽視了我們提示詞中關(guān)于實(shí)拍質(zhì)感的風(fēng)格要求，生成的分鏡圖是漫畫風(fēng)的。

HiDream-O1-Image-1.5也很快給出了生成結(jié)果。HiDream-O1-Image-1.5做得較為不錯(cuò)的是角色的一致性。圖中人物在分鏡2和5中的樣貌、衣著基本一致。同時(shí)，便利店場(chǎng)景的還原也較為符合事實(shí)。

不過，在生成“從冰柜里拿一瓶黑咖啡”的分鏡3時(shí)，HiDream-O1-Image-1.5生成的咖啡罐有些過大，算是一個(gè)小的瑕疵，但在后續(xù)的分鏡中咖啡罐的比例被精準(zhǔn)的調(diào)整了過來。

GPT-Image 2是最后一個(gè)給出生成結(jié)果的模型。在細(xì)節(jié)還原度方面，GPT-Image 2做得十分真實(shí)，分鏡3中罐裝咖啡的排布、咖啡罐上的字樣和冷凝水等細(xì)節(jié)都按照提示詞的要求復(fù)原了，整體處理得很自然，基本沒有AI生成痕跡。

在UI設(shè)計(jì)類任務(wù)中，我們讓三款模型給一個(gè)iPad應(yīng)用設(shè)計(jì)一個(gè)登陸頁(yè)面。HiDream-O1-Image-1.5在設(shè)計(jì)中采用了干凈、現(xiàn)代的風(fēng)格，視覺干擾比較少，重點(diǎn)集中在核心功能上。

而GPT-Image 2采用了經(jīng)典的卡片風(fēng)格，在淺藍(lán)色背景的中央放置了一個(gè)帶大圓角的白色卡片，比較規(guī)范。同時(shí)，它還用藍(lán)色高亮了交互文本。

Nano Banana 2的生成結(jié)果是這三張圖中最不像UI樣板設(shè)計(jì)的圖片，它包含了環(huán)境背景，更像是用來做展示的效果圖。不過，在核心的UI頁(yè)面方面，它的表現(xiàn)還是比較中規(guī)中矩的。

我們的最后一個(gè)對(duì)比實(shí)測(cè)任務(wù)是風(fēng)格化。GPT-Image 2較好地還原了商業(yè)攝影與復(fù)古膠片兩種風(fēng)格，但在抽象幾何風(fēng)的處理上仍不夠徹底。

Nano Banana 2在商業(yè)攝影風(fēng)格上表現(xiàn)不錯(cuò)，主動(dòng)呈現(xiàn)出咖啡冒出的熱氣，畫面更具吸引力。然而，其膠片風(fēng)格與商業(yè)攝影之間差異不明顯，缺乏區(qū)分度。在抽象幾何風(fēng)方面雖做了一定調(diào)整，但整體的幾何感仍不夠到位。

最后看看HiDream-O1-Image-1.5。它在左側(cè)的商業(yè)攝影風(fēng)格上做得不錯(cuò)，清晰度和光影都符合要求。而在中間的復(fù)古膠片質(zhì)感方面，畫面有一種膠片的顆粒感，色彩偏移的選擇也比較符合膠片風(fēng)的特點(diǎn)。而在抽象幾何風(fēng)格中，HiDream-O1-Image-1.5的處理比較大膽，按照提示詞要求放棄了物理寫實(shí)。在三個(gè)模型中，它的表現(xiàn)最符合提示詞的要求。

從實(shí)測(cè)結(jié)果來看，三款模型各有所長(zhǎng)。Nano Banana 2在生成速度上有優(yōu)勢(shì)，GPT-Image 2 在細(xì)節(jié)真實(shí)度方面表現(xiàn)突出。而HiDream-O1-Image-1.5在多項(xiàng)任務(wù)中展現(xiàn)了不錯(cuò)的綜合能力，無(wú)論是角色一致性、設(shè)計(jì)風(fēng)格的審美，還是風(fēng)格化任務(wù)中跨越三種風(fēng)格的把控能力，均表現(xiàn)出色。

可以說，HiDream-O1-Image-1.5在不少實(shí)測(cè)案例中已經(jīng)展現(xiàn)出了比肩乃至優(yōu)于頭部閉源生圖模型的表現(xiàn)。

三、實(shí)現(xiàn)真正“原生全模態(tài)”，1個(gè)月內(nèi)連續(xù)三次迭代

HiDream-O1-Image-1.5究竟是如何實(shí)現(xiàn)上述生成效果的？答案就藏在底層架構(gòu)上。

傳統(tǒng)文生圖模型通常采用“文本編碼器+VAE+DiT/擴(kuò)散模型”的模塊化路徑，其形態(tài)更像一棵不斷分叉生長(zhǎng)的樹：文本有自己的tokenizer，圖像和視頻有各自的encoder/decoder，音頻、動(dòng)作、空間關(guān)系也往往沿著不同路徑被處理，模塊之間需要多次轉(zhuǎn)換信息。

在文字密集排版、UI頁(yè)面、多主體生成、多參考圖控制、多分鏡敘事等復(fù)雜任務(wù)中，這種架構(gòu)更容易帶來細(xì)節(jié)損耗、語(yǔ)義錯(cuò)位和結(jié)構(gòu)不穩(wěn)定。

HiDream-O1系列走的是“原生全模態(tài)”路線。所謂原生全模態(tài)，并不是先分別訓(xùn)練各模態(tài)模型再拼接，而是從架構(gòu)設(shè)計(jì)之初就讓文本、圖像、視頻、音頻等多種模態(tài)共享同一套表征體系，在模型底層實(shí)現(xiàn)融合。

具體到HiDream-O1-Image系列模型，它去掉了傳統(tǒng)生圖流程中的VAE和獨(dú)立文本編碼器，將圖像像素、文本Token、視頻體素以及音頻、動(dòng)作、空間關(guān)系等原始信號(hào)映射進(jìn)同一個(gè)共享Token空間，與同一套UiT（像素級(jí)統(tǒng)一的 Unified Transformer）交互，在統(tǒng)一表征系統(tǒng)中完成理解、生成和推理。

UiT此前在智象未來的開源模型HiDream-O1-Image已經(jīng)獲得采用，此后，智象未來也在快速迭代。今年5月，智象未來發(fā)布了采用同款架構(gòu)的HiDream-O1-Image-Pro，而本月登場(chǎng)的HiDream-O1-Image-1.5則是這一架構(gòu)在商用領(lǐng)域的進(jìn)一步驗(yàn)證。

新一代生圖架構(gòu)從研究到開源再到商用落地，往往需要經(jīng)歷漫長(zhǎng)的周期，而智象未來的UiT架構(gòu)率先在開源社區(qū)和商業(yè)產(chǎn)品兩條線上同時(shí)跑通，并在1個(gè)月左右的時(shí)間內(nèi)連續(xù)推出三款采用這一架構(gòu)的模型。

這種高頻迭代本身就是一個(gè)值得關(guān)注的信號(hào)，反映出UiT架構(gòu)本身具備良好的可擴(kuò)展性和工程友好性，能夠支撐起從實(shí)驗(yàn)探索到生產(chǎn)部署的快速跨越。

結(jié)語(yǔ)：生圖模型加速走向原生統(tǒng)一架構(gòu)

有越來越多的生圖模型，正從拼接式的架構(gòu)走向原生統(tǒng)一。一旦這條路徑全面走通，模型本就能像理解并生成自然語(yǔ)言內(nèi)容那樣，更好地處理視覺生成任務(wù)。

智象未來在這一架構(gòu)內(nèi)的快速迭代，已經(jīng)初步證明了這個(gè)底座的可擴(kuò)展性。隨著模型規(guī)模、訓(xùn)練數(shù)據(jù)和工程能力的持續(xù)進(jìn)化，我們有理由相信，UiT所代表的技術(shù)范式，有可能成為下一代視覺生成模型的主流架構(gòu)之一。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.