![]()
AI模型的第一性原理應該是什么?
這是我最近腦海里時常有的一個疑問。
我讓商湯SenseNova U1,生成了一篇關于廣州3天旅游攻略的長圖文,要求圖文并茂展示路線、景點、美食和注意事項。
![]()
看到生成的長圖的那一刻,我似乎有了答案。
在多模態這個大戰場上,過去幾年的主流做法,說白了就是拼樂高。
想把圖像識別和語言理解揉在一起做多模態,那就搞個視覺編碼器當適配器,給大語言模型外掛一雙眼睛。
想生成圖片,那就再疊一個擴散頭上去。
這套拼接式的搞法,成了行業默認的答案。
但這真的是多模態AI該有的樣子嗎?
一個真正從根上理解視覺和語言關系的智能系統,它的第一性原理應該是什么?
似乎,它應該從一開始就能把這兩者放在同一個腦袋里思考、理解、生成,而不是理解歸理解模塊、生成歸生成模塊,中間走一大堆沒必要的彎路。
![]()
https://github.com/OpenSenseNova/SenseNova-U1
前幾天商湯開源了SenseNova U1系列原生理解生成統一模型。
老實說,我剛看到消息的反應是:又一家號稱統一多模態的,有什么不一樣呢?
但在我把文檔和技術細節研究了一遍之后,發現這次商湯的思路確實不一樣。
甚至可以說,這是我從業以來見過的最接近多模態第一性原理的一次嘗試。
這次的核心突破不是又刷了一個多高的Benchmark分數,是他們從架構層面,有底層創新。
01拆掉那堵墻:為什么說拼接式架構是個死胡同
先聊聊大多數多模態模型是怎么弄的。
如果你用過市面上那些所謂多模態模型,會發現它們的工作流程大概是:
你丟一張圖進去,問個問題,模型在里面兜兜轉轉好幾個模塊,最后給你一個回答。
聽起來沒什么問題對吧?但你把這一過程放大看,就會發現問題所在:
一張圖信息流,得經過視覺編碼器轉譯一次,給大語言模型看一眼,如果還要生成圖片這個倒回來的過程,那就更復雜了,還得再過擴散模型,再過后續處理。
這就像把一群不同專業的人強行拉在一起開會。
有人在視覺這塊是個門外漢”,他用的是像素信息、圖形信息,另外一個人是語言專家,用token表示,他擅長理解抽象邏輯。還有一個人,只會畫圖不懂語義推理。
每次多模態任務來了,這幫人就得你傳我、我傳他,層層轉譯。
即便兩個“專家”配合非常默契,也不可避免地有信息損失和效率低下問題。
商湯這次的SenseNova U1把這種拼接方案徹底改了。
![]()
https://huggingface.co/blog/sensenova/neo-unify
他們基于自研的NEO-Unify架構,直接把VE視覺編碼器和VAE變分自編碼器給拿掉了。
很多人對這個改動沒啥概念,我這么說吧——這就好比手機廠商突然告訴你,我們手機不用電池了,直接隔空充電。
是的,就是這么顛覆。
VE和VAE是幾乎所有主流多模態系統都繞不開的組件,這兩樣東西就像是多模態江湖的少林武當,大家修練的功法不同,但都離不開這兩座大山。
![]()
商湯的NEO-Unify架構重新構建了一個統一的深層表征空間。在這個空間里,像素和文本不再是兩種需要“翻譯”的語言,而是作為同一個復合體被直接建模和思考。
把這件事換個更直白的說法:
傳統模型看一幅畫,它要先看懂了,再把懂得的東西用文字告訴另一個系統;另一個系統接收信息再去畫。而SenseNova U1是讓模型直接看著這幅畫,同時用畫畫和說話的方式理解,邏輯推理和視覺表達在同一條路徑里跑。
我注冊了GitHub上的預覽版本體驗了一輪,印象最深刻的是模型對復雜信息的處理方式。
![]()
https://unify.light-ai.top/home
我讓它生成一張復雜的生物實驗機制原理和附帶的結構程序圖。
它沒有分開理解再拼湊答案,直接在統一空間里把可視化的圖表信息和抽象的文本信息關聯起來,輸出的結果里既有對技術細節的理解,也有對視覺結構的問題感知。
![]()
這種體驗和傳統拼接式模型完全不同。拼接式模型在處理這種夾生任務時,常常會出現理解斷裂問題:看圖理解是什么,讀文理解是什么,然后匹配結果時總有對不上的地方。
在復雜工業圖紙解讀和圖文交叉推理這類核心場景中,SenseNova U1的性能比同參數級的拼接式模型平均提升了超過32%。
02小魚吃大魚:開源8B模型比肩閉源商業產品
商湯這次開源的是U1 Lite系列的兩個型號:SenseNova-U1-8B-MoT(Dense架構)和SenseNova-U1-A3B-MoT(MoE架構)。
8B參數是什么概念?在今天的大模型競賽里,這幾乎相當于輕量版。
但就是這個8B模型,在涵蓋圖像理解、圖像生成與編輯、空間智能和視覺推理的多項基準測試中,達到了同量級開源模型SOTA水平。
不只在開源圈子里比,它甚至能在多個維度上比肩Qwen-Image 2.0 Pro和Seedream 4.5這類閉源商業產品。
![]()
我看到這個結果時,第一反應是:怎么做到的?
傳統邏輯里,圖像生成質量幾乎和參數規模正相關——參數越大,能捕獲的細節越多,生成質量就越好。你一個8B的模型跟人家的更大參數模型比質量,這不合常理。
但商湯的答案恰恰在于他們跳出了“靠堆參數解決問題”的思維方式。
傳統架構因為要在不同模塊間來回傳信息,損耗太大,為了彌補這些問題,不得已要把模型做得很大。而SenseNova U1基于統一表征空間構建,從根本上縮短了信息流轉的距離。就像一組人,本來要繞路,現在直接修條直路,距離短了,速度快了,損耗自然少了。
![]()
說句實在話,作為一直關注部署成本的從業者,看到這個數據的時候我心里確實動了一下。
我們在企業內部做AI落地最頭疼的問題是什么?不是模型能力不夠,是算力成本和推理延遲高到沒法商用。
一個8B級別的模型能做到接近頂級閉源產品的質量,推理效率還提升了27%,這直接拉低了多模態應用的門檻。
在信息圖生成這類對難度要求特別高的任務中,SenseNova U1 Lite平均得分50.7,是開源模型里最強的一個。在AI2D圖表理解類基準測試中,8B模型跑出了91.7分。視覺推理方面遠超不少比它大得多的商業模型。
我特別注意到一個細節:20億參數的預覽模型,圖像重建達到31.56的PSNR分數,這個分數無限接近Flux模型32.65的水平,但Flux大得多不說,還必須跑獨立的VAE。
這不就是架構效率的最好證明嗎——用更少的資源,做更多的事。
03從被動拼接走向創造:圖文交錯、信息圖效果都很好
還有一件事,我得單獨拿出來說。
SenseNova U1是目前業內第一個能在一個模型內進行連貫圖文交錯生成的方案。
什么叫圖文交錯?就是不單獨輸出文字,不單獨輸出圖片,是在一個輸出流里,文字和圖片自然交疊。
就像下面這種。
![]()
再比如說,我想系統了解一下,「五種有代表性的電影運鏡方式及視覺效果」。
![]()
文字介紹和圖片的對應,非常直觀清晰,信息的準確度也都到位。
像下面這個,原創設計一個建在懸崖邊的現代圖書館,展示從宏觀到微觀的四個不同視角:
![]()
![]()
設計的美感、質感都很漂亮,氛圍也很到位。而且文字的表述也很精當,對畫面做了非常好的一句話解讀。
信息圖的呈現效果,也比我預期要好。
你讓它做個“清新手工飲品”的教程,它會一步一個腳印,從準備材料到工具到調味再到攪拌完成。
![]()
每一步都有詳細的文字步驟,同時每一步都配一張對應的圖,每一步都保持高度一致,不會出現第三步的杯子跟第一步長得完全不一樣這種問題。
你讓它講三只小豬的故事,輸入七個字,它給你出一整組連環畫。
三只小豬、三種房子的材質、最后那只狼,每個分鏡都排得整整齊齊,故事邏輯不亂。
![]()
傳統模型要實現類似的效果,可能需要用一個模型做文本規劃,再用另一個模型按規劃生成圖片。
圖片和圖片之間的風格、視角、人物很難一致,因為這中間多個模型的認知是割裂的,沒有一個統一的“審美記憶”。
各個模型各畫各的,就會出現第一步還是可愛風,第三步變成寫實派,主角的臉在第二次出現時直接變形這樣讓人哭笑不得的情況。
![]()
在內容創作領域,這種連續圖文生成能力意味著真實的生產力提升。
博主、教育工作者、營銷人員都可以利用這種能力,把長篇文字內容快速轉化為易于消化的圖文混合內容,直接把復雜信息濃縮成一眼能懂的圖示,再也不用像以前那樣排版、配圖和編輯好幾天。
04端掉重資產上限:AI開發的下一場變革
商湯這次開源,更深層的價值也許是:他們正在重新定義多模態AI開發的下一個標準范式。
行業里有一個被很多人忽略的潛規則——為了獲得多模態能力,必須支付巨額的硬件成本。
因為拼接式架構效率低,只能堆硬件去彌補結構的短板。
對大公司來說或許沒問題,但對創業團隊、個體開發者和研究機構來說,這筆成本是高不可攀的天花板。
SenseNova U1打破了這條規則。
它以極致效率,讓小模型也能做出大模型的活兒。8B級別的模型能做到過去需要數十億甚至上百億參數的閉源產品才能做的質量。
我查了一下他們的發表記錄,NEO-Unify一開始是商湯和南洋理工大學S-Lab合作做的研究項目。今年3月他們將這項架構設計正式提出,4月底就落地推出開源實現,研發和交付的節奏很快。
從技術報告看,這個架構展現出了很高的數據訓練效率。跟其他類似架構比,NEO-Unify在訓練步數更少的情況下達到更好的性能。
![]()
這背后反映出的是一種開發思維的轉變。過去一年多行業流行的思路是:模型不行,砸錢堆參數、堆數據,總能砸到夠強。不是說這條路不對,但它不是可持續的路線。
真正走得遠的路線,應該是在架構上找答案,而不是無腦堆資源。
商湯選擇開源這條路,給了社區一個真正可用的原生統一多模態架構。
開源不僅僅是一種態度,讓更多的開發者可以參與到開發和改進中,更是一種促進創新的策略——讓更多頭腦在同一個高效的基礎設施上做探索。
隨著模型在GitHub、Hugging Face同步開放,配套的提示指南和技能庫也會陸續上線。我個人很期待看到開發社區基于這套架構創造出什么樣的新應用和新用法。
05寫在最后:多模態走向何方
回看SenseNova U1,我覺得它的最大意義不在于又一次技術秀,而在于它用第一性原理的思考方式,給多模態AI開發長期以來的拼接思維劃了一個句號。
多模態模型真正該走的路,不應該是每個功能各走各的,最后想辦法強扭到一起。而是從一開始,就把理解和生成當作同一個大問題的不同側面,用同一套系統去統一解決。
![]()
商湯這步棋下得很聰明。他們沒去死磕所謂更大參數數字,而是真正思考了多模態的本質,然后直接推倒重來。他們在發布會上說了一句話,我覺得說得很好——原生統一的多模態智能是通往AGI的必經之路。
從使用場景看,SenseNova U1未來可以作為機器人的“具身大腦”,在一個模型閉環里完成從環境感知到邏輯推理再到任務執行的完整過程。
當然,這不是說SenseNova U1已經完美無缺。開源版本目前還是Lite系列,更大參數的正式版還在路上。一些極復雜的視覺推理場景中,模型偶爾還是會出一些常識性的偏差。但它最重要的一點是:方向對。
2026年的多模態AI賽道上,商湯給出了一個足以讓行業重估賽道的變量——不是靠燒錢燒出來的效率,而是在底層架構原生統一中找到了破局點。
從模型集成到原生統一,從堆參數到砍架構,這不僅是技術上的取舍,更是對商業和生態邏輯的理解。
![]()
開源的原生多模態架構,正在消除過去幾年中國AI研發長期面臨的芯片與軟件生態的隔閡。
當算力不再是絞索,架構創新的價值就會被真正釋放。
中國企業能做出一款媲美Flux的30納米高端芯片,也完成了一條從芯片到算法、從底層框架到開發工具鏈完整的獨立生態。
商湯這一步只是個開始。當多模態的第一步踏穩了,第二步就會覆蓋更復雜的現實場景。
從辦公文檔的自動化生成到醫療影像的智能解讀,從教育內容的AI輔助制作到工業模擬的復雜任務執行——只要底層架構足夠靈活、原生統一足夠徹底,這些應用的爆發可能就在未來的十八到二十四個月里。
我唯一有些遺憾的事情是,這么好的模型,他們的文檔里沒有展示更多關于它對系統指令和全局風格掌控力的案例。
我正琢磨著,下周用自己手頭的數據和任務在下游調優一下,看看是否可以做出更有用的商業級落地場景。
如果這次嘗試順利,說不定我還會再寫一篇續文,詳細講講SenseNova U1在實際場景中的神奇表現。
現在嘛,我得先去寫代碼和跑模型了。
AI的第一性原理,畢竟還是要靠自己親手做出來才算數。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.