文 | 市象,作者 | 景行,編輯 | 古廿
當前,Coding 時代的行業共識已經確立。
“盡管我們上調了Token價格,客戶接受度依然很高,需求持續旺盛,甚至當前供應仍無法完全滿足需求,仍有大量客戶在排隊等待服務。”
上周2026財年Q4財報會議上,阿里巴巴CEO吳泳銘用一番發言,道出Coding蛋糕的龐大。
AI 終于從發布會走進了企業的生產預算,阿里解決了第一個問題:AI 有沒有真實需求?
第二個問題來自Google:AI下一步會長成什么樣?
北京時間5 月 20 日凌晨,Google I/O 2026如期開場。
這屆大會的亮點,無疑是智能體與多模態能力的展示。在Gemini Omni Flash的發布中,Google對其有一段精確定義——支持任何模態的輸入,生成任何模態的輸出。
![]()
大會展示的視頻輸出只是一個開始,按照Google的規劃,Omni有能力實現文圖音視的全模態輸出,并基于Gemini的世界模型能力,生成重力、動力更精確的物理效果。
對Google來說,Omni不再是一個視頻模型,而是真正的超級內容創作入口,進而嵌入所有的創作者工作流程,創造一個比Coding想象空間更大的多模態應用市場。
相較編程,這是AI的真正富礦。從行業通用定價來看,每百萬 tokens 的價格,視頻模型要遠高于圖片和文本。這意味著,只要token調用量提升,視頻將創造遠超文本的API價值。
更重要的是,多模態正在迎來一個歷史性的技術拐點。
對比早期文本模型+圖像模型+視頻模型的簡單拼接模式,在2026年,以 Google Gemini Omni 為代表的統一基座全模態模型的出現,標志著行業即將進入一個全新的時代。
多模態,下一個Token拐點
OpenAI 首席執行官Sam Altman沒想到的是,100萬用戶規模的成績,發布初的ChatGPT要5天實現,GPT-4o圖像生成只需要1個小時。
憑借高度還原的吉卜力畫風,GPT-4o生圖功能上線即爆紅,OpenAI 不得不限制免費資格,并懇求用戶不要再瘋狂生圖,讓團隊睡個好覺。
今年發布的圖像生成模型Image 2,一小時全球新增用戶破180萬,再次打破GPT-4o紀錄,一周時間內,全球活躍用戶便超過1.2億,帶動ChatGPT Plus訂閱量環比增長23%。
年初Google Nano Banana 2的發布,則實現了全球測試屠榜的盛況。產品將一張4K多細節圖的生成時間,從分鐘級壓縮到秒級。
截至目前,Nano Banana系列累計生成圖片已超過500億張。媒體評價是,Google正在終結PS時代。
毫無疑問,顛覆級的多模態模型,擁有一錘定音的市場影響力。
在去年的Google I/O大會上,VEO 3一鳴驚人,切水果視頻席卷了TikTok,僅用半年時間,生成視頻總量就突破2.3億條,有媒體撰文稱,VEO 3挽救了谷歌的財報。
但更大的顛覆還在路上。
前幾天有Reddit用戶意外找到并分享了一則Gemini Omni的Demo,瞬間引爆了全球AI社區:
教師一邊講課,一邊在黑板上寫下公式,全程聲音、畫面、板書文字精確流暢,絲滑至極。
有X用戶的評價是,視頻模型的Nano Banana時刻要來了。
Gemini Omni的驚艷之處不僅于此,模型支持一鍵去除水印、替換物體并自適應光影,從演示效果看,其文字一致性、角色連貫性超越了過往所有視頻模型。
跑出過火星文畫面的AI用戶都清楚,讓AI做一個文字清晰準確的內容有多難,更不要說是數學公式,還是在課堂上邊講邊寫。
與VEO相比,Google Omni是真正意義上全模態輸入、全模態輸出的模型,支持用戶通過任意模態內容混合輸入,生成高質量的視頻,同時支持對話編輯。
這意味著,Google Omni有能力將所有模態的分析與生成處理,在一個統一模型內部完成,而非調動多個系統后期整合。
按照Google的定義,Omni是Gemini主架構的進化,將Gemini從誕生起就具備的原生多模態能力,從輸入端擴展到了輸出端。
相比之下,VEO和Nano Banana并非獨立產品,而是Omni身上的能力組件。
在現場演示中,Google高管展示了具體編輯場景——用戶輸入“把背景換成雪地”,模型就換掉視頻環境;輸入“改成從側面跟拍的角度”,畫面運鏡就隨之改變;輸入“加上旁白”,視頻就能生成解說及背景音樂。
自始至終,用戶只要對話,就能像指揮員工一樣修改視頻,并精確到每一個細節,無需切換線程或重新上傳。這就將VEO等上一代視頻模型提示詞生成、抽卡賭運氣的模式完全改寫。
DeepMind首席執行官德米斯·哈薩比斯則表示,未來Omni將能完成任意模態的輸入及輸出功能,入口覆蓋Gemini應用、Google Flow和YouTube Shorts,更強的Omni版本會在后續推出。
背后Google的野心昭然若揭。它要做一個真正的世界模型,沒有媒介限制,沒有模態隔閡,AI 可以用任何人類能理解的方式,和世界進行交互,用一個模型定義AI的未來形態。
支撐這個野心的,正是全模態能力。
很多人沒意識到,統一基座的全模態模型,其實在研發效率上更有優勢。
在執行跨模態任務時,文本理解的提升,可以反哺圖像和視頻質量,讓生成內容更符合邏輯;圖像和視頻的訓練數據,又可以幫助模型更好地理解物理世界,提升文本推理和常識判斷能力。
這是1+1>2的正向循環。也能解釋為何楊立昆、李飛飛等大牛堅持認為,多模態世界模型才是AI的未來路徑。
過去市場盯著Coding看,對多模態認知不足,這一思維范式正在被推翻。
摩根士丹利在近期研報中指出,Minimax的潛在價值被市場忽略,其ARR在2026年底將達到10億美元。一個重要原因是,市場低估了多模態技術的商業價值,特別是大語言模型與多模態模型的相互促進。
這句話,點破了當前AI行業最大的視野盲區。
原生的五感全能戰士?
看回國內市場,一輪技術驅動的增長正在醞釀中。
摩根士丹利指出,中國模型市場已經走到凸性爆發拐點,將復刻美國市場的超新星爆發速度。原因有二:一是模型能力已經接近甚至超越此前的美國頭部產品,二是相比美國模型,中國模型定價普遍更有優勢。
放眼國內市場,主要玩家的現階段敘事邏輯高度趨同:爭奪Claude平替這個生態位,再找獨有優勢,比如專攻長文本、專攻智能體、專攻推理,最后從訂閱價格角度卷出優勢,殺出紅海。
但這并不是市場的全貌。
仍有玩家在技術路線上高度接近Gemini Omni的方向,有望率先在國內復刻這一生態位,就是Minimax。
最近高盛發文將字節、阿里、Minimax三家并列,依據是中國獨立AI廠商中,Minimax獨一無二的全面全模態布局,以及其行業領先的高性價比、高靈活性計算架構。
![]()
高盛:中國多模態模型持續進軍全球,關注Hailuo 3
按照高盛的預測,M3與Hailuo 3模型發布,將成為Minimax的重要里程碑,其文本API業務毛利率將達到40%,多模態API業務毛利率達到60-70%,高于同行水平。
瑞銀則將Minimax的目標價設定為1000港元,原因是隨著多模態能力潛力釋放,不同模態間的協同研發,將帶動訓練成本的壓縮,以及模型能力的快速提升。
換言之,多模態研發給Minimax帶來的遠不止產品矩陣,還包含更精細、高效的工程框架。這將令企業模型進一步降低門檻,從開發者向普通用戶擴展。
摩根大通則給到Minimax“超配”評級,理由是“技術實力、多模態商業化潛力、全球可擴展性的罕見組合”。
Minimax不僅是國內唯一同時具備“文本+圖像+視頻+音頻+音樂”全棧能力的獨立大模型廠商,而且文本、語音、視頻生成能力全部排在全球第一梯隊。
過去的市場中,全模態很容易被誤解成“功能表”,文本、圖片、視頻、語音、音樂,五個格子都打勾,就叫全模態。
但事實上,全模態的真正價值,不在于“能做什么”,而在于“這些能力能不能彼此增強”。這是先天路線選擇和后天補丁式升級的本質區別。
視頻生成就是一個最好的例子。
文本模型說自己理解物理世界,很難驗證。你讓它寫一篇關于蘋果落地的文章,它能寫得頭頭是道,但你永遠不知道它是不是真的理解萬有引力。
但視頻生成不一樣,一秒鐘就能露餡。手的位置對不對?物體運動的軌跡符不符合物理規律?鏡頭切換是否連貫?文字是否清晰準確?音畫是否同步?一個地方出錯,用戶立刻能看出來。
這是對大模型理解世界能力的終極考驗。不僅要更強的空間理解能力,還要因果推理、長程一致性和多對象關系建模能力。并反過來提升文本、Agent和工具調用性能。
換言之,統一基座全模態模型不是五個獨立模型的簡單相加,而是一個有機的整體。
這正是Minimax的路線,從M系列大語言模型,到海螺視頻模型、Music音頻模型,這種全模態自研+全模態落地的完整性,在國內獨立AI企業中屬于獨一份。
這種底層顛覆性的先天一體路線,使Minimax能在更低成本下實現更流暢的全感官智能。
摩根士丹利測算,通過基礎設施優化,Minimax在8卡H800推理服務器上,每分鐘可產生約1美元收入,成本低于0.3美元,而行業平均水平只有約0.5美元/分鐘。
招股書中有一段數據,成立以來,Minimax只花了5億美元,就站上全球多模態能力第一梯隊,這個費用規模,只有OpenAI的約1%。
文本大模型M2發布時在全球權威評測Artificial Analysis中,拿下開源第一的成績,其綜合推理成本也只有0.53美元/百萬Token,只有Claude 4.5 Sonnet的8%,推理速度則是后者的兩倍。
同時,在全模態模型的技術路線,Minimax有能力讓文、圖、音、視頻能力協同迭代,突破迭代效率、訓練成本與模型性能的不可能三角。
去年發布的Minimax的視頻模型,僅用約一個月時間,已幫助全球創作者累計生成視頻超過6億個;語音模型則憑借全球頂尖的超低延時,累計生成語音超過2億小時。
換句話說,憑借穩居全球第一梯隊的多模態模型能力,Minimax模型早已成為全球多模態領域的核心基礎設施。
Pure-Play的增長拐點
對于投資者來說,現在最關心的問題是:誰將在全模態的爆發中,成為下一顆新星?
答案很可能是展現出稀缺性資產質地的Minimax,其即將吃到三重歷史性的紅利。
第一重紅利,是阿里巴巴MaaS業績已經驗證過的——Token量價齊升的行業β紅利。
阿里巴巴2026財年財報顯示,其包含百煉MaaS平臺在內的AI模型與應用服務ARR(年化經常性收入)已突破80億元人民幣,到年底將突破300億元。
吳泳銘用發言證明,Agent市場供不應求,賣方市場特征顯著。背后,市場邏輯已經完全扭轉。
摩根大通指出,當前市場主戰場已經從Token價格轉向模型能力,在需求高度強勁的背景下,最優策略不是降價,而是提升模型能力。技術方向與迭代速度更快的玩家,將站出來引領市場。
第二重紅利,是Google全模態基座模型路線催化的,多模態估值重估的行業α。
過去純文本模型公司享受了AI 行情的絕大多數估值溢價,而全模態基座模型將顛覆這一認知——所有需要視覺、聽覺、空間感知的場景如教育、傳媒、工業、醫學、消費都有其施展空間,其商業上限將遠超純文本。
伴隨超強理解能力的全模態基座模型問世,全模態將迎來一輪估值拐點。
第三重是作為中國獨立AI企業,Pure-Play的估值彈性紅利。
大廠的AI業務往往被稀釋在巨量營收里。阿里的MaaS收入占比仍在低位,字節的AI能力被分散在多條產品線中,市場的估值錨點很難精確對應到AI業務上。
但Minimax的模型能力就是主引擎,收入全靠模型本身,沒有被任何其他業務稀釋。這樣的純度差異,會顯著放大增長曲線的斜率。
這意味著,當大模型行業爆發時,Minimax的業績彈性也會更大。
換句話說,阿里巴巴證明了行業β成立,邏輯閉環;谷歌將推動全模態技術路線的α;而Minimax承接的,是中國AI獨一份的又一重α。
而即將發布的模型升級,將是這場重估的沖鋒號。
在2025年財報會議上,Minimax創始人兼CEO閆俊杰明確透露,今年上半年發布的M3及Hailuo 3相關模型,將邁入中長篇生產級內容的直接生成階段,屆時將把平臺的Token需求量,再帶上一至兩個數量級。
摩根士丹利則表示,M3有望匹敵世界頂級模型性能,并展現多模態理解能力。
Hailuo 3則有望復刻Seedance2.0的生態位。高盛表示,海螺下一代模型將在音視頻同步、編輯能力、多分鏡生成領域實現質變,同時降低普通用戶的制作門檻。
更重要的是,Hailuo 3將是 Minimax 全模態基座的一部分。這意味著,Hailuo 3的技術路徑將是與文本、圖像、音頻能力無縫融合,實現更加復雜的多模態任務。
不久后,我們將看到中國在全模態基座模型方向上,最接近Google理念的新的嘗試。
正因如此,頂尖投行普遍認為Minimax是當前AI行業最具投資價值的標的之一。作為國內唯一一家全模態的獨立大模型廠商,不僅技術路線最接近 Google,同時增長潛力尚未完全釋放。
當M3 和 Hailuo 3 的發布窗口日益臨近——Minimax 的稀缺性正在從"技術敘事"變成"財務現實"。待行業重估驗證、新一代模型發布后,市場的判斷可能會完全不同。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.