<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      FysicsWorld:填補全模態交互與物理感知評測的空白

      0
      分享至



      近年來,多模態大語言模型正在經歷一場快速的范式轉變,新興研究聚焦于構建能夠聯合處理和生成跨語言、視覺、音頻以及其他潛在感官模態信息的統一全模態大模型。此類模型的目標不僅是感知全模態內容,還要將視覺理解和生成整合到統一架構中,從而實現模態間的協同交互。

      這種轉變的驅動力源于真實物理世界的復雜性,自從文明誕生以來,人類通過對反映現實世界本質的視覺線索、聽覺信號、空間動態等復雜多模態信息的不斷觀察、分析和推理來實現對真實物理世界的正確認識和理解。

      因此,一個面向真實物理世界的先進的全模態智能架構,不僅需要對真實世界中的多模態交互做出正確響應,還應具備遵循物理世界規律的感知與推理能力,以實現對復雜現實環境的可靠理解。

      盡管當前的多模態與全模態大模型不斷突破,但評測體系卻始終難以跟上模型能力的擴張——模態覆蓋不完整、模態之間缺乏真實物理世界關聯、各種多模態任務長期局限于文本輸出下的評測,難以反映模型在真實環境中的全模態耦合與人機交互的能力。這讓研究者無法全面評估模型在面對復雜物理世界場景時的實際能力,也無法進行公平、統一的跨模態比較。

      為解決這一發展瓶頸,飛捷科思智能科技(上海)有限公司(Fysics AI)和復旦大學認知與智能技術實驗室(CITLab)研究團隊共同正式推出了全球首個面向真實物理世界的統一全模態評測基準——FysicsWorld(中文名稱:物理世界)

      該基準不僅能夠評測模型在圖像、視頻、音頻與文本間進行雙向輸入與輸出的能力,還覆蓋了模型對真實物理世界場景的感知、理解、生成以及跨模態推理等核心能力。



      圖 1:FysicsWorld 全模態智能評測體系示意圖

      FysicsWorld 包括具備高質量樣本的 16 大任務,涉及上百類真實開放域場景,并精心設計了跨模態信息之間的依賴關系與互補性,從而全面呈現物理世界多模態信息的復雜性。



      • 論文標題:FysicsWorld: A Unified Full-Modality Benchmark for Any-to-Any Understanding, Generation, and Reasoning
      • 技術報告鏈接:https://arxiv.org/pdf/2512.12756
      • GitHub 項目主頁鏈接:https://github.com/Fysics-AI/FysicsWorld
      • 數據集鏈接
      • https://huggingface.co/datasets/Fysics-AI/FysicsWorld
      • https://hf-mirror.com/datasets/Fysics-AI/FysicsWorld
      • 模型排行榜鏈接:https://huggingface.co/spaces/Fysics-AI/FysicsWorld-LeaderBoard

      此外,FysicsWorld 創新地提出了跨模態互補性篩選策略(Cross-Modal Complementarity Screening, CMCS),其通過嚴格的模態依賴性驗證機制,確保基準中的每個樣本在求解時均必須依賴多種模態的信息融合,從而有效避免「單模態捷徑」帶來的偏差。因此,CMCS 能夠更可靠地評估模型在真實物理世界場景下的多模態綜合智能水平。

      通過大量實驗證明,FysicsWorld 不僅能夠清晰揭示當前全模態模型架構在融合多模態理解推理、基于語音驅動的人機交互、跨模態生成及物理現實世界場景感知等環節的真實短板,也為未來面向物理環境的全模態架構研發提供了診斷工具與方向指引。隨著 FysicsWorld 的推出和應用,下一代人工智能正在從簡單的「多模態拼接」邁向真正的全模態統一智能,在面向真實世界的理解和交互方面邁出關鍵一步。

      深度挖掘:從「多模態拼接」到

      面向真實物理世界的「全模態智能」的深度需求

      隨著多模態模型從最初的「視覺 + 語言」,逐步走向「視覺 + 音頻 + 語言」,再到如今面向真實物理世界的全模態統一架構,人們對大模型的期待已遠超「看得懂、聽得懂」。

      研究者希望它們能夠在真實環境中準確理解現實物理世界中的復雜場景、整合來自不同感官的信號、進行跨模態推理,并以更加自然、符合物理世界規律的方式與人類交互,為未來具身智能時代的發展奠定基礎。然而,現有評測體系遠遠無法反映模型在真實物理場景下的能力:

      • 模態覆蓋不全:多數跨模態基準仍局限于文本為中心的有限模態中,鮮有工作能夠徹底涵蓋文本 - 圖像 - 視頻 - 音頻為代表的物理世界全模態信息,無法真正評測新一代模型在更為復雜的真實世界場景中的全模態信息融合理解能力。
      • 輸出形式單一:現有的跨模態評測基準大多數僅考察文本輸出,幾乎不涉及多模態生成,也缺乏語音驅動的多模態交互等面向真實世界以人為主體的任務,難以推動未來以語音驅動為基礎的跨模態人機交互的發展。
      • 模態關聯不強:現有的多數跨模態數據集僅僅將多個不同模態信息(例如圖像、視頻、音頻)簡單拼接,進行排列組合,卻忽略了不同模態信息之間的關聯性及耦合性,導致跨模態數據的信息密度較低,不要求模型融合真實物理場景中不同模態的線索進行真正的跨模態理解和推理,這阻礙了對新一代全模態模型的能力探索和深度挖掘。



      圖 2:全模態智能評測體系對比圖

      在模型能力快速發展、應用場景愈發貼近真實物理世界的今天,一個能夠真正覆蓋任意模態輸入輸出,挖掘以人為主體的語音驅動多模態人機交互能力,并能夠反映模型在物理真實場景下跨模態智能水平的統一評測基準體系,已經成為推動全模態智能向前邁進的迫切需求。

      核心突破:FysicsWorld

      首次打通「全模態全鏈路」的統一任務體系

      全模態評測任務體系:從基礎感知到高階交互的系統覆蓋

      FysicsWorld 構建了一套兼顧廣度與深度的任務體系,將 16 項多模態任務系統化地組織為一條從基礎感知延伸至面向真實物理世界的高階交互的能力曲線。

      在基礎多模態能力層面,FysicsWorld 全面檢驗模型在圖像理解、視頻理解、音頻推理,以及視覺生成等核心任務上的表現,確保視覺與聽覺能力在細粒度層面得到充分驗證。

      在高階跨模態交互層面,FysicsWorld 進一步將評測推向真實應用場景下的跨模態交互任務,構建了細粒度的能力挖掘與評價體系,通過語音驅動的視覺理解與人機交互、基于視覺信息的音頻合成、跨模態綜合邏輯推斷、以及基于動作序列和當前狀態的后續行為預測等任務,共同構成對模型在真實物理世界中多源信號融合、語義一致性、復雜推理與動態環境適應能力的嚴格考查。這些設計不僅關注信息處理本身,更強調模型在真實環境中進行整體決策和協同感知的能力。

      憑借這一結構完整、層級清晰的任務體系,FysicsWorld 首次實現了對全模態模型從單模態到多模態、從靜態到動態、從時序到空間、從感知到生成與推理的連續覆蓋,并充分貼合真實物理世界的環境復雜性,為下一代面向物理場景的全模態智能提供了真正意義上的統一評測框架。



      圖 3:FysicsWorld 評測體系分類圖



      圖 4:FysicsWorld 系統性評測體系示意圖

      跨模態數據的融合與高質量構建:新穎的跨模態數據構造流程

      FysicsWorld 在數據構建階段采用了嚴謹的多源融合流程。研究團隊從異構高質量數據集中篩選多模態樣本,并通過人工審校與半自動化輔助校對的雙重機制,對語義一致性、表達自然度和場景匹配性進行嚴格篩查,逐步排除不符合標準的內容,確保問答和指令在邏輯與語義上保持高準確度。

      在語音驅動的人機交互相關任務中,FysicsWorld 進一步構建了閉環數據構造與驗證流程:先由對文本進行自動化重寫與口語化表述增強,再通過多樣的語音合成技術,基于 10 余種不同的真人語音音色,構造真實自然且高度擬人化的語音交互數據,隨后通過語音識別反向驗證語義一致性,以保證合成的語音內容表達自然、含義明確,并與文本嚴格對齊。

      依托這一精細化、多階段的構建模式,FysicsWorld 構建了更加真實與自然的高質量語音驅動人機交互任務,在大規模覆蓋與數據純度之間取得了良好平衡,為全模態任務體系提供了可靠且高質量的基礎數據支撐。

      跨模態互補性篩選策略:打破模態孤島,確保跨模態間的信息依賴

      在多模態評測中,一個經常被忽視的風險在于,許多任務實際上并不真正依賴多模態信息即可被輕松解決,這使得評測結果難以有效反映模型真實的多模態融合能力。為解決這一長期存在的問題,FysicsWorld 創新地引入了跨模態互補性篩選策略(Cross-Modal Complementarity Screening, CMCS),從數據構造層面確保跨模態任務具備明確的模態信息耦合與依賴。

      跨模態互補性篩選策略的核心機制簡單而有效,對于待篩選的跨模態樣本,該策略隨機移除一個或多個模態,并觀察評測模型的性能變化。若模型在模態消融后仍能保持較高的任務表現,則該樣本被視為跨模態依賴不足或信息冗余,因而從 FysicsWorld 中剔除。這類樣本容易使模型依賴單一模態的捷徑作答,無法有效檢驗真實的多模態融合能力。

      反之,經過任意模態消融后模型都無法順利解決的數據樣本才會被 FysicsWorld 保留,這些數據能夠體現各模態之間顯著的信息互補性和耦合性,必須整合視覺、聽覺和語言線索的互補證據才能解決這類問題。



      圖 5:FysicsWorld 跨模態數據構造示意圖

      得益于跨模態互補性篩選策略,最終的數據集具備強模態互補性,使 FysicsWorld 能夠更準確地檢驗模型的真實多模態融合水平,成為當前評估全模態能力最具參考價值的基準之一。

      多維度論證:

      全模態模型的真實能力圖譜

      基于 FysicsWorld,研究團隊圍繞國際上 30 余個最先進的 AI 模型進行了系統性的評測,涵蓋全模態大模型、多模態大模型、特定模態的專用模型以及統一理解與生成式模型。

      基礎多模態能力分層清晰,基石仍待打牢

      在圖像、視頻和音頻理解的基礎多模態任務中,實驗結果呈現出明顯分層。GPT-5 與 Gemini-2.5-Pro 等閉源模型整體領先,表現穩定可靠。開源全模態模型雖在部分任務上逐漸縮小差距,但在長視頻語義鏈路、復雜聽覺理解以及高難度推理中仍顯薄弱。統一結構的理解 - 生成模型在圖像和視頻生成上展現一定競爭力,但在細粒度文本約束、語義一致性及結構控制能力上仍落后于專門的擴散式或視頻生成模型。

      這些結果揭示了當前模型在基礎感知與生成能力上的主要瓶頸,同時為跨模態任務提供了重要的性能基線。



      圖 6:音頻推理和視頻生成任務中不同模型性能對比示意圖

      跨模態推理與交互:真實世界融合能力仍處早期

      當任務從單模態切換到真實物理場景下的多模態協作時,模型性能普遍出現明顯下滑,退化幅度遠超預期——尤其是在那些必須依賴圖像、視頻、音頻之間真實互補關系才能作答的任務中,短板暴露無遺。

      無論是通過語音驅動的視覺理解與人機交互、基于視覺信息的音頻合成、跨模態綜合邏輯推斷以及基于動作序列和當前狀態的后續行為預測等任務,都要求模型具備深層次的跨模態交互、真實物理世界常識理解與時空推理能力,嚴格考查了模型在真實物理世界中多源信號融合、語義一致性、復雜推理與動態環境適應能力。然而實測表明,主流模型在面向真實世界的多模態對齊、信息融合、跨模態生成以及物理場景適應能力等關鍵環節,仍存在顯著不足。

      這些結果清晰指出,盡管多模態模型在基礎認知上已有顯著進展,但要實現面向真實物理世界的全模態智能,還需要在跨模態融合、動態環境理解、物理約束推理與多源感知協同等方向進一步突破。



      圖 7:全模態 / 視覺語言大模型在圖像為中心任務上的性能對比



      圖 8:全模態 / 視覺語言大模型在視頻為中心任務上的性能對比

      洞察與趨勢:面向真實物理世界的

      全模態智能仍有廣闊空間

      現有全模態模型和多模態大模型在多源感知和基礎生成上雖已初見成效,但在面對復雜物理場景、多源信息交互以及長時序動態環境時,仍難以實現穩定、深度的跨模態融合與統一推理。

      這意味著,面向真實物理世界的全模態智能的下一階段,不僅需要繼續鞏固單模態能力的根基,提升視覺、聽覺、語言等單模態處理在真實場景中的精度與一致性,更需要在模態融合策略上進行系統性優化,實現多模態信息在時空、語義及物理約束維度的協調與整合。

      跨模態動態推理、場景化理解與生成能力,將成為衡量下一代全模態模型核心競爭力的關鍵指標。模型不僅需要在復雜物理環境中整合圖像、視頻、音頻與文本信息,還要能夠在長時序、多事件交互、受物理環境約束的情況下保持邏輯一致性、語義連貫性與生成穩定性。這對模型的結構設計、推理機制以及數據構建提出了更高要求,也為研究者和工程團隊提供了明確的發展方向。

      作為首個支持全模態輸入輸出、覆蓋感知 - 理解 - 推理 - 生成、并具備強跨模態依賴性的統一評測基準,FysicsWorld 為面向真實物理世界的全模態智能提供了可控、系統且可比較的能力映射工具,使研究者能夠清晰洞察模型在多模態感知、物理場景信息融合和跨模態推理生成上的真實水平,為推動全模態智能在真實世界中實現穩定、深度的跨模態融合與統一推理提供了堅實支撐。

      飛捷科思智能科技(上海)有限公司由復旦大學智能機器人與先進制造創新學院副院長、智能機器人研究院常務副院長,原英偉達 PhysX 物理引擎主要奠基人與研發團隊負責人張立華教授創辦,是國內唯一擁有完全自主研發的可微分通用物理仿真引擎產品的企業。

      公司以新一代物理仿真引擎 Fysics 為核心,致力于打造全球領先的物理智能關鍵技術與產品,推動具身智能與人形機器人技術研發及應用場景的快速落地,在高精度物理仿真引擎、高質量具身智能仿真平臺、機器人敏捷運動與魯棒智能控制等領域處于行業領先水平,并向行業提供覆蓋「仿真—訓練—部署—迭代」的全棧解決方案。依托自主可控的物理智能底座,公司持續賦能中國具身智能與機器人產業的發展。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      白打一輪!英超升級迎來大變革,四隊零進球,全部都在“演戲”?

      白打一輪!英超升級迎來大變革,四隊零進球,全部都在“演戲”?

      嗨皮看球
      2026-05-10 00:35:15
      多項研究顯示:性生活頻率過低,男女容易早衰且患癌風險增高!

      多項研究顯示:性生活頻率過低,男女容易早衰且患癌風險增高!

      燈錦年
      2026-05-05 21:55:51
      俱樂部37球+國家隊13球,哈蘭德達成賽季50球成就

      俱樂部37球+國家隊13球,哈蘭德達成賽季50球成就

      懂球帝
      2026-05-10 02:15:07
      南寧一群眾到法院申請立案被法警群毆斷兩根肋骨!警方:不予立案

      南寧一群眾到法院申請立案被法警群毆斷兩根肋骨!警方:不予立案

      兵叔評說
      2026-05-09 13:21:06
      3-0爆冷世界第五仰天怒吼!18歲天才閃耀 雷洋:法國隊有冠軍相

      3-0爆冷世界第五仰天怒吼!18歲天才閃耀 雷洋:法國隊有冠軍相

      顏小白的籃球夢
      2026-05-09 09:29:53
      “少帥廳長”鄭少東:雪茄煙500元一支,喝的普洱茶30萬一兩

      “少帥廳長”鄭少東:雪茄煙500元一支,喝的普洱茶30萬一兩

      瞻史
      2026-05-09 23:09:35
      U17國足亞洲杯首球誕生!趙松源單刀破門,戲耍日本隊防線

      U17國足亞洲杯首球誕生!趙松源單刀破門,戲耍日本隊防線

      奧拜爾
      2026-05-10 01:13:19
      深圳6歲男童吃生菜包烤肉后,全身出現大片青斑、血腫

      深圳6歲男童吃生菜包烤肉后,全身出現大片青斑、血腫

      聽心堂
      2026-05-09 18:11:29
      尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

      尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

      火山詩話
      2026-05-08 21:39:02
      141:0壓倒性優勢,歐盟成員國通過重大草案,中國外交部:贊賞

      141:0壓倒性優勢,歐盟成員國通過重大草案,中國外交部:贊賞

      書紀文譚
      2026-05-08 15:05:30
      別吃!寄生蟲多達6000條,上海近期正大量出現,嚴重可致死

      別吃!寄生蟲多達6000條,上海近期正大量出現,嚴重可致死

      新民周刊
      2026-05-09 13:15:09
      央視報價34億打包兩屆世界杯!與國際足聯要價差6億 有望達成協議

      央視報價34億打包兩屆世界杯!與國際足聯要價差6億 有望達成協議

      念洲
      2026-05-09 19:24:36
      “4只皮皮蝦1035元”當事人否認想吃白食,刪除評論;隔壁海鮮店發聲

      “4只皮皮蝦1035元”當事人否認想吃白食,刪除評論;隔壁海鮮店發聲

      上觀新聞
      2026-05-09 09:58:08
      “尋天”商標注冊!小米欲成立汽車獨立子品牌?官方未作回應

      “尋天”商標注冊!小米欲成立汽車獨立子品牌?官方未作回應

      每日經濟新聞
      2026-05-09 19:47:07
      滴滴司機講述東北蕭條:一家三口一年掙兩三萬,很多老人翻垃圾桶

      滴滴司機講述東北蕭條:一家三口一年掙兩三萬,很多老人翻垃圾桶

      互聯網大觀
      2026-05-09 13:07:25
      國防部:已成功配齊“航母五件套”

      國防部:已成功配齊“航母五件套”

      大象新聞
      2026-05-09 16:46:07
      牌匾被小朋友涂鴉 鎮政府回應:暫時不會更換。“人民”二字不僅寫在牌匾,更刻在了心底!

      牌匾被小朋友涂鴉 鎮政府回應:暫時不會更換。“人民”二字不僅寫在牌匾,更刻在了心底!

      閃電新聞
      2026-05-08 22:27:49
      抓了那么多貪官,錢呢?跟我們有關系嗎?

      抓了那么多貪官,錢呢?跟我們有關系嗎?

      細說職場
      2026-05-08 22:15:45
      妻子要出差三年,希望我理解,我遞出驗孕棒:理解你給別人生娃嗎

      妻子要出差三年,希望我理解,我遞出驗孕棒:理解你給別人生娃嗎

      千秋文化
      2026-05-06 20:36:09
      駐加爾各答總領館再次提醒中國公民避免自尼泊爾誤入印度國境

      駐加爾各答總領館再次提醒中國公民避免自尼泊爾誤入印度國境

      環球網資訊
      2026-05-09 21:42:17
      2026-05-10 02:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12957文章數 142646關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現身

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現身

      體育要聞

      成立128年后,這支升班馬首奪頂級聯賽冠軍

      娛樂要聞

      50歲趙薇臉頰凹陷滄桑得認不出!

      財經要聞

      多地號召,公職人員帶頭繳納物業費

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      家居
      藝術
      房產
      公開課
      軍事航空

      家居要聞

      菁英人居 全能豪宅

      藝術要聞

      深圳終究失去“中國第一高樓”,華潤接手地塊!

      房產要聞

      低價甩賣!海口這個地標商業,無人接盤!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美伊突然再次交火 伊朗外長:戰爭準備程度是1000%

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久精品成人无码观看56| 欧美色欧美亚洲高清在线视频| 色就是色3751| 天天看片天天av免费观看| 中文文字幕文字幕亚洲色| 91极品身材尤物ThePorn| 一本到在线dvd国产观看不卡| 中文字幕亚洲有码| 亚洲小说乱欧美另类| 日本亚洲二区在线不卡| 中文字幕亚洲欧美日韩在线不卡| 少妇无码一区二区三区免费| 亚洲熟女无码在线| 热RE99久久精品国产66热| 伊人久久大香线蕉综合5g| 91纯肉无码动漫在线观看| 伊人日韩亚洲| 午夜三级A三级三点在线观看| 在线视频中文字幕二区| 亚洲中文字| 亚洲中文无码字幕| 色综合合久久天天综合绕视看| 好吊视频在线一区二区三区| 四虎在线成人免费观看| 亚洲欧美中文字幕日韩一区二区| 国产视频一级二级三级| 欧美做受视频播放| 亚洲精品中文字幕尤物综合| 国产熟妇搡bbbb搡bbbb| 人妻AV无码系列一区二区三区| 亚洲精品国精品久久99热| 久久国产精品亚洲精品99| japanese无码中文字幕| 成年免费a级毛片免费看无码| 久久综合给合久久国产免费| 日韩无人区码卡1卡2卡| 中文字幕乱码亚洲中文在线| www.99re6| 国产女人喷潮视频免费| 三级网站视频在在线播放| 亚洲区日韩|