網易首頁 > 網易號 > 正文申請入駐

蘋果連發3項AI研究，推進空間計算與Vision Pro頭顯方向

2026-05-12 09:11:11　來源: IT之家

山東舉報

分享至

IT之家 5 月 12 日消息，科技媒體 Appleinsider 昨日（5 月 11 日）發布博文，報道稱基于最新公開的 3 項研究，蘋果仍在積極推進空間計算和 Vision Pro 頭顯。

IT之家 4 月援引 MacRumors 媒體報道，蘋果公司內部已擱置研發新款 Vision Pro，團隊重心轉向 Siri 和 AI 智能眼鏡。

但從最新公示的研究論文來看，蘋果公司并未放棄 Vision Pro 頭顯項目，本輪公開了 3 項研究，分別涉及多模態大模型空間推理評測、美式手語視頻標注，以及 3D 頭部重建。

其中最直接的一項，是蘋果在機器學習博客發布的《From Where Things Are to What They’re For：Benchmarking Spatial-Functional Intelligence for Multimodal LLMs》。

這篇論文提出 SFI-Bench，用來測試多模態大模型是否既看懂空間布局，也理解物體“能做什么”。原文提到，這套視頻基準包含 134 段室內視頻掃描，并整理出 1555 道專家標注問題。

SFI-Bench 不只問模型“這是什么、在哪里”，還會追問“它怎么用、出了故障怎么辦”。例如，模型可能需要從柜子里找出同品牌數量最多的一組瓶子，理解洗衣機當前程序如何取消，或者判斷電視遙控器的用途。相比只測空間識別的舊方法，這更接近日常家庭場景，也更像未來空間助手需要處理的真實任務。

蘋果公司的人工智能研究人員測試了智能體（LLM）對周圍世界的理解能力。圖源：蘋果公司

測試結果顯示，Google Gemini 3.1 Pro 總分最高，OpenAI GPT-5.4-High 排名第二，Gemini-3.1-Flash-Lite 排名第三。

但論文也點出共同短板：幾乎所有模型都不擅長“帶條件的全局計數”，并且在空間記憶、功能知識整合，以及把眼前畫面和外部知識連起來這幾件事上仍有明顯限制。

手語論文《Bootstrapping Sign Language Annotations with Sign Language Models》嘗試用 AI 自動生成候選標注，減少數百小時手工標注成本。

蘋果公司的研究人員探索了使用人工智能進行美國手語（ASL）標注的可能性。圖源：蘋果公司

原文稱，團隊建立了近 500 條人工英文字詞到術語標注，并擴展到超過 300 小時 ASL STEM Wiki 和 7.5 小時 FLEURS-ASL 數據。其手指拼寫模型在 FSBoard 上達到 6.7％ CER，在 ASL Citizen 數據集上達到 74％ top-1 準確率。

第三項研究《Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures》則聚焦 3D 頭像重建。

蘋果公司的人工智能研究人員探索了如何利用 LLM（層級建模）技術，從多角度拍攝的圖像中創建 3D 頭部模型。圖源：蘋果公司。

蘋果提出 HeadsUp 方法，可從大規模多攝像頭采集中重建高質量 3D Gaussian 頭部模型。測試使用了一個超過 10000 名受試者的內部數據集，規模比現有多視角人頭數據集高一個數量級。這可能和 Vision Pro 的 Persona，或 visionOS 中更自然的人臉捕捉與表情渲染有關。

蘋果公司全球營銷高級副總裁格雷格 · 喬斯維亞克（Greg Joswiak）此前表示，Vision Pro 展示了數字世界與物理世界融合的未來形態，這種融合具有必然性。當被問及具體時間表時，他坦言無法預測“空間計算”何時能成為主流，但堅信這一方向不可逆轉。

參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.