IT之家 5 月 12 日消息,科技媒體 Appleinsider 昨日(5 月 11 日)發布博文,報道稱基于最新公開的 3 項研究,蘋果仍在積極推進空間計算和 Vision Pro 頭顯。
IT之家 4 月援引 MacRumors 媒體報道,蘋果公司內部已擱置研發新款 Vision Pro,團隊重心轉向 Siri 和 AI 智能眼鏡。
但從最新公示的研究論文來看,蘋果公司并未放棄 Vision Pro 頭顯項目,本輪公開了 3 項研究,分別涉及多模態大模型空間推理評測、美式手語視頻標注,以及 3D 頭部重建。
其中最直接的一項,是蘋果在機器學習博客發布的《From Where Things Are to What They’re For:Benchmarking Spatial-Functional Intelligence for Multimodal LLMs》。
這篇論文提出 SFI-Bench,用來測試多模態大模型是否既看懂空間布局,也理解物體“能做什么”。原文提到,這套視頻基準包含 134 段室內視頻掃描,并整理出 1555 道專家標注問題。
SFI-Bench 不只問模型“這是什么、在哪里”,還會追問“它怎么用、出了故障怎么辦”。例如,模型可能需要從柜子里找出同品牌數量最多的一組瓶子,理解洗衣機當前程序如何取消,或者判斷電視遙控器的用途。相比只測空間識別的舊方法,這更接近日常家庭場景,也更像未來空間助手需要處理的真實任務。
![]()
蘋果公司的人工智能研究人員測試了智能體(LLM)對周圍世界的理解能力。圖源:蘋果公司
測試結果顯示,Google Gemini 3.1 Pro 總分最高,OpenAI GPT-5.4-High 排名第二,Gemini-3.1-Flash-Lite 排名第三。
但論文也點出共同短板:幾乎所有模型都不擅長“帶條件的全局計數”,并且在空間記憶、功能知識整合,以及把眼前畫面和外部知識連起來這幾件事上仍有明顯限制。
手語論文《Bootstrapping Sign Language Annotations with Sign Language Models》嘗試用 AI 自動生成候選標注,減少數百小時手工標注成本。
![]()
蘋果公司的研究人員探索了使用人工智能進行美國手語(ASL)標注的可能性。圖源:蘋果公司
原文稱,團隊建立了近 500 條人工英文字詞到術語標注,并擴展到超過 300 小時 ASL STEM Wiki 和 7.5 小時 FLEURS-ASL 數據。其手指拼寫模型在 FSBoard 上達到 6.7% CER,在 ASL Citizen 數據集上達到 74% top-1 準確率。
第三項研究《Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures》則聚焦 3D 頭像重建。
![]()
蘋果公司的人工智能研究人員探索了如何利用 LLM(層級建模)技術,從多角度拍攝的圖像中創建 3D 頭部模型。圖源:蘋果公司。
蘋果提出 HeadsUp 方法,可從大規模多攝像頭采集中重建高質量 3D Gaussian 頭部模型。測試使用了一個超過 10000 名受試者的內部數據集,規模比現有多視角人頭數據集高一個數量級。這可能和 Vision Pro 的 Persona,或 visionOS 中更自然的人臉捕捉與表情渲染有關。
蘋果公司全球營銷高級副總裁格雷格 · 喬斯維亞克(Greg Joswiak)此前表示,Vision Pro 展示了數字世界與物理世界融合的未來形態,這種融合具有必然性。當被問及具體時間表時,他坦言無法預測“空間計算”何時能成為主流,但堅信這一方向不可逆轉。
參考
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.