![]()
智東西
作者 云鵬
編輯 李水青
智東西5月9日報道,昨日,阿里巴巴旗下千問AI眼鏡S1迎來正式發售后的首次重磅更新,主動式AI服務升級、3D空間化顯示是本次兩大核心升級方向。
新功能發布期間,智東西在上海與阿里巴巴千問AI硬件產品總監吳建軍(晉顯)進行了面對面深入交流,從產品背后的產業深度思考到今天諸多升級背后的關鍵技術突破和布局,我們看到阿里正成為AI眼鏡賽道不容忽視的一匹黑馬。
![]()
▲阿里巴巴千問AI硬件產品總監吳建軍(晉顯)
一些晉顯在分享中提到的重要觀點:
·主動服務的本質,在于它對用戶所處環境和用戶自身的深度理解;
·在AI眼鏡這個載體上,“AI助理即OS”;
·阿里做AI眼鏡是以AI驅動為主,一定要讓AI的科技感以一種非常普適的用戶價值融入日常生活;
·主動智能絕不能變成一個野蠻的、讓用戶感覺失控的東西,必須給用戶足夠的控制權和產品設計的思考;
·數字世界產生的信息必須和物理世界一樣具備3D感,才能真正實現融合;
·千問AI眼鏡的核心價值和競爭力在于整個AI解決方案,即AI生活助理;
一、讓AI眼鏡學會主動服務,到底難在哪里?
在晉顯看來,如今人每天獲取的信息量極大,處理信息的能力在某一時刻已經嚴重超載。面向未來數字世界的信息井噴與虛實結合,隨著技術快速發展,我們確實需要一個身邊的助理,幫助承接那些瑣碎、占用精力、可能缺乏創造力和社交互動性的事務。這種承接就是團隊今天想做主動服務的原因。
主動服務的本質,在于它對用戶所處環境和用戶自身的深度理解,包括超長上下文,以及未來連續的視覺理解和感知能力,這無疑是整個行業的趨勢。
晉顯提到,為了實現主動服務,團隊將所有架構完全重構,面向主動服務重新打造了系統,這意味著把部分選擇權或執行權讓渡給大模型,因為大模型未來的規劃能力和復雜任務編排能力將遠超預期,這是從底層架構上就要先走的一步。
早一代的架構,市面上大多是純集聯式的,完成意圖理解和分發后進入調用各個Agent,但Agent很多時候對用戶而言是個黑盒,中間想修改或干預,必須遵循Agent間的標準交互方式去繼續下發任務。
千問AI眼鏡的主動服務具備主動編排復雜任務流程的能力,它聽起來像是能協同多個Agent進行多流程、多線程的工作,其架構天然就是為兼容這種能力而生的。
這里面有一個非常困難的地方:如果要做這件事,就不能只是調用別人的Agent,而要把別人的東西都完全以原子化的方式變成Skill。當千問AI眼鏡的模型面對眾多原子化的Skill時,它的自由度就會非常高,可以根據自己的規劃、編排、對意圖的理解以及記憶系統等,完成許多事情。
![]()
在晉顯看來,在AI眼鏡這個載體上,“AI助理即OS”。
就像在一個飯店里,有眾多廚師,每位的菜都差不多炒好了,你最后只能把這些菜組合成套餐提供給消費者,定制化程度極低。每個廚師都有他的手藝和Know-how。
千問AI想做的是,不希望有這么多的Agent、想要它們都變回原材料,然后有一個非常強大的“五星級大模型”,由它來下廚,把原子化的東西炒成各種各樣的菜,這樣它能搭配的種類會非常多,直接面向最終開發者或用戶。
在他看來,今天每家廠商做AI眼鏡的邏輯都各不相同,阿里是以AI驅動為主,一定要讓AI的科技感以一種非常普適的用戶價值融入日常生活,這是他們做這件事最關鍵的理由,他們并非簡單做一個硬件,然后等軟件慢慢迭代。
當然,任何事都有正反兩面,阿里做AI主動服務,同樣會權衡,看正向收益是否遠遠大于負向。
當AI交互頻次升高,天然會犧牲部分功耗。但今天千問AI眼鏡實現的主動服務對整體功耗的影響極其有限,用戶每天與AI的交互頻次大幅提高,由此帶來的些許功耗提升,是他們愿意付出的代價。
其次,關于用戶能否適應、該不該打擾、何時出現,團隊思考很多。關鍵點是,第一,對用戶意圖理解的準確性。有些是明確主動意圖,比如用戶每天都想聽某個喜歡的新聞;有些是模糊意圖,比如用戶詢問天氣后,AI助理推理是否要幫忙叫車或訂日程。首要把握的是用戶意圖的準確性。
第二,是場景關聯性,比如對環境的理解和感知,對用戶對話歷史的理解,或通過一些傳感器的感知等。這兩個點是判斷主動服務該不該主動的核心。
此外,在產品交互設計上,最重要的是一定要讓用戶掌握主動權,可以隨時打斷、隨時修改。主動智能絕不能變成一個野蠻的、讓用戶感覺失控的東西,必須給用戶足夠的控制權和產品設計的思考。
二、空間計算是大趨勢,3D空間顯示是階段性一小步
除了主動式AI能力的海量更新,3D空間顯示也是非常直觀且重磅的一項升級。
![]()
為什么要做3D空間顯示?
晉顯特別提到,其實他們最初計劃將雙光機裝入產品時,就已經有了做3D空間顯示這個想法,只是將其劃分為不同階段來實現。通過雙光機利用雙目視差,將立體畫面渲染到眼前,這是第一步。
至于第二步,團隊考慮到,無論是任何UI界面的排布,還是未來需要3D呈現的場景,3D都能帶來諸多益處。這要回到最本質的問題:數字世界和物理世界怎么能融合?答案就是,數字世界產生的信息必須和物理世界一樣具備3D感,它才能實現融合。
因此,從整機架構、器件選型、產品主張,到未來諸多場景的拓展,千問AI眼鏡團隊做這一切的核心目標都是為了實現所謂的空間3D,這是整個過程中的一個關鍵里程碑。
三、AI體驗之戰說到底是生態之戰
當前,AI眼鏡在硬件層面還面臨許多挑戰,例如芯片、攝像頭、電池等零部件都有極大迭代空間,而這些問題的解決需要供應鏈協同解決,心急吃不了熱豆腐。
相比之下,廠商可以在軟件和生態層面做的工作有很多,對于AI體驗的提升同樣十分關鍵。
在晉顯看來,AI能力可以分為兩部分來看,回答聰明和良好的“生活AI能力”。
在回答聰明方面,阿里有自己的千問App,一直與集團內部能力最強的千問大模型版本綁定,所有關于模型回復的策略都經過優化。團隊一直在不斷提升AI助理的智力水平,令其無論是在通俗領域還是垂直行業的專業水平都保持在行業領先地位。
生活AI能力方面,由于千問App本身的能力做得比較豐富,AI眼鏡在策略上會優先選擇那些適合眼鏡場景的能力。對于那些已通過App或AI原生應用教育過用戶、使用戶養成習慣的操作,當用戶覺得利用一個隨身設備也能不動聲色地完成時,他們會陸續通過二期、三期等階段性更新去做好能力覆蓋。
晉顯也提到,眼鏡絕不僅僅是App能力的復制。兩者交互方式存在極大不同。第一,眼鏡能釋放雙手;第二,眼鏡的交互是即時的,信息就在眼前耳邊;第三,是與手機在“質”上的巨大不同:只要眼鏡架在鼻梁上,它的多模態感知就可以是連續的。
![]()
在晉顯看來,生態方面,隨著場景逐漸深化,分水嶺會變得更明顯。今天消費者看到的是部分與阿里生態合作伙伴聯合定義的能力,后續千問AI眼鏡會有更多創新功能都是軟硬件結合的,通過進一步的賬號綁定、接口交互和更復雜的邏輯定義去實現。
隨著生態融合性加強,體驗優勢也會放大,用戶會發現很多東西都實現了代為處理。
從長期看,千問AI眼鏡的核心價值和競爭力在于整個AI解決方案,即AI生活助理。
未來在眼鏡硬件平臺上,針對特定場景、特定人群和行業需求的應用會不斷涌現。如果所有需求都需團隊重度研發,無論從時間效率還是投入上看,都不是好選擇。
團隊現在已經完成了對眼鏡近端、App移動端和云端能力的梳理,并從定義角度做好了全面的SDK規劃,目前已進入快速開發周期,未來各種應用包括Agent都會在廣場或商店中處理好。
結語:AI眼鏡形態成熟了,但AI對眼鏡的重塑才剛剛開始
Agent浪潮之下,AI主動做事、多模態交互被提到了風口浪尖,AI眼鏡作為熱門新興品類,天然被寄予厚望。作為隨身穿戴產品,其有著手機、PC難以比擬的先天優勢,有著豐富數據持續獲取的極高價值,有著伴隨式AI核心入口的潛力。
從千問AI眼鏡的一系列升級我們看到,AI眼鏡未來體驗勝出的關鍵或更多在于AI模型能力和AI應用生態的較量,硬件方案成熟必然會加劇競爭,誰能夠跳出同質化陷阱,實現真正人無我有、人有我優的AI體驗,將會成為決勝關鍵。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.