![]()
作者 | 鄭敏芳
編輯 | 松壑
日前,小米宣布基于MiMo大模型推出“miclaw”并部署于音箱等終端,支持語(yǔ)音喚醒與多輪對(duì)話。
這有望突破小愛(ài)同學(xué)“聽(tīng)不懂、接不上”的理解瓶頸,通過(guò)近乎“零門檻”的自然語(yǔ)義交互,推動(dòng)大眾市場(chǎng)的AI體驗(yàn)實(shí)現(xiàn)實(shí)質(zhì)性提升。
依托龐大的IoT設(shè)備基數(shù),小米有望規(guī)模化捕獲高價(jià)值的“決策軌跡數(shù)據(jù)”,為MiMo大模型的調(diào)用提供訓(xùn)練場(chǎng);
從行業(yè)層面來(lái)看,這一趨勢(shì)并非個(gè)例。除了小米,華為、百度等都在積極接入claw音頻互動(dòng)功能,以此提升用戶調(diào)用Agent的積極性。
在“入口驅(qū)動(dòng)數(shù)據(jù)生成、交互反哺模型優(yōu)化”的邏輯下,一場(chǎng)圍繞語(yǔ)音入口、執(zhí)行能力與數(shù)據(jù)閉環(huán)的競(jìng)爭(zhēng)正在加速展開(kāi)。
![]()
一
軌跡數(shù)據(jù)的稀缺性
智能音箱或語(yǔ)音助手早已不是新物種。
行業(yè)面臨的現(xiàn)實(shí)尷尬是,“小愛(ài)同學(xué)”等語(yǔ)音助手受限于傳統(tǒng)技術(shù),過(guò)去往往只能充當(dāng)執(zhí)行“定鬧鐘”、“切歌”等單向指令工具。
一旦用戶的表達(dá)模糊或需求復(fù)雜,這些語(yǔ)音助手就容易暴露出“聽(tīng)不懂、接不上”的短板,導(dǎo)致智能體驗(yàn)大打折扣。
隨著大模型技術(shù)的應(yīng)用,這一行業(yè)現(xiàn)狀正在發(fā)生實(shí)質(zhì)性改變。
小米基于MiMo大模型推出的“miclaw”,不僅覆蓋了PC與Mac端,還將其部署在其有屏音箱上。
音頻版的“miclaw”首要解決的痛點(diǎn)便是提升產(chǎn)品體驗(yàn)的智能化程度。
小米音箱計(jì)劃最新上線的miclaw已支持用戶通過(guò)一句話下達(dá)復(fù)雜任務(wù)指令,具備語(yǔ)音喚醒與多輪對(duì)話的功能,并支持調(diào)用手機(jī)、PC執(zhí)行。
這意味著,未來(lái)的小米音箱將不再只是機(jī)械的“一問(wèn)一答”式指令接收器,有望結(jié)合上下文記憶,深度挖掘并理解用戶的“言外之意”,進(jìn)而在復(fù)雜、日常甚至口語(yǔ)化的語(yǔ)境中,執(zhí)行更為復(fù)雜的任務(wù)。
除了小米,百度小度音箱、華為的小藝claw等均已在不同維度上接入了語(yǔ)音交互功能。
在不少行業(yè)人士看來(lái),大廠相繼在硬件中接入音頻版claw底層的商業(yè)邏輯是這種不需要學(xué)習(xí)菜單,不需要注視屏幕的近乎“零門檻”交互,可以最大限度地降低AI的交互門檻,真正打入大眾市場(chǎng)的基本盤。
“這樣的話會(huì)使得整個(gè)入口更加自然,使用門檻降低,相當(dāng)于家庭成員都可以體驗(yàn),AI能夠盡快融入到生活日常中。”北京某大廠的架構(gòu)師向全天候科技解釋。
事實(shí)上,為了支撐這種近乎“零門檻”的自然交互,小米本身也在積極加入對(duì)音頻等多維度數(shù)據(jù)的底層訓(xùn)練。
早在小米2025年12月發(fā)表的一篇名為《Xiaomi MiMo-VL-Miloco Technical Report》的文章中就明確指出:未來(lái),小米將進(jìn)一步依托其硬件生態(tài),將音頻、毫米波信號(hào)等更多感知模態(tài)納入統(tǒng)一的多模態(tài)學(xué)習(xí)框架。通過(guò)對(duì)多類異構(gòu)感知輸入進(jìn)行聯(lián)合推理,最終實(shí)現(xiàn)全方位的家居場(chǎng)景理解與精細(xì)化空間感知。
![]()
要實(shí)現(xiàn)從多模態(tài)感知到端側(cè)部署的全面落地,離不開(kāi)海量硬件設(shè)備所提供的數(shù)據(jù)土壤與應(yīng)用環(huán)境,而這確實(shí)是小米的優(yōu)勢(shì)。
截至2025年末,小米AIoT平臺(tái)已連接的IoT設(shè)備數(shù)(不包括智能手機(jī)、平板及筆記本電腦)達(dá)到10.79億臺(tái),同比增長(zhǎng)19.3%,同期米家APP、小愛(ài)同學(xué)的月活躍用戶數(shù)分別1.13億、1.6億。
龐大的設(shè)備基數(shù)所帶來(lái)的規(guī)模效應(yīng),使得小米更有利于實(shí)現(xiàn)對(duì)高價(jià)值“決策軌跡數(shù)據(jù)”的規(guī)模化抓取與持續(xù)沉淀。
在真實(shí)的物理世界中,Agent調(diào)用工具、執(zhí)行設(shè)備控制的決策軌跡數(shù)據(jù)極為稀缺。
傳統(tǒng)的軟件系統(tǒng)或基礎(chǔ)智能家居,往往只記錄最終的“執(zhí)行狀態(tài)”,但真正能夠驅(qū)動(dòng)AI自主運(yùn)行的是捕捉“為什么這么做”的決策鏈條。
高價(jià)值的決策軌跡數(shù)據(jù)不僅包含執(zhí)行結(jié)果,更涵蓋了觸發(fā)該動(dòng)作的完整上下文。
例如理想情況下,系統(tǒng)記錄下“由于光線傳感器識(shí)別到環(huán)境變暗,且門鎖日志顯示用戶剛剛歸家,因此決定開(kāi)啟客廳燈光并拉上窗簾”。
這種融合了多模態(tài)環(huán)境輸入、觸發(fā)規(guī)則和動(dòng)作輸出的完整信息,是指導(dǎo)Agent進(jìn)行復(fù)雜決策的關(guān)鍵素材。
要獲取這類數(shù)據(jù),系統(tǒng)必須身處用戶的“執(zhí)行路徑”之中,才能在決策發(fā)生的第一時(shí)間完成捕獲。
小米龐大的AIoT設(shè)備網(wǎng)絡(luò),實(shí)質(zhì)上構(gòu)成了消費(fèi)級(jí)物理世界中覆蓋面極廣的執(zhí)行路徑。通過(guò)海量設(shè)備的日常協(xié)同,這些單次的決策軌跡被持續(xù)沉淀,有望交織成一張動(dòng)態(tài)的“上下文圖譜”。
這能夠客觀呈現(xiàn)用戶在不同時(shí)空下的作息規(guī)律、溫度偏好及跨設(shè)備調(diào)用習(xí)慣。隨著數(shù)據(jù)閉環(huán)的不斷完善,系統(tǒng)便具備了更高的預(yù)判能力。
不過(guò)有效數(shù)據(jù)的實(shí)際產(chǎn)出率仍然取決于用戶的使用情況,例如用戶是否有足夠的動(dòng)力設(shè)置復(fù)雜自動(dòng)化場(chǎng)景等。
二
新的入口戰(zhàn)
圍繞語(yǔ)音等交互入口,各類claw產(chǎn)品正加速落地。
百度claw、華為小藝claw等均在不同硬件上實(shí)現(xiàn)了語(yǔ)音交互能力的接入,并逐步從單輪指令響應(yīng),向多輪對(duì)話與任務(wù)執(zhí)行能力演進(jìn)。
阿里旗下的天貓精靈雖未冠以“claw”之名,但也在其全屋智能2.0方案中深度融合通義大模型能力,構(gòu)建出“空間智能Agent”,進(jìn)行智能化決策。
當(dāng)語(yǔ)音入口逐漸被Agent化,缺席即意味著在下一代人機(jī)交互體系中失去關(guān)鍵位置。
這一輪集中布局背后是一次圍繞“使用門檻與數(shù)據(jù)積累”的前置競(jìng)爭(zhēng)。
作為最接近自然語(yǔ)言的交互方式,語(yǔ)音本質(zhì)上承擔(dān)著降低用戶使用成本、提升滲透率的角色,讓設(shè)備交互變得更加無(wú)縫。
只有當(dāng)用戶在日常場(chǎng)景中頻繁使用Agent,各家廠商的模型才能持續(xù)獲得真實(shí)的任務(wù)請(qǐng)求與執(zhí)行反饋,從而不斷優(yōu)化決策與執(zhí)行能力。
正因如此,當(dāng)前階段的核心在于是否能夠讓用戶“先用起來(lái)”,通過(guò)高頻使用形成數(shù)據(jù)閉環(huán),再反向推動(dòng)能力迭代。
在這一過(guò)程中,入口演化為連接用戶行為與模型進(jìn)化的關(guān)鍵基礎(chǔ)設(shè)施,這已經(jīng)在部分產(chǎn)品形態(tài)中出現(xiàn)苗頭。
在一些頭部廠商的實(shí)踐中,語(yǔ)音不再只是觸發(fā)單一設(shè)備或功能,而是開(kāi)始承接跨設(shè)備的連續(xù)任務(wù)。
例如,用戶用一句相對(duì)模糊的表達(dá)發(fā)起請(qǐng)求,系統(tǒng)會(huì)在后臺(tái)拆解意圖,并聯(lián)動(dòng)多個(gè)終端完成一整套動(dòng)作。
在這一過(guò)程中,被調(diào)用的不再是某一個(gè)具體設(shè)備,而是一整條由系統(tǒng)組織起來(lái)的執(zhí)行鏈路。
當(dāng)交互從“點(diǎn)狀指令”轉(zhuǎn)向“任務(wù)鏈路”后,語(yǔ)音的角色不僅局限于降低使用門檻的入口,還成為實(shí)際承擔(dān)任務(wù)調(diào)度的起點(diǎn)。
用戶不再顯式選擇應(yīng)用或設(shè)備,而是將需求交由系統(tǒng)統(tǒng)一分發(fā)。
這也使得入口競(jìng)爭(zhēng)的重心發(fā)生偏移。廠商爭(zhēng)奪的不僅限于用戶是否開(kāi)口使用語(yǔ)音,而是這些請(qǐng)求最終由誰(shuí)來(lái)拆解、由誰(shuí)來(lái)決定調(diào)用路徑。
一旦這一環(huán)節(jié)被第三方承接,即便硬件仍在原廠商手中,服務(wù)分發(fā)與用戶決策路徑也可能逐步外移。
不過(guò),在多方競(jìng)逐之中,不同廠商的底層稟賦差異開(kāi)始放大。
和小米類似,華為的重要優(yōu)勢(shì)在于更加自研化的操作系統(tǒng)與硬件生態(tài),早在2024年鴻蒙生態(tài)設(shè)備規(guī)模便已進(jìn)入9億級(jí)量級(jí),小藝能力覆蓋手機(jī)、平板、可穿戴及智能家居等多類終端,形成跨設(shè)備的統(tǒng)一交互網(wǎng)絡(luò)。
這種“入口即數(shù)據(jù)、設(shè)備即執(zhí)行”的競(jìng)爭(zhēng)邏輯也在反向塑造互聯(lián)網(wǎng)廠商的策略選擇。
例如字節(jié)跳動(dòng)在大模型與應(yīng)用層具備優(yōu)勢(shì),但在終端入口與系統(tǒng)級(jí)調(diào)度能力上相對(duì)薄弱。
由于在Agent逐步從“對(duì)話能力”走向“執(zhí)行能力”的過(guò)程中,僅依賴App形態(tài)難以深度嵌入用戶的日常決策路徑,也難以獲取高頻、連續(xù)的任務(wù)反饋數(shù)據(jù),字節(jié)跳動(dòng)去年以來(lái)便頻繁與手機(jī)廠商洽談“豆包手機(jī)”的合作路徑。
2026年,AI能力的比拼正在從“交互競(jìng)爭(zhēng)”走向“執(zhí)行競(jìng)爭(zhēng)”。
*本文為全天候科技原創(chuàng)作品,未經(jīng)授權(quán)不得轉(zhuǎn)載,如需轉(zhuǎn)載,請(qǐng)?jiān)诤笈_(tái)回復(fù)“轉(zhuǎn)載”二字,獲取轉(zhuǎn)載格式要求。
![]()
![]()
點(diǎn)“在看”,變好看哦。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.