每年1.4億新生兒,哭聲是唯一的語言,父母只能靠猜。一位新手父親這樣描述第一周:"她哭,我喂;又哭,我換;再哭,我完全不知道錯(cuò)在哪。"
這個(gè)困境催生了ROO——全球首個(gè)多模態(tài)嬰兒哭聲分析與回應(yīng)系統(tǒng),底層跑的是Gemma 4。
![]()
現(xiàn)有應(yīng)用如CryAnalyzer、ChatterBaby、AYA,全是2019-2022年間用CNN分類器做的。App Store評(píng)論區(qū)一片哀嚎:"只會(huì)說餓了。"它們能檢測(cè)哭聲,但無法理解。
ROO做了三件競(jìng)品沒做的事:同時(shí)分析聲學(xué)特征和面部表情;用科學(xué)匹配的安撫音和母聲回應(yīng);內(nèi)置12首合成曲目+云端真實(shí)音樂,凌晨三點(diǎn)不用翻YouTube。
技術(shù)卡點(diǎn)在于Gemma 4的音頻模型(E2B、E4B)專為端側(cè)部署設(shè)計(jì),公開推理接口尚未開放。開發(fā)者換了個(gè)思路:讓模型"看見"哭聲而非聽見。
梅爾頻譜圖把音頻轉(zhuǎn)成二維圖像——橫軸時(shí)間、縱軸頻率、亮度代表能量強(qiáng)度。ROO用Web Audio API在瀏覽器本地生成這張圖,父母能實(shí)時(shí)看到寶寶的哭聲模式。饑餓、疼痛、困倦,每種需求在頻譜上呈現(xiàn)截然不同的視覺紋理。
前端用SvelteKit 5,托管在Cloudflare Pages;推理走Gemini API/OpenRouter;音頻采集靠MediaRecorder,安撫播放用Web Audio API和Cloudflare R2存儲(chǔ);母聲回應(yīng)調(diào)用Web Speech API。會(huì)話歷史存localStorage,服務(wù)端零日志。
目前部署在roo.risingranks.in,支持PWA安裝。免費(fèi)額度耗盡時(shí)分析會(huì)延遲10-20秒,UTC早間配額重置后恢復(fù)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.