![]()
AI應(yīng)用風(fēng)向標(biāo)(公眾號(hào):ZhidxcomAI)
作者|江宇
編輯|漠影
智東西5月15日?qǐng)?bào)道,昨日,豆包輸入法macOS版正式上線,用戶終于可以在電腦上直接“張嘴打字”了。
![]()
和傳統(tǒng)輸入法里的“語(yǔ)音轉(zhuǎn)文字”功能不同,這次豆包輸入法主打的,是一整套AI語(yǔ)音輸入能力。
其背后采用的是豆包App同款語(yǔ)音模型,重點(diǎn)強(qiáng)調(diào)“邊說(shuō)邊出字”“中英文混說(shuō)”“智能糾錯(cuò)”和“長(zhǎng)文本輸入”等能力。
目前,豆包輸入法支持在任意對(duì)話框中實(shí)時(shí)語(yǔ)音轉(zhuǎn)文字,且沒(méi)有時(shí)長(zhǎng)限制,適合長(zhǎng)文案、小說(shuō)、會(huì)議記錄等持續(xù)輸入場(chǎng)景。
同時(shí),它還支持中英文混說(shuō)、多種方言識(shí)別,無(wú)需手動(dòng)切換輸入法,可自動(dòng)識(shí)別語(yǔ)言。
在AI能力部分,豆包輸入法加入了“智能糾錯(cuò)”和“個(gè)性化記憶”功能,其能夠自動(dòng)修正部分語(yǔ)氣詞、語(yǔ)病和口誤,并逐漸記住用戶的改詞習(xí)慣,讓語(yǔ)音輸入越用越準(zhǔn)。
此外,豆包輸入法還支持輕聲識(shí)別和抗噪能力,在辦公室、咖啡店、圖書(shū)館等環(huán)境中,也能進(jìn)行低音量輸入。交互模式上,則提供“長(zhǎng)按”和“免按”兩種方案。
![]()
某種程度上,AI語(yǔ)音輸入正在成為新的輸入趨勢(shì)。過(guò)去,語(yǔ)音輸入更多還是手機(jī)上的“臨時(shí)替代方案”,但隨著Vibe Coding等場(chǎng)景越來(lái)越普及,很多用戶開(kāi)始長(zhǎng)時(shí)間“和電腦說(shuō)話”。
目前,市面上已經(jīng)出現(xiàn)了微信輸入法、智譜AI輸入法(小凹)以及Typeless等AI語(yǔ)音輸入產(chǎn)品,其中不少已經(jīng)開(kāi)始收費(fèi)。相比之下,豆包輸入法目前免費(fèi)推出,這或許也會(huì)成為它吸引用戶的一大優(yōu)勢(shì)。
那么問(wèn)題來(lái)了:豆包輸入法,真的好用嗎?
這次,我們從延時(shí)、中文準(zhǔn)確率、中英文混說(shuō)、方言識(shí)別、智能糾錯(cuò)以及個(gè)性化記憶幾個(gè)維度,對(duì)它進(jìn)行了實(shí)測(cè)。
一、普通話幾乎邊說(shuō)邊出,粵語(yǔ)還在等AI“補(bǔ)作業(yè)”
語(yǔ)音輸入最核心的問(wèn)題,其實(shí)只有一個(gè):跟不跟得上人說(shuō)話。
在普通話場(chǎng)景下,豆包輸入法整體表現(xiàn)還是比較流暢的。無(wú)論是短句、長(zhǎng)句,還是中英文混說(shuō),基本都能做到“邊說(shuō)邊出字”。
主觀感受下來(lái),它的首字延遲大概會(huì)略高于1秒,完整句子的生成延遲通常會(huì)控制在1秒以內(nèi)。而且在連續(xù)長(zhǎng)文本輸入過(guò)程中,它的整體卡頓感并不明顯。
但到了方言場(chǎng)景,尤其是粵語(yǔ)等復(fù)雜方言,體驗(yàn)就會(huì)大不相同。它不像普通話那樣一句話剛說(shuō)完立刻就能識(shí)別,反而是“先聽(tīng)一遍,再靠AI后處理”。
很多時(shí)候,前半句幾乎沒(méi)識(shí)別出來(lái),后面才開(kāi)始通過(guò)上下文一點(diǎn)點(diǎn)修正。部分長(zhǎng)句甚至?xí)霈F(xiàn)超過(guò)5秒以上的完整句延遲。
原句(粵語(yǔ)):嘩,出面做乜突然間落咁大雨嘅?係啰,明明頭先仲好地地。死火,我趕住出去呀。不過(guò)依家大風(fēng)大雨,好易濕身?。唔使驚!我?guī)谕裼暌@添。都係你夠醒目! 對(duì)應(yīng)普通話:“哇,外面怎么突然下這么大雨?就是啊,明明剛才還好好的。糟糕了,我趕著要出去呀。蕭漢過(guò)現(xiàn)在風(fēng)大雨大,很容易濕身的。不用怕!我?guī)Я藗氵€有雨衣呢。還是你夠聰明!”
![]()
比如在我們的測(cè)試中,第一句“哇,出面做乜突然間落咁大雨?”其實(shí)被完整識(shí)別了出來(lái),準(zhǔn)確度是沒(méi)有問(wèn)題的。
但到了后半段,識(shí)別結(jié)果就開(kāi)始出現(xiàn)較大偏差,大部分內(nèi)容都沒(méi)有正確識(shí)別出來(lái)。
東北話的表現(xiàn)則明顯更穩(wěn)定一些。在我們的測(cè)試?yán)铮?strong>除了“旮沓”等個(gè)別詞匯出現(xiàn)問(wèn)題之外,其余內(nèi)容大體都能正常識(shí)別。
原句(東北話):哎呀媽呀,咱東北這旮沓老好了,那雪下的老大了,跟棉花套子似的。凍梨啃一口,甜滋滋的,拔涼拔涼的。鐵鍋燉大鵝,那香味老霸道了。
![]()
閩南語(yǔ)則基本屬于“困難模式”。目前識(shí)別效果仍較差,很多句子幾乎無(wú)法正確轉(zhuǎn)寫(xiě)。
當(dāng)然,這本身也是整個(gè)行業(yè)里最難的問(wèn)題之一。不同方言之間,口音、連讀和詞匯差異本來(lái)就很大。如果你本身會(huì)說(shuō)方言,或許也可以自己試試看,它到底能聽(tīng)懂多少。
二、甄嬛傳名場(chǎng)面沒(méi)翻車,但外國(guó)人名還是有點(diǎn)難
中文準(zhǔn)確率,是這類產(chǎn)品另一個(gè)核心能力。
這次,我們專門(mén)選了兩個(gè)“難題”。
第一個(gè),是《甄嬛傳》“滴血認(rèn)親”名場(chǎng)面。因?yàn)槲难允奖磉_(dá)、人物稱謂、停頓節(jié)奏和長(zhǎng)句結(jié)構(gòu),本身都比較復(fù)雜,對(duì)語(yǔ)音識(shí)別其實(shí)很不友好。
原話:臣妾要告發(fā)熹貴妃私通,混亂后宮,罪不容誅。宮規(guī)森嚴(yán),祺貴人不得信口雌黃。臣妾若有半句虛言,便叫五雷轟頂,永不超生。我還以為是什么毒誓呢,生死之事誰(shuí)又能知啊?可見(jiàn)祺貴人不是真心的了。臣妾以瓜爾佳氏一族起哲,若有半句虛言全族無(wú)后而終。
![]()
但實(shí)際測(cè)試下來(lái),豆包輸入法的表現(xiàn)比預(yù)期更穩(wěn)定。它在長(zhǎng)文本輸出過(guò)程中,能夠持續(xù)進(jìn)行動(dòng)態(tài)修正。包括人稱、斷句、標(biāo)點(diǎn),甚至部分誤讀內(nèi)容,都會(huì)在后續(xù)識(shí)別過(guò)程中不斷調(diào)整。
最終結(jié)果里,文言表達(dá)、標(biāo)點(diǎn)符號(hào)和整體句意沒(méi)有錯(cuò)誤。這種“邊識(shí)別邊回改”的機(jī)制,近乎可以看成AI寫(xiě)作過(guò)程中的實(shí)時(shí)潤(rùn)色。
第二個(gè)測(cè)試,則是科技新聞場(chǎng)景。我們讀了一段關(guān)于“馬斯克訴奧爾特曼案第三周庭審”的內(nèi)容,重點(diǎn)測(cè)試它對(duì)外國(guó)人名的識(shí)別能力。
這一部分難度更高。因?yàn)楹芏嘤⑽娜嗣旧砭痛嬖诙喾N中文譯法,而且中文互聯(lián)網(wǎng)里也沒(méi)有統(tǒng)一標(biāo)準(zhǔn)。
原話:馬斯克訴奧爾特曼案進(jìn)入第三周,被告方關(guān)鍵證人相繼出庭,微軟CEO薩提亞·納德拉、OpenAI聯(lián)合創(chuàng)始人兼前首席科學(xué)家伊利亞·蘇茨克維,以及OpenAI基金會(huì)董事會(huì)主席布雷特·泰勒作證。此前在第二周庭審中,馬斯克方主導(dǎo)舉證,OpenAI前CTO米拉·穆拉蒂、前董事海倫·托納、塔莎·麥考利、前員工羅茜·坎貝爾,以及非營(yíng)利治理專家戴維·希澤等證人的證詞和庭審材料陸續(xù)浮出。
![]()
實(shí)際結(jié)果里,部分名字能夠正確識(shí)別,但也出現(xiàn)了譯名不統(tǒng)一的問(wèn)題。比如“戴維·希澤(David Schizer)”并沒(méi)有被識(shí)別成常見(jiàn)譯名,部分外國(guó)人名中間的分隔點(diǎn)“·”也出現(xiàn)缺失。
日常聊天問(wèn)題不大,但如果是新聞寫(xiě)作、法律文件或正式場(chǎng)景,后續(xù)還是需要人工再核對(duì)一遍。
三、中英文混說(shuō)準(zhǔn)確率很高,“外企黑話”也能聽(tīng)懂
如果說(shuō)方言是困難模式,那中英文混說(shuō),則是豆包輸入法目前完成度較高的一部分。
無(wú)論是人名、英文縮寫(xiě),還是各種辦公場(chǎng)景的常用語(yǔ),它都能較穩(wěn)定地識(shí)別出來(lái)。而且,它對(duì)于中英文切換時(shí)的斷句和標(biāo)點(diǎn)處理,也比傳統(tǒng)輸入法自然很多。
原句:Jennifer,晚上跟Global的會(huì)議改到明天早晨7點(diǎn),你記得reschedule一下。還有換個(gè)大點(diǎn)的meeting room,因?yàn)镕inanceEric and HR的Susie也要參加,還有提前把要講的topic再go through一遍。辛苦跟Laura說(shuō)下,會(huì)上幫忙記下meeting minutes。so far我就想起這么多,如果有新的update我再跟你sync。
![]()
很多時(shí)候,用戶輸出并不需要刻意放慢語(yǔ)速。整體主觀感受下來(lái),中英文混說(shuō)場(chǎng)景的準(zhǔn)確率,大概率已經(jīng)可以穩(wěn)定達(dá)到95%以上。
對(duì)于外企辦公的人來(lái)說(shuō),這部分功能其實(shí)是比較實(shí)用的。
四、能清理語(yǔ)氣詞,但暫時(shí)還不會(huì)“主動(dòng)潤(rùn)色”
相比識(shí)別能力,“智能糾錯(cuò)”其實(shí)是這次最讓人期待的功能之一。它涉及一個(gè)問(wèn)題:AI到底應(yīng)該“忠實(shí)記錄”,還是主動(dòng)讓AI幫你改。
從實(shí)際測(cè)試來(lái)看,豆包輸入法目前整體偏向前者。比如一些簡(jiǎn)單語(yǔ)氣詞,像“嗯”和“呃”之類,它確實(shí)可以自動(dòng)清理。
但更復(fù)雜的口語(yǔ)化重復(fù)、邏輯跳躍或者臨時(shí)改句,它目前還不會(huì)主動(dòng)幫你重寫(xiě)。
例如們?cè)跍y(cè)試時(shí)說(shuō):“我想11點(diǎn)……不對(duì),是11點(diǎn)半,請(qǐng)李銘喝咖啡。”
![]()
最終輸出里,“11點(diǎn)”并不會(huì)被自動(dòng)刪掉,而是完整保留了用戶原本的修改過(guò)程。
包括一些講話過(guò)程中不斷反復(fù)修改句子的情況,它也不會(huì)主動(dòng)整理成更通順的書(shū)面語(yǔ)言,盡量保留原話。
![]()
目前,市面上一些AI語(yǔ)音輸入產(chǎn)品,如Typeless和智譜AI輸入法(小凹),已經(jīng)開(kāi)始覆蓋“自動(dòng)潤(rùn)色”“自動(dòng)改寫(xiě)”等功能。它們會(huì)主動(dòng)刪除廢話、重組句子,直接幫用戶優(yōu)化表達(dá)。
相比之下,豆包輸入法當(dāng)前的策略會(huì)更保守一些,強(qiáng)調(diào)對(duì)原始表達(dá)的保留。
五、改錯(cuò)一次之后,它就會(huì)記住你的寫(xiě)法
個(gè)性化改詞,是這次體驗(yàn)里最實(shí)用的功能之一。
比如在人名場(chǎng)景里,語(yǔ)音識(shí)別經(jīng)常會(huì)遇到同音字問(wèn)題。
第一次輸入時(shí),系統(tǒng)可能會(huì)給出錯(cuò)誤寫(xiě)法。這時(shí)候,用戶只需要手動(dòng)修改一次。等到第二次再語(yǔ)音輸入同樣的人名時(shí),豆包就會(huì)優(yōu)先采用用戶之前修改后的版本。
![]()
長(zhǎng)期使用后,這種“記憶”也是是明顯感知到的。除了人名之外,一些公司名、產(chǎn)品名或者固定術(shù)語(yǔ),也存在類似情況。這類高頻專有名詞,其實(shí)是很多人日常語(yǔ)音輸入里最容易反復(fù)修改的部分。
結(jié)語(yǔ):不需要鍵盤(pán)了?或許我們更需要一個(gè)麥克風(fēng)
相比鍵盤(pán)輸入,語(yǔ)音輸入最大的優(yōu)勢(shì),其實(shí)一直都是“更快”。
而在AI能力加入之后,語(yǔ)音輸入也不再只是簡(jiǎn)單“轉(zhuǎn)文字”了。實(shí)時(shí)修正、自動(dòng)斷句、上下文記憶,以及更高的識(shí)別準(zhǔn)確率,都開(kāi)始讓它變得更實(shí)用。
與此同時(shí),語(yǔ)音輸入的使用場(chǎng)景也在擴(kuò)大。
過(guò)去,很多人只會(huì)在開(kāi)車、走路時(shí)偶爾使用語(yǔ)音輸入。但現(xiàn)在,隨著輕聲識(shí)別、抗噪等能力出現(xiàn),辦公室、咖啡店、圖書(shū)館等環(huán)境,也開(kāi)始能夠正常使用。
某種程度上,AI語(yǔ)音輸入法正在重新改變?nèi)伺c電腦的輸入方式。或許未來(lái)很多人想打字,第一反應(yīng)不是找鍵盤(pán),而是先找麥克風(fēng)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.