網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI“帶火”語(yǔ)音辦公：打工人開始對(duì)著電腦嘀嘀咕咕

2026-05-29 18:46:01　來(lái)源: 經(jīng)濟(jì)觀察報(bào)

北京舉報(bào)

分享至

記者鄭晨燁

淘寶上最近流行起了一種鍵盤產(chǎn)品，但它只有4個(gè)按鍵、1個(gè)撥桿和1個(gè)麥克風(fēng)接口，沒(méi)有字母鍵，不能打字，售價(jià)269元起，搭配大疆麥克風(fēng)的版本售價(jià)400多元。這個(gè)產(chǎn)品叫AhaKey-X1，由南京錦心灣科技有限責(zé)任公司（下稱AhaKey）開發(fā)，今年春節(jié)前后才上線。

它的用途很簡(jiǎn)單：方便用戶對(duì)AI說(shuō)話。

用戶只需按下語(yǔ)音鍵，對(duì)著麥克風(fēng)口述工作指令，AI將語(yǔ)音轉(zhuǎn)成文字后發(fā)送給Claude、ChatGPT、DeepSeek、Cursor等AI工具執(zhí)行。不管是寫代碼、改方案還是整理會(huì)議紀(jì)要，用戶都不需要打字，說(shuō)出來(lái)就行，AI會(huì)自動(dòng)把口語(yǔ)化的表達(dá)整理成結(jié)構(gòu)化的文本。

AhaKey聯(lián)合創(chuàng)始人兼CTO張心陽(yáng)告訴經(jīng)濟(jì)觀察報(bào)記者，自產(chǎn)品上線以來(lái)，每月銷量翻倍增長(zhǎng)，“6?18”期間公司備貨量已近1000臺(tái)，目前正和多家產(chǎn)業(yè)資本及投資機(jī)構(gòu)接洽融資。

一個(gè)沒(méi)有字母鍵的鍵盤能賣得好，是因?yàn)樵絹?lái)越多的人開始用語(yǔ)音代替打字對(duì)AI下達(dá)工作指令。這種辦公方式最早在程序員中流行，他們用語(yǔ)音向AI描述需求，AI生成代碼。但現(xiàn)在，產(chǎn)品經(jīng)理、律師、內(nèi)容創(chuàng)作者也開始這樣做。

張心陽(yáng)告訴經(jīng)濟(jì)觀察報(bào)記者，有一個(gè)令他印象很深的用戶，是一個(gè)40多歲的律師，“他連Windows電腦用得都不是特別順”，但買了AhaKey之后，不需要打字就能和AI對(duì)話完成工作。張心陽(yáng)說(shuō)，這讓他和團(tuán)隊(duì)意識(shí)到，AI時(shí)代的語(yǔ)音辦公需求可能遠(yuǎn)比他們預(yù)想的要大。

實(shí)際上，語(yǔ)音輸入并不是什么很新鮮的玩意兒。早在1997年，IBM就推出了商用中文語(yǔ)音識(shí)別系統(tǒng)ViaVoice，標(biāo)稱最高識(shí)別率95%，預(yù)裝在當(dāng)時(shí)的主流PC上。此后近三十年，科大訊飛、搜狗、百度等公司在語(yǔ)音輸入領(lǐng)域持續(xù)投入，產(chǎn)品從PC端延伸到手機(jī)端，但語(yǔ)音始終沒(méi)有成為主流的輸入交互方式。

張心陽(yáng)認(rèn)為，變化發(fā)生在AI大模型成熟之后。“過(guò)去語(yǔ)音輸入解決的是轉(zhuǎn)文字的問(wèn)題，沒(méi)有解決理解語(yǔ)言的問(wèn)題。”他說(shuō)，過(guò)去的語(yǔ)音輸入法是把你說(shuō)的話逐字記錄下來(lái)，錯(cuò)一個(gè)字就得手動(dòng)改，輸出的文字是口語(yǔ)態(tài)的，人讀起來(lái)費(fèi)勁，但AI大模型改變了接收端，哪怕你說(shuō)得斷斷續(xù)續(xù)，夾著口誤，AI依然能理解你的意思，再輸出一段通順的文字。

或者說(shuō)，當(dāng)語(yǔ)音輸入的接收方從人變成AI，對(duì)識(shí)別準(zhǔn)確率的要求大幅降低，語(yǔ)音辦公才真正可以實(shí)現(xiàn)。

根據(jù)經(jīng)濟(jì)觀察報(bào)記者的不完全統(tǒng)計(jì)，截至2026年第一季度末，全球語(yǔ)音AI方向的初創(chuàng)公司融資總額已超過(guò)70億美元。

目前，海外語(yǔ)音聽寫應(yīng)用Wispr正在進(jìn)行新一輪融資，目標(biāo)估值接近20億美元，而在半年前這個(gè)數(shù)字還是7億美元；5月12日，Google把AI聽寫功能Rambler內(nèi)置進(jìn)默認(rèn)鍵盤Gboard，覆蓋數(shù)億臺(tái)Android手機(jī)，免費(fèi)使用；國(guó)內(nèi)，5月7日，阿里千問(wèn)在PC端上線AI語(yǔ)音輸入功能；5月28日，科大訊飛（002230.SZ）發(fā)布AI眼鏡，其搭載的智能體可以將口語(yǔ)化表達(dá)自動(dòng)整理成結(jié)構(gòu)化文本。

過(guò)去二十年來(lái)，語(yǔ)音輸入一直是輸入法中一個(gè)不太好用的附屬功能，現(xiàn)在，AI大模型正在把它變成一種新潮的辦公方式。

“AI感受不到痛苦”

即便如今各類語(yǔ)音輸入工具的識(shí)別準(zhǔn)確率已經(jīng)很高，同聲傳譯、多語(yǔ)種翻譯等功能也陸續(xù)上線，但語(yǔ)音輸入始終沒(méi)有成為一種主流的交互方式。大多數(shù)人在線上交流、辦公或日常交互時(shí)仍然選擇打字，問(wèn)題顯然不在識(shí)別準(zhǔn)確率上。

科大訊飛穿戴設(shè)備業(yè)務(wù)部總經(jīng)理林會(huì)杰在接受經(jīng)濟(jì)觀察報(bào)記者采訪時(shí)提到，傳統(tǒng)語(yǔ)音輸入有一個(gè)明顯的問(wèn)題——語(yǔ)音轉(zhuǎn)寫完成后，“你是沒(méi)有辦法直接發(fā)過(guò)去的，因?yàn)閯e人一看就知道，你這就是語(yǔ)音打字出來(lái)的，觀感不好，雖然說(shuō)方便了你自己，但是痛苦了別人”。

中文語(yǔ)速通常是打字速度的三倍左右，速度優(yōu)勢(shì)明確，但“快”只解決了發(fā)送端的效率。一段口語(yǔ)化的文字，夾著語(yǔ)氣詞、重復(fù)和跳躍的邏輯，對(duì)讀的人來(lái)說(shuō)是負(fù)擔(dān)。比如，微信里收到60秒語(yǔ)音消息會(huì)讓人頭疼，原因也在這里——說(shuō)的人痛快，聽的人痛苦。

這是傳統(tǒng)語(yǔ)音輸入法面對(duì)的一個(gè)共同問(wèn)題：哪怕識(shí)別準(zhǔn)確率做到了99%，輸出的文字依然是口語(yǔ)態(tài)的，沒(méi)有標(biāo)點(diǎn)，沒(méi)有段落，時(shí)常也會(huì)夾著“嗯”“啊”或半句廢話，人讀起來(lái)費(fèi)勁。

但AI感受不到這種痛苦——對(duì)人來(lái)說(shuō)難以忍受的口語(yǔ)化文字，對(duì)AI來(lái)說(shuō)沒(méi)有任何理解障礙，人說(shuō)得再亂再碎，它都能從中提取意圖。語(yǔ)音輸入“方便了自己，痛苦了別人”的問(wèn)題，在接收方變成AI的那一刻起就消失了。

于是，語(yǔ)音辦公在兩類場(chǎng)景中快速鋪開。第一類場(chǎng)景是，用戶對(duì)著Claude、DeepSeek或ChatGPT說(shuō)話下達(dá)指令，AI直接理解意圖并執(zhí)行任務(wù)，整個(gè)過(guò)程不需要產(chǎn)出一段通順的文字給人看。這是語(yǔ)音輸入在過(guò)去幾十年都沒(méi)有遇到過(guò)的局面：當(dāng)接收方從人變成AI，對(duì)語(yǔ)言表達(dá)的規(guī)范性要求大幅度下降。

用張心陽(yáng)的話說(shuō)就是，“理解意圖比逐字準(zhǔn)確更重要”。

程序員是最早大規(guī)模進(jìn)入這個(gè)模式的群體。OpenAI聯(lián)合創(chuàng)始人Andrej Karpathy在2025年2月公開提出“vibe coding”（氛圍編程）的概念——開發(fā)者用自然語(yǔ)言描述需求，AI生成代碼，開發(fā)者審核和修改。Karpathy當(dāng)時(shí)就提到，他使用語(yǔ)音聽寫工具SuperWhisper向AI口述編程指令。到了2025年12月，Karpathy已經(jīng)完全停止打字寫代碼，100%依賴語(yǔ)音輸入。

2026年2月底至3月初，OpenAI旗下的編程智能體Codex和Anthropic旗下的編程智能體Claude Code在相隔不到一周的時(shí)間里先后上線原生語(yǔ)音模式，開發(fā)者按住空格鍵說(shuō)話，AI就能接收編程指令。

AhaKey-X1就是為這個(gè)工作流設(shè)計(jì)的。張心陽(yáng)說(shuō)，用Claude Code等AI編程工具時(shí)，AI會(huì)頻繁要求用戶批準(zhǔn)操作，撥桿推上去是自動(dòng)批準(zhǔn)，撥下來(lái)是逐一確認(rèn)，“像自動(dòng)擋一樣，所有需要批準(zhǔn)的就自動(dòng)批準(zhǔn)掉了”。4個(gè)按鍵中的3個(gè)按鍵分別對(duì)應(yīng)說(shuō)話、確認(rèn)、拒絕，第4個(gè)鍵留給用戶自定義。

據(jù)張心陽(yáng)介紹，團(tuán)隊(duì)最初自己在用AI辦公時(shí)發(fā)現(xiàn)一個(gè)問(wèn)題：正襟危坐在電腦前打字，有時(shí)候反而限制想法，“很多點(diǎn)子是靈光一現(xiàn)出來(lái)的，可能是在你躺在書房沙發(fā)上的時(shí)候”。那么，既然和AI交流已經(jīng)變成說(shuō)話了，為什么一定要坐在電腦前？

于是，他們先做了一個(gè)開源項(xiàng)目放在開源社區(qū)GitHub上，有人看到后就來(lái)買元器件和套件，再后來(lái)就有人希望直接收到組裝好的成品。“是用戶推著我們往前走的。”張心陽(yáng)說(shuō)。在小紅書上，也已經(jīng)有不少用戶自己花69元錢買三鍵小鍵盤、配一個(gè)麥克風(fēng)，手搓出類似的設(shè)備。

語(yǔ)音辦公快速鋪開的第二類場(chǎng)景是，即便最終還是需要產(chǎn)出文字給人看，AI也在語(yǔ)音轉(zhuǎn)寫之后增加了一層語(yǔ)義處理：自動(dòng)刪除語(yǔ)氣詞，修正語(yǔ)法，理順邏輯，調(diào)整句式，輸出一段可以直接使用的通順文字。這個(gè)過(guò)程造成的延遲通常只有一兩秒鐘。

“哪怕你前面說(shuō)的內(nèi)容有錯(cuò)誤，后面又糾正過(guò)來(lái)了，AI都可以幫你完整梳理出來(lái)，形成一個(gè)有效的文案內(nèi)容。”林會(huì)杰這樣告訴記者。這也意味著，過(guò)去的語(yǔ)音輸入需要極高的識(shí)別準(zhǔn)確率才勉強(qiáng)可用，現(xiàn)在的語(yǔ)音輸入即便準(zhǔn)確率一般，大模型憑借理解能力也能輸出比逐字轉(zhuǎn)寫更好的結(jié)果。

事實(shí)上，過(guò)去兩年，一批圍繞AI語(yǔ)音聽寫的創(chuàng)業(yè)公司在快速成長(zhǎng)，其中估值最高的是位于美國(guó)舊金山的Wispr公司。這家公司2021年成立，最初做腦機(jī)接口腕帶（用于無(wú)聲語(yǔ)音輸入），2024年年中轉(zhuǎn)型做語(yǔ)音聽寫軟件。

公開信息顯示，截至2026年初，Wispr累計(jì)完成約8100萬(wàn)美元融資。根據(jù)Wispr披露的數(shù)據(jù)，持續(xù)使用產(chǎn)品超過(guò)6個(gè)月的用戶，日常輸入中72%的字符通過(guò)語(yǔ)音而非鍵盤完成；產(chǎn)品上線至今，用戶規(guī)模同比增長(zhǎng)超過(guò)100倍，使用滿12個(gè)月的用戶中有70%仍在活躍使用。

2025年9月，LinkedIn聯(lián)合創(chuàng)始人Reid Hoffman在社交媒體上宣稱自己被“voicepilled”（語(yǔ)音覺醒），稱這是“一種全新的能力放大方式”。

截至2026年5月，Wispr的目標(biāo)估值已接近20億美元，半年內(nèi)上漲了近三倍。一個(gè)聽寫應(yīng)用估值20億美元，資本市場(chǎng)顯然在押注語(yǔ)音替代一部分鍵盤輸入的場(chǎng)景。

訊飛輸入法也在跟進(jìn)這個(gè)方向。2025年底，訊飛輸入法在鍵盤界面新增了一個(gè)AI鍵，用戶長(zhǎng)按該鍵即可用語(yǔ)音直接向AI下達(dá)指令，不需要切換到其他應(yīng)用。科大訊飛2025年年報(bào)披露，訊飛輸入法大模型服務(wù)用戶滲透率提升900%，輸入效率提升77%。

這或許可以說(shuō)明，語(yǔ)音辦公的需求正在從極客圈向更廣泛的職場(chǎng)人群滲透。

“悄悄說(shuō)話！”

語(yǔ)音辦公的速度優(yōu)勢(shì)很明確，但辦公不只是追求速度。寫一封措辭謹(jǐn)慎的郵件、改一段邏輯復(fù)雜的代碼、打磨一份給客戶的方案，這些場(chǎng)景需要的是精確控制，而不是快速表達(dá)。能不能覆蓋這些場(chǎng)景，是語(yǔ)音辦公能走多遠(yuǎn)的關(guān)鍵問(wèn)題之一。

經(jīng)濟(jì)觀察報(bào)記者在采訪中問(wèn)張心陽(yáng)：有人認(rèn)為用鍵盤打出來(lái)的提示詞更有條理，打字過(guò)程本身會(huì)幫你整理思路，語(yǔ)音輸入能取代這個(gè)過(guò)程嗎？對(duì)此，張心陽(yáng)的回答是，“打字的價(jià)值永遠(yuǎn)存在”。

他把兩者分得很清楚：語(yǔ)音在表達(dá)那一側(cè)，鍵盤在整理那一側(cè)，“你要修改某個(gè)東西的時(shí)候，思考過(guò)程本身對(duì)你是有價(jià)值的”。語(yǔ)音解決的是把想法快速“倒”出來(lái)，編輯和深度思考仍然需要鍵盤。

張心陽(yáng)還提到一個(gè)變化：兩年前，“提示詞工程師”是熱門招聘崗位，用戶需要精心設(shè)計(jì)輸入格式才能讓AI給出滿意的結(jié)果。但現(xiàn)在，這個(gè)崗位基本消失了，AI自己就能把零散的口語(yǔ)化輸入進(jìn)行結(jié)構(gòu)化、拆解、調(diào)度，“純從效果方面看，已經(jīng)不需要人再去編輯打字了”。

AI對(duì)輸入格式的容忍度越來(lái)越高，用什么方式給AI下指令變得越來(lái)越不重要。在這個(gè)前提下，速度最快、認(rèn)知負(fù)擔(dān)最低的輸入方式自然會(huì)勝出，而且說(shuō)話時(shí)不需要把想法先翻譯成書面語(yǔ)。或者說(shuō)，AI對(duì)自然語(yǔ)言的理解能力到了今天這個(gè)水平，以語(yǔ)音為核心交互方式的辦公產(chǎn)品第一次具備了成立的條件。

但實(shí)際上，用語(yǔ)音操作電腦的想法比AI大模型出現(xiàn)得更早。

2018年5月15日，錘子科技在北京鳥巢舉辦發(fā)布會(huì)，創(chuàng)始人羅永浩彼時(shí)在臺(tái)上演示了堅(jiān)果TNT工作站。TNT全稱Touch and Talk，主打語(yǔ)音加觸控操作桌面電腦，用戶對(duì)著屏幕說(shuō)話就能完成搜索、編輯文檔、發(fā)送郵件等操作。這樣一個(gè)被錘子科技定義為跨時(shí)代的產(chǎn)品，卻在發(fā)布會(huì)后被大范圍嘲諷，網(wǎng)友調(diào)侃的“安靜！你吵到我用TNT了！”一度成為彼時(shí)互聯(lián)網(wǎng)流傳甚廣的“名梗”。

網(wǎng)友們嘲諷TNT的核心原因是羅永浩在現(xiàn)場(chǎng)演示的語(yǔ)音交互體驗(yàn)不好。2018年的語(yǔ)音識(shí)別技術(shù)雖然已經(jīng)能做到較高的準(zhǔn)確率，但沒(méi)有大模型理解意圖，每一個(gè)識(shí)別錯(cuò)誤都是一個(gè)需要用戶手動(dòng)糾正的摩擦點(diǎn)——用戶必須說(shuō)得字正腔圓、邏輯清晰，機(jī)器才能給出正確響應(yīng)，稍有含糊，體驗(yàn)就會(huì)崩掉。

或者說(shuō)，2018年語(yǔ)音交互的接收方是一套傳統(tǒng)軟件系統(tǒng)，它需要精確的輸入才能運(yùn)行，對(duì)口語(yǔ)化表達(dá)缺乏容忍度。哪怕語(yǔ)音識(shí)別本身的準(zhǔn)確率已經(jīng)達(dá)到95%以上，剩下那5%的錯(cuò)誤在沒(méi)有大模型兜底的情況下，每一個(gè)都會(huì)變成用戶體驗(yàn)的斷裂點(diǎn)。

在當(dāng)時(shí)的技術(shù)條件下，一個(gè)以語(yǔ)音為主要操作方式的桌面電腦，無(wú)法兌現(xiàn)它的承諾，也無(wú)法帶來(lái)想象中的體驗(yàn)。如果TNT搭載的是一個(gè)能理解自然語(yǔ)言的大模型，并且在今天發(fā)布，它面對(duì)的將是另一種情形。

大模型解決了“聽不懂”的問(wèn)題，但“不方便說(shuō)”的問(wèn)題仍然存在。在張心陽(yáng)看來(lái)，語(yǔ)音辦公在實(shí)際推廣中面對(duì)的第一個(gè)問(wèn)題就是噪聲，“在開放式辦公室里，七八個(gè)人同時(shí)對(duì)著電腦嘟囔，哪怕每個(gè)人都在壓低音量，匯在一起也夠讓人頭疼的”。

美國(guó)人力資源軟件公司Gusto的聯(lián)合創(chuàng)始人Edward Kim近期在接受媒體采訪時(shí)也表示，他在公司內(nèi)部推廣語(yǔ)音辦公工具，自己“現(xiàn)在幾乎一直在對(duì)著電腦說(shuō)話”，但在辦公室里持續(xù)這樣做“確實(shí)有點(diǎn)尷尬”。

張心陽(yáng)介紹，AhaKey搭配大疆麥克風(fēng)可以做到低聲識(shí)別，在20分貝的音量下仍能保持99%的準(zhǔn)確率，20分貝大約相當(dāng)于深夜臥室里的耳語(yǔ)，坐在旁邊的同事幾乎聽不到你在說(shuō)什么。

當(dāng)然，在這個(gè)問(wèn)題上也有另外的技術(shù)解決方案。5月28日，科大訊飛研究院語(yǔ)音翻譯條線總監(jiān)孔常青在接受經(jīng)濟(jì)觀察報(bào)記者采訪時(shí)介紹，訊飛最新發(fā)布的AI眼鏡采用了唇動(dòng)識(shí)別結(jié)合麥克風(fēng)陣列的多模態(tài)降噪方案，在展會(huì)、地鐵、餐廳等高噪音場(chǎng)景下，識(shí)別準(zhǔn)確率可以提升30%到40%。

唇動(dòng)識(shí)別和低聲識(shí)別是兩種不同的技術(shù)路徑，但面對(duì)的是同一個(gè)市場(chǎng)需求：在人多嘈雜的環(huán)境里也能用語(yǔ)音辦公。“尤其是對(duì)于一些以前完全不可用的特別吵的場(chǎng)景，（唇動(dòng)識(shí)別）基本上已經(jīng)達(dá)到了使用的門檻。”孔常青說(shuō)。

語(yǔ)音辦公面臨的第二個(gè)問(wèn)題是隱私——口述內(nèi)容變成聲波，郵件內(nèi)容、代碼邏輯、商業(yè)想法，周圍的人都能聽到；另外，云端處理的語(yǔ)音數(shù)據(jù)也讓人有安全顧慮。

2025年11月，有用戶在社區(qū)論壇上發(fā)現(xiàn)，AI語(yǔ)音聽寫軟件Wispr Flow在宣稱“零數(shù)據(jù)留存”的同時(shí)，實(shí)際上在存儲(chǔ)用戶的屏幕截圖并上傳至服務(wù)器。該事件迅速發(fā)酵，Wispr CEO Tanay Kothari隨后公開道歉并更新了隱私策略。Google在2026年5月發(fā)布AI語(yǔ)音聽寫功能Rambler時(shí)也特別強(qiáng)調(diào)，“不存儲(chǔ)語(yǔ)音錄音，音頻僅用于轉(zhuǎn)寫”。

噪音和隱私的問(wèn)題還沒(méi)有完全解決，但這并沒(méi)有阻止硬件廠商的快速入場(chǎng)——從錄音卡片、耳機(jī)到眼鏡、鍵盤，圍繞語(yǔ)音和AI的辦公硬件正在密集出現(xiàn)，品類和價(jià)格帶也在快速拓寬。

比如，2025年8月，釘釘發(fā)布首款A(yù)I硬件DingTalk A1，售價(jià)分799元和499元兩個(gè)版本，搭載6顆麥克風(fēng)陣列，支持120多種語(yǔ)言轉(zhuǎn)寫；2026年1月，飛書聯(lián)合安克創(chuàng)新發(fā)布AI錄音豆，重量10克，售價(jià)899元；此外，科大訊飛、360公司也推出了類似產(chǎn)品。

對(duì)此，林會(huì)杰的感受很直接：“對(duì)著鍵盤空流淚。我能想到是什么，也能說(shuō)出來(lái)是什么，但打字打出來(lái)的時(shí)候就很痛苦。”他認(rèn)為，在想法和文字之間始終隔著一層翻譯，從腦子里的念頭到手指在鍵盤上敲出的字符，中間既有信息損耗，也有時(shí)間損耗，但AI大模型正在改變這種狀況。據(jù)其介紹，訊飛的GlassClaw智能體可以把口語(yǔ)化表達(dá)自動(dòng)整理成通順文本，“一句話即可完成從查詢信息到撰寫方案到發(fā)送郵件的全流程”。

張心陽(yáng)亦稱，其團(tuán)隊(duì)正在探索本地Agent與隱私計(jì)算能力。如果這個(gè)方向成立，語(yǔ)音加AI的組合將有可能催生一個(gè)獨(dú)立于PC和手機(jī)之外的新辦公硬件品類。當(dāng)然，鍵盤依然會(huì)存在，但它的角色會(huì)發(fā)生變化——從主要輸入工具變?yōu)榫庉嫻ぞ摺?/p>

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.