![]()
這個(gè)春天開始,硅谷的辦公室里,敲打鍵盤的噠噠聲正在被嘀嘀咕咕的人聲取代。
有風(fēng)險(xiǎn)投資人調(diào)侃,現(xiàn)在去硅谷的 AI 創(chuàng)業(yè)公司拜訪,感覺像走進(jìn)了一個(gè)高端呼叫中心,只不過所有人都在跟 AI 聊天:員工們戴著電競耳機(jī)坐在工位上,對著麥克風(fēng)發(fā)號施令。
這股風(fēng)潮還有個(gè)名字,叫“voicepilled”——語音覺醒。LinkedIn 聯(lián)合創(chuàng)始人 Reid Hoffman 在 2025 年秋天的一篇帖子里首次宣稱自己被“voicepill”了。他寫道:“被voicepill 的那一刻,就是你意識到一旦認(rèn)真用語音與技術(shù)交互,就能解鎖一種全新的能力放大方式。”這個(gè)詞借用了《黑客帝國》里紅藍(lán)藥丸的隱喻,吞下這顆“語音藥丸”,你就會看到一個(gè)不同的生產(chǎn)力世界。
語音輸入本身倒不是什么新鮮事,蘋果的 Siri 聽寫、Windows 語音識別、甚至更早的 Dragon NaturallySpeaking 已經(jīng)存在了很多年。但過去這些工具的體驗(yàn)非常折磨人:識別率低,標(biāo)點(diǎn)混亂,一句話說了三遍都不準(zhǔn),最后還不如自己打字。
真正的轉(zhuǎn)折點(diǎn)是大規(guī)模 AI 語音模型的成熟。2022 年 OpenAI 發(fā)布了 Whisper,一個(gè)基于 Transformer 架構(gòu)的開源語音識別模型,用 68 萬小時(shí)的多語言音頻數(shù)據(jù)訓(xùn)練而成。Whisper 的出現(xiàn)把語音轉(zhuǎn)文字的準(zhǔn)確率拉到了實(shí)用門檻之上。
而在此基礎(chǔ)上,新一代聽寫工具例如 Wispr、Aqua Voice 等邁出了更關(guān)鍵的一步:它們不只是把你說的話逐字記錄下來,還會用 LLM 對輸出進(jìn)行“潤色”,自動刪除“嗯”“啊”之類的填充詞,修正語法,調(diào)整句式,甚至根據(jù)你正在使用的應(yīng)用場景來適配語氣和格式。整個(gè)過程延遲通常在一到兩秒之內(nèi)。部分工具還支持“命令模式”,用戶可以用語音指令來編輯已有文本,比如“把上一段改成更正式的語氣”或者“刪掉最后一句”。
![]()
(來源:Wispr ai)
這種工作方式之所以讓人興奮,有一個(gè)很直觀的原因:人說話的速度大約是打字速度的三倍。對于英文使用者來說,普通人的打字速度在每分鐘 40 到 80 個(gè)英文單詞之間,而正常語速大約是每分鐘 130 到 150 個(gè)單詞(中文使用者的打字速度大概在每分鐘 80~100 字左右,而語速大約是 200~250 字之間)。
對于那些工作內(nèi)容主要是“把想法變成文字”的人,比如寫郵件、寫文檔、寫代碼提示詞,這意味著理論上可以把產(chǎn)出速度提升兩到三倍。一些重度用戶聲稱自己的文字產(chǎn)出確實(shí)翻了幾番。
更有意思的是,語音聽寫正在和另一個(gè)熱門趨勢合流:vibe coding(氛圍編程)。這個(gè)由 Andrej Karpathy 在 2025 年初提出的概念,指的是開發(fā)者不再逐行寫代碼,而是用自然語言描述需求,讓 AI 編程工具(如 Claude Code、Codex)來生成代碼。而當(dāng) vibe coding 遇上語音聽寫,開發(fā)者甚至不需要坐在電腦前打字。他們可以一邊踱步一邊口述需求,聽寫工具把語音轉(zhuǎn)成文字 prompt,再由編程 AI 把 prompt 轉(zhuǎn)成代碼。Wispr 的創(chuàng)始人 Tanay Kothari 說,他們的員工現(xiàn)在就是在辦公室里走來走去,對著電腦說話,不用再把思考的過程綁定在桌前。
據(jù)媒體報(bào)道,一些最狂熱的用戶甚至購買了可編程腳踏板,一種原本屬于游戲外設(shè)的東西,踩一下就能激活語音交互功能;還有人在桌上架起鵝頸麥克風(fēng),就是體育解說員和牧師用的那種可彎曲話筒,離嘴更近說話更省力;Wispr 公司內(nèi)部則流行把無線領(lǐng)夾麥別在襯衫上,員工們像是隨時(shí)在錄播客。這家公司甚至計(jì)劃之后向客戶銷售品牌麥克風(fēng)。
![]()
圖 | 可編程腳踏板 (來源:Amazon)
資本市場顯然對這種新的“vibe working”方式十分歡迎。成立于 2021 年的 Wispr,最初的方向是做腦機(jī)接口可穿戴設(shè)備,后來轉(zhuǎn)型做語音聽寫工具。據(jù)媒體報(bào)道,2025 年 11 月 Wispr 的估值約 7 億美元。而到了 2026 年 5 月,Wispr 的目標(biāo)估值已經(jīng)飆升至 20 億美元。一個(gè)聽寫應(yīng)用估值 20 億,足以說明了市場對“語音取代鍵盤”這件事的看好程度。
于是,競爭也開始變得激烈。同類公司 Aqua Voice 和 Willon 都拿到了 Y Combinator 的投資,初創(chuàng)公司 TalkTastic、Typeless、Superwhisper 各有擁躉。科技巨頭也沒閑著:在 2026 年 5 月的 Android Show 上,谷歌發(fā)布了 Rambler,一個(gè)內(nèi)置于 Gboard 輸入法、由 Gemini 驅(qū)動的聽寫功能,能把用戶雜亂的口述自動整理成通順文本。當(dāng)平臺級玩家入場,獨(dú)立應(yīng)用的生存空間會被如何擠壓,仍有待觀察。
此外,這股新的技術(shù)趨勢面前,還存在一些現(xiàn)實(shí)的門檻。
首先是硬件層面的局限。目前主流的 AI 聽寫工具大多是 Mac 優(yōu)先甚至 Mac 獨(dú)占的。Wispr Flow 和 Superwhisper 支持 Mac,Aqua Voice 長期以來僅限 Mac 平臺(近期才開始支持 Windows),TalkTastic 則是 iOS 和 Mac。而在企業(yè)環(huán)境中,Windows 仍然是絕對主流操作系統(tǒng)。醫(yī)療、法律、政府、金融行業(yè)尤其如此。
更棘手的是遠(yuǎn)程桌面環(huán)境:很多企業(yè)員工通過 Citrix、VMware Horizon 或 RDP(遠(yuǎn)程桌面協(xié)議)來訪問工作系統(tǒng),而大多數(shù)聽寫工具依賴剪貼板粘貼來輸入文字,這在被組策略鎖定的遠(yuǎn)程會話中根本行不通。
其次是成本問題。以 Wispr 為例,它的的訂閱價(jià)格是每月 18 美元。對于一個(gè)基礎(chǔ)生產(chǎn)力工具來說,這個(gè)價(jià)格讓不少個(gè)人用戶猶豫。傳統(tǒng)的 Dragon NaturallySpeaking 則需要數(shù)百美元的一次性買斷費(fèi)用。雖然也有更便宜的選擇(比如一些工具提供 7 美元/月的方案,或者基于本地模型的免費(fèi)層級),但整體來看,語音聽寫還沒有變成一個(gè)人人輕松消費(fèi)的默認(rèn)選項(xiàng)。
還有一系列的噪音和隱私問題。
在國外,開放式辦公室本來就因?yàn)樵胍魡栴}飽受詬病。多項(xiàng)研究表明,開放式辦公環(huán)境中不相關(guān)的語音噪音是影響員工注意力和心理健康的首要因素。而現(xiàn)在,語音聽寫正在往這個(gè)里注入更多噪音。想象一下:一個(gè)二十人的開放工位區(qū),有七八個(gè)人同時(shí)在低聲嘟囔,有人在口述郵件,有人在對 AI 編程助手描述一個(gè) bug,有人在用語音命令修改文檔格式。即便每個(gè)人都刻意壓低音量,匯聚在一起,也足夠讓人頭疼。
一名接受采訪的使用者承認(rèn)這“確實(shí)有點(diǎn)尷尬”。他說在家里用語音辦公感覺像鋼鐵俠對 Jarvis 下指令,挺酷的;但在辦公室里,當(dāng)著同事的面自言自語,總歸有些不自在。而且當(dāng)你在口述內(nèi)容時(shí),周圍的人能聽到你在說什么。不管是郵件內(nèi)容、代碼邏輯,還是商業(yè)想法,這些原本只存在于屏幕上的私密信息,現(xiàn)在變成了公開的聲波,總歸不太自在。而對于涉及敏感信息的工作場景,還存在合規(guī)風(fēng)險(xiǎn)。
![]()
(來源:Youtube)
從更宏觀的視角看,語音辦公的興起或許折射了一種技術(shù)趨勢:人機(jī)交互正在從“適應(yīng)機(jī)器的方式”向“適應(yīng)人的方式”遷移。鍵盤是一種為機(jī)器設(shè)計(jì)的輸入界面,人類花了一百多年去適應(yīng)它。而語音是人類最原始、最自然的表達(dá)方式。AI 的進(jìn)步讓機(jī)器終于能夠理解人類自然語態(tài)下的表達(dá),于是“讓人回歸說話”就成了一個(gè)順理成章的方向。
但人類發(fā)明書寫,本身就是因?yàn)檎Z音表達(dá)有其局限,它是線性的,信息密度低,也缺乏復(fù)雜結(jié)構(gòu)的承載能力,而且易受環(huán)境影響。對于這些問題,語音聽寫工具可能還需要交出更好的答案。
而且如果語音交互真的成為主流工作方式,現(xiàn)有的辦公室結(jié)構(gòu)也將面臨重新設(shè)計(jì)。過去幾十年里,辦公空間默認(rèn)服務(wù)于安靜打字的人類,而未來,它也許要開始服務(wù)一群持續(xù)低聲說話的人。聲學(xué)隔離、半封閉語音工位、針對不同噪音等級的空間分區(qū),甚至專門用于人機(jī)對話的“語音會議室”……這些聽起來有些遙遠(yuǎn)的設(shè)計(jì),或許會成為標(biāo)配。
1.https://www.theguardian.com/technology/2026/may/12/end-of-typing-workers-ditching-keyboards-voicepilling-ai-dictation
2.https://techcrunch.com/2026/05/10/get-ready-for-the-whisper-filled-office-of-the-future
3.https://www.wsj.com/tech/typing-is-being-replaced-by-whisperingand-its-way-more-annoying-a804fee7
注:封面/首圖由 AI 輔助生成
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.