![]()
Vibe Coding 火了之后,越來越多的人選擇對著屏幕口述,而不是敲鍵盤,不少網友甚至為此整出 AI 語音鍵盤。
今年 3 月,Anthropic 也給 Claude Code 加了語音模式,在終端輸入 /voice,按住空格說話,松手執行。很難想象,連「寫代碼」這種最依賴鍵盤輸入的場景,都開始支持語音了。
既然寫代碼的人都開始用嘴干活了,那我一個每天寫文章、寫方案、做 PPT、整表格的打工人,還在一個字一個字敲鍵盤,顯然也不夠高效,尤其是查數據要切三個頁面,做個匯報 PPT 要從找模板開始花三小時,整理會議紀要邊聽邊記還漏一半。
究其原因,不是每個人的口頭表達都那么好。哪怕也有一些 AI 輸入法能解決,比如我們之前介紹過的 Typeless,每年光訂閱費每年就得花 1000 塊。
在真正干活的電腦端,至今沒有和深度 AI 辦公能力打通的語音入口。剛好,千問電腦版/網頁版最近也上線了千問語音輸入法,據說奔著「用嘴干活」而來。而且千問電腦版還是全免費——不只是語音免費,它內置的所有 AI 辦公能力,全部敞開用。
![]()
別被輸入法這個名字騙了
一開始,看到千問語音輸入法這個名字,我下意識以為這就是一個識別準確率更好的 AI 輸入法,結果我發現完全不是一回事。
千問語音輸入法上手幾乎沒有門檻。兩個快捷鍵搞定一切,按住是語音輸入,雙擊是讓 AI 干活。Win 是右 Alt,Mac 是右 Command,你可以根據使用習慣來設置喚起的快捷鍵。
![]()
你在 Word 里寫文檔也好,瀏覽器里看資料也好,釘釘里回消息也好,快捷鍵一按,語音入口浮出來。不用切到千問客戶端,不用打開額外窗口。想問就問,想說就說。
千問語音輸入法主要就兩種使用姿勢:按住開始語音輸入,想到什么直接說就行,千問幫你自動去口水話、糾正口誤、生成結構化表達。雙擊喚起語音指令,這時候你是在給 AI 派任務,比如查個東西、幫你回消息、生成文檔。
打從一開始,它就不只是打算只做一個「幫你打字更快」的輸入法。你的嘴負責下達指令,它是一個中樞接口,負責聽懂、翻譯、調度,讓 AI 把活兒干完交給你。
說話就是比打字好使
2026 年,我對一款語音輸入法的要求,已經遠遠不止是識別準確率。「聽得清」的逐字聽寫都是基操,更重要的是理解我想表達什么,再幫我組織好。
比如口述一段想法,它能保留我的意圖,幫同事把廢話全部過濾掉,口誤也順手修正,吐出來出來的是干凈、精煉、可以直接發出去的文字。
比如碰到方案延期這種事,也可以交給千問整理成一段清晰的書面表達,而我只需要直接按住快捷鍵,隨口反饋給千問:
關于這個項目的延期,我… 啊不對,我想說的是關于這個方案的調整,其實原定計劃是本周五交付,但是… 呃… 因為客戶那邊臨時加了三個需求點,我們評估了一下大概需要多兩天,所以… 不對,我的最終意思是:方案交付時間從本周五調整至下周三,原因是客戶新增三個功能點,需要補充技術評估,我們承諾下周三前一定提交初版方案。
松手后結果就出來了,可以看到它自動刪除所有「啊不對」「呃」「但是」等語氣詞,把我表達的核心清晰整理了出來;對比常規的語音輸入,只能逐字記錄,還要自己手動編輯,千問語音輸入法基本無需手動調整,就能直接發出去。
在一些更專業和復雜的項目溝通中,千問語音輸入法就更加實用了。
比如下面這個溝通需求,注意看,我長按說了一大堆話后,最后還補了一句:將關于數據部分提前。
這次產品改版的核心目標是提升新用戶的留存率。我們在 onboarding 流程里增加了三個引導步驟,把原來的五步走改成了三步走,還在每個節點加了進度提示。另外,我們發現很多用戶在第二步就流失了,所以把第二步的表單從 8 個字段縮減到 3 個必填字段。數據方面,改版后一周的留存率從 35% 提升到了 48%,次日留存提升了 12 個百分點。不過也有一個風險,就是表單精簡后收集的用戶信息變少了,可能會影響后續精準推薦的效果,這個需要持續觀察。最后是團隊層面的配合,設計部在兩周內出了兩版方案,開發部用了三天完成上線,整體節奏還是很快的。嗯把數據那段放到最前面,然后分段給我
這里結果對比就更明顯了,只有千問聽懂了「把數據那段放前面「」的指令,自動重排段落,我用嘴就完成了原本需要鼠標+鍵盤的操作。
![]()
常規語音輸入結果
![]()
千問語音輸入法結果
體驗過程我還發現了一個讓我驚喜的細節,千問語音輸入法對于中英文夾雜的口述內容,識別特別到位。
這個函數的主要作用是處理用戶登錄時的 token 驗證,首先會調用 validateToken 方法檢查 token 是否過期,如果 expired 的話就返回 401,然后如果是 valid 的話,再調用 getUserInfo 接口去拉取用戶信息,最后把 userId 和 role 寫進 session 里面。注意一下,這里有一個 edge case,就是當 token 是 refresh token 的時候,要走另外一條邏輯分支。
千問不只把所有的英文術語都識別對了,而且還自動根據我的話分點輸出,一目了然。
![]()
千問語音輸入法結果
我還想分享一個對于內容創作者特別有幫助的用法,APPSO 每天早上都要開選題會,大家會有很多碎片想法,一個熱點現象、一個行業觀察、一個趨勢判斷……
之前有些想法是散裝的,不成體系,現在我可以直接在會上按住喚出千問語音輸入法,讓它將這些想法整理成大綱。比如這一大段我在會上對編輯選題的反饋意見,如下圖所示:
![]()
千問語音輸入法結果
松開手后,一段詳細的選題大綱就出來了,編輯能穩穩接住我的反饋,稍微擴充就能寫出一篇深度分析稿件。最后的成文也附上給大家看看:蘋果悄悄砍掉丐版 Mac mini,人人都要交「AI 稅」的時代來了 。
單就語音輸入這個維度,千問給我最大感受是,真就說多快多亂都沒關系,反正輸出的質量 AI 會兜底。
萬物皆可 Vibe,一句話的事
語音輸入只是第一步,千問語音輸入法更大的價值是還能幫你干活。
上面提到了整理選題大綱,然后我就需要沉浸式寫作,但每次要查個數據和報告,都得切到其他網頁和應用。這里千問語音輸入法就很自然地出現了——它支持在任意軟件、桌面全局喚起,不用切換窗口,動動嘴就能直接查。
比如我在寫一篇關于 OpenAI 的文章時,剛好有一段要引用最近的融資金額和投資方。我雙擊喚起語音指令,說一句:「幫我找一下 OpenAI 最新融資背景。」
![]()
思考一兩秒,千問小窗就直接彈出把詳細結果發我了,我看著引用繼續寫,心流就不會被打斷。
假期剛回來,一大堆工作等著推進,我需要整理一個清晰的周報,但又沒時間慢慢敲字,于是雙擊并隨口將把需求說了出來,里面夾雜著帶著大量口頭表達:
誒那個,我匯報下這周進度哈……A 項目目前跟進到第三階段了,中間遇到了供應商交付延遲,大概遲了三天,后來通過加班把進度趕回來了……B 項目還在需求評審,產品那邊原型圖有點模糊,約了下周一早上十點對齊……下周還要申請兩臺測試服務器……你幫我整理為周報 word 文檔,語氣專業一點,條理清楚。
![]()
此外,千問語音輸入法還有一個更有意思的功能——幫你回消息。
我每天往往需要在微信、釘釘、飛書等各種項目群里穿梭,回復各種消息。非常消耗精力,這時候我就能讓千問讓我的「嘴替」了。
比如假期還沒過完就被同事催交文章,我就雙擊讓它幫我來一段高情商回復。
我無需給它介紹背景,它就能根據屏幕內容補充上下文,給我一個「聰明」的回復
而在一些面對客戶或者更正式的場合里,我也可以雙擊讓它給我擬一個得體的回復。
![]()
這是因為千問語音輸入法支持了「場景感知」。它自動識別你當前在什么應用里,看到你屏幕上的內容,據此調整輸出的風格。你不用告訴它更多背景,它自己就能看懂。
下周要出差,我直接雙擊,在微信讓它幫我根據聊天信息,整理成一個出行指南便簽。
![]()
最后給我的這份出行指南,除了航班信息,還貼心地給我整理了待辦事項,并根據當地天氣和交通情況給了我一些具體建議,這對于常常出差的媒體人來說十分友好。
開周會的時候我還發現了一個實用的小技巧,會議開始,我雙擊兩下喚起千問語音輸入法,結束后一句:「幫我把剛才的內容整理成會議紀要。」它就自動幫我整理好了。
這很適合一些快速拉通的臨時會議,不用再單獨打開會議記錄類的應用,隨手雙擊馬上記。
![]()
對著電腦說話,活兒 AI 自己就干完了
別誤會,對著電腦喊「幫我查資料」「寫個郵件」,現在只能算 AI 的基本操作。
千問 電腦端這次真正亮出的底牌,是把語音輸入和 PPT 創作、AI 表格、文檔處理等功能組合起來,這也是真正能幫打工人實現「每天早下班一小時」的實用功能。
拿最折磨人的 PPT 來說,千問不是去素材庫里給你拼湊爛大街的野生模板,而是直接用大模型的代碼能力動態生成復雜排版。如果你覺得哪里不夠完美?直接多輪對話讓它接著改,改到你滿意為止。
為了探探底,我先讓它幫我做個視頻號運營課程 PPT,幾乎在語音落地的瞬間,AI 就進入了光速消化模式:填充血肉、匹配邏輯一氣呵成。
![]()
最令人驚喜的是,千問對「圖文穿插」的理解并非生搬硬套,而是根據內容深度匹配了差異化的版式,整份 PPT 拿出來,幾乎就是可以直接交付的成稿。
這還沒完,你還能一次性給千問喂最多 39 種不同格式的參考文件,讓它自動梳理邏輯、提煉重點,幫你省去了來回翻資料的麻煩。至于配圖,它也能根據上下文自動匹配,找不著合適的甚至能當場給你生圖,全程都不需要你切出界面去求助搜索引擎、或者下載下來用 office 處理。
表格處理方面,千問的 Excel Agent 主打一個高水準。
不管是格式隨意的聊天截圖、手寫筆記,還是大段的純文本,丟給它就能快速生成標準的 Excel 表格。如果后續還要算算增長率、畫個趨勢圖,也不用再去頭疼怎么寫函數公式了,直接用自然語言吩咐它就能搞定。
我試了一個稍微有點復雜的需求:讓它根據 2026 廣州最新版初中英語教材,把各句型的語法結構、時態變化和參考例句整理成 Excel 表格,格式要適合一頁紙打印,方便拿來背誦。
![]()
換以前,這種事得自己一條條查資料、手動錄入、再調格式,至少要折騰半小時。現在說一句話,它直接把表格生成好,列名、行距、例句填充,基本不需要再動手改。
文檔處理這邊,Word/PDF Agent 支持圖文數據混合上傳,能自動排版并輸出直接可交付的文件。
更有意思的是,傳完長文檔你不需要自己去翻閱找重點,直接張嘴問,它就能快速定位給出答案;想修改哪里也是一句話的事兒,省去了自己去對照原文件一點點改的麻煩。
我試著傳了一份繁雜的合同 PDF,直接問它:「獨家授權內容是哪些?」它并沒有傻傻地把全文復述一遍,而是精準定位到了授權條款,把獨家范圍、授權期限和限制事項一條條列得清清楚楚。
![]()
目前,這個語音指令甚至還能和 AI 寫代碼、手搓網頁等任務助理功能組合使用,照這個架勢下去,未來的辦公形態,大概真的就是「動動嘴皮子就把活兒干了」。
和 AI 說話的人,會比鍵盤打字的人更早下班
用了一段時間千問語音輸入法,我想到一件事。
過去幾年「AI 提升辦公效率」喊得震天響,但大部分人的體驗是:我跟 AI 說了半天,它給我的東西根本不能用。然后就覺得 AI 也不過如此。
問題出在哪?出在溝通方式上。你用鍵盤跟 AI 對話,40% 的精力花在組織文字上,只剩 60% 在想你到底要什么。給出去的指令信息密度低、上下文薄,AI 當然輸出垃圾。這不是 AI 不行,是你喂給它的東西不行。
語音把這個死結解開了。說話時你不會給自己設字數限制,細節會自然地冒出來,上下文會自動變厚。它能把嘴里說出的自然語言需求梳理得井井有條,讓 AI 精確執行。
![]()
紐約銷售平臺 Clay 的教育負責人 Yash Tekriwal 提到,他用語音輸入的速度是每分鐘 205 個詞,打字只有 110 到 120 個。但速度還不是最關鍵的,他發現口述的 prompt 質量更高。
AI 圈最近有個詞特別火,叫 harness。它的意思大概是:你有一匹馬(AI 的能力),但你得有一套韁繩才能駕馭它,讓它往你要的方向跑。沒有 harness,馬再強壯也只是在原地打轉。
千問電腦版的語音輸入法就是這套 harness。
它連接的一端是你的嘴,另一端是 AI 的全套辦公能力:PPT、表格、文檔、搜索、分析、格式轉換。你說一句話,它把你的意圖翻譯成 AI 能執行的指令,然后調度對應的 Agent 去跑腿。它不是輸入法,是韁繩。是你駕馭 AI 辦公能力的那套 harness。
而別的「帶 AI 功能的輸入法」解決的是什么?是入口問題,幫你找到 AI 在哪里。千問解決的是駕馭問題,幫你把 AI 的能力精確地用起來。一個是給你指路,一個是幫你套好韁繩直接上路。差距就在這。
在 Agent 時代,語音本來是驅動 AI 工作的最自然和高效的方式。千問語音輸入法,就是率先在桌面入口端出了這套 harness 的產品 ,這也是為什么我期待,未來在更多終端上,能看到這種真正能駕馭 AI 的語音入口。
去年這個時候,如果你在辦公室突然對著電腦說話,一次兩次會被當成在打電話,三番五次就不禁讓人懷疑,工作壓力是不是太大了,精神狀態還好嗎?
今年開始,那些對著電腦自言自語的,可能就是全公司最早下班 (摸魚) 的人。
附客戶端下載地址:
https://www.qianwen.com/download?ch=tongyi_redirect
網頁版體驗地址:
https://www.qianwen.com/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.