![]()
封面圖片由AI生成
7 年前,作者還是一名職業(yè)翻譯,用著雅信 CAT 翻譯軟件,搭配谷歌翻譯和紙質(zhì)的大部頭柯林斯字典,做法律文書、技術(shù)資料的翻譯工作,偶爾也幫一些引進(jìn)的英語電視節(jié)目配字幕。
轉(zhuǎn)行面試的時(shí)候,hr 問我為什么不干翻譯了,我回答說,感覺自己這個(gè)職業(yè)可能很快要被 AI 替代了。
當(dāng)時(shí)的 HR 可能以為這只是個(gè)隨口瞎編的理由,但身處行業(yè)中,我的體會(huì)真是這樣。
2017 年前后,作者明顯能感覺到,谷歌翻譯的準(zhǔn)確率在大幅提升。雖然在一些專業(yè)領(lǐng)域,尤其句子結(jié)構(gòu)復(fù)雜的文本材料,機(jī)翻的結(jié)果仍存在很多錯(cuò)誤,沒法直接采用。但對(duì)于一些基礎(chǔ)文本,翻譯結(jié)果已經(jīng)相當(dāng)準(zhǔn)確、優(yōu)雅了。
因而行業(yè)內(nèi)也出現(xiàn)了個(gè)別譯員大范圍采納谷歌翻譯結(jié)果、敷衍交差的情況,在審校這類稿件時(shí),一旦內(nèi)容涉及到陌生的專業(yè)領(lǐng)域,如果不細(xì)看原文,是不容易發(fā)現(xiàn)問題的。也就是說,這時(shí)候翻譯引擎的“智力”水平,只需配合少許“人工”,就能達(dá)到“即使胡說八道、也能自圓其說”的程度了。
當(dāng)時(shí)我還沒注意到,谷歌已經(jīng)推出了自有品牌手機(jī) Google Pixel phone 和耳機(jī) Pixel Buds,宣傳亮點(diǎn)之一,即是通過軟硬件結(jié)合的方式,讓“實(shí)時(shí)翻譯”這項(xiàng)專業(yè)級(jí)技能,走進(jìn)普通消費(fèi)者的日常生活中。只不過真正的翻譯任務(wù),還是通過手機(jī)上深度集成的 Google Translate App 完成,Pixel Buds 本身不直接處理翻譯邏輯,只單純扮演一個(gè)“傳聲筒”的角色。而且,就網(wǎng)絡(luò)上留存的一些當(dāng)時(shí)的用戶反饋來看,產(chǎn)品使用流程比較繁瑣,高度依賴手機(jī) APP 和手動(dòng)操作,且翻譯質(zhì)量和交互體驗(yàn)也差強(qiáng)人意。
![]()
左 Google Pixel phone,右 Pixel Buds | Alex Dobie 博客
彼時(shí)國內(nèi)同樣掀起了一波人工智能創(chuàng)業(yè)浪潮,翻譯領(lǐng)域自然也不乏軟、硬件科技巨頭推陳出新、試圖解決用戶跨語種交流問題。網(wǎng)易有道、百度翻譯陸續(xù)采用新的技術(shù)路線迭代自家翻譯引擎;被譽(yù)為“中國語音產(chǎn)業(yè)第一股”的科大訊飛,也于 2016 年年底推出了旗下首款消費(fèi)級(jí)翻譯硬件——訊飛翻譯機(jī),并迅速成為市場(chǎng)上的明星產(chǎn)品。
2017 年,一家位于深圳的智能硬件初創(chuàng)公司,更進(jìn)一步提出“翻譯耳機(jī)” 概念,嘗試“把翻譯軟件直接裝入耳機(jī)”,讓用戶實(shí)現(xiàn)跨語言自由交流的目標(biāo)。項(xiàng)目在北美科技眾籌平臺(tái) Kickstarter 上冷啟動(dòng),以并不算便宜的價(jià)格 ( 超級(jí)早鳥價(jià) 99 美元 ),一舉收獲了 1640 位支持者。這就是如今 AI 同傳耳機(jī)頭部品牌——Timekettle 時(shí)空壺的起點(diǎn)。
![]()
圖:時(shí)空壺初代產(chǎn)品眾籌頁
幾乎每個(gè)跨語言交流場(chǎng)景,都有了專屬的“AI 翻譯官”
短短幾年,科技飛速發(fā)展,日常工作、生活中的大部分難題,似乎都有了產(chǎn)品化的解法,跨語言交流自然也不例外。大語言模型的出現(xiàn),讓普通消費(fèi)者需要翻譯技能的每一個(gè)高頻場(chǎng)景,都有了專屬的“翻譯官”。
翻譯工種的分類,幾個(gè)核心要素,一是準(zhǔn)確性、二是即時(shí)性、三是結(jié)果展現(xiàn)的方式。
以作者曾經(jīng)從事的文本翻譯和聽譯工作為例,兩者的共同點(diǎn),一是對(duì)“即時(shí)性”要求不高,工作時(shí)間相對(duì)充裕;二是都不涉及“開口講”,只需要把原文本、音視頻內(nèi)容,用另一種語言文字準(zhǔn)確轉(zhuǎn)述出來即可。這也是普通消費(fèi)者日常工作、生活中最常見的場(chǎng)景,包括瀏覽外文資料、網(wǎng)站,看外文影視節(jié)目等等。
通用文本的翻譯,目前最佳解決方案,毫無疑問就是大語言模型,以及集成了大語言模型的翻譯引擎本身。ChatGPT、DeepSeek、元寶、豆包……現(xiàn)在任何一個(gè)大模型的文本翻譯質(zhì)量,基本上都達(dá)到了拿來就用的水平;谷歌、微軟 Edge 等主流瀏覽器也提供類似于“翻譯此頁面”這樣更大眾化的功能,為用戶瀏覽外文網(wǎng)站掃除障礙;外文影音內(nèi)容的翻譯,則幾乎從“源頭”上得到了解決——市場(chǎng)上主流的視頻編輯類產(chǎn)品,幾乎把“匹配字幕”、“字幕翻譯”做成了標(biāo)配功能,有的甚至還免費(fèi)。卡點(diǎn)依然在法律、金融、醫(yī)療等對(duì)準(zhǔn)確度和專業(yè)性要求極高的垂直領(lǐng)域,作者就聽說過“花 5 萬塊買了一套 AI 智能合同審核工具,結(jié)果還得靠人工”的案例。
而常見的“聽譯”類產(chǎn)品,已經(jīng)被廣泛集成在了各類視頻會(huì)議、協(xié)同辦公軟件中,以語音轉(zhuǎn)寫、會(huì)議紀(jì)要、實(shí)時(shí)字幕等形式出現(xiàn),例如騰訊會(huì)議中的“字幕和轉(zhuǎn)寫”,飛書“妙記”的實(shí)時(shí)字幕功能。就我個(gè)人使用體驗(yàn)來看,語音識(shí)別的準(zhǔn)確度,也就是“聽”的問題,反而比“譯”的問題要大得多。
![]()
圖:騰訊會(huì)議和飛書妙記集成的實(shí)時(shí)翻譯功能
在更專業(yè)、更正式、對(duì)于“即時(shí)性”要求也更高的視聽場(chǎng)景,例如公開演講、大會(huì)論壇,很多會(huì)議主辦方會(huì)將外文演講者的發(fā)言,以實(shí)時(shí)翻譯字幕的形式,投放到會(huì)場(chǎng)顯示屏上,同步呈現(xiàn)給聽眾。據(jù)作者最近幾次參會(huì)的切身體驗(yàn),AI 實(shí)時(shí)翻譯的專業(yè)性、準(zhǔn)確性已經(jīng)非常高了,當(dāng)然也有可能跟預(yù)置了專業(yè)詞庫、甚至內(nèi)部預(yù)訓(xùn)練了垂直領(lǐng)域模型有關(guān)。
![]()
圖:Meta 電商海外營銷峰會(huì)現(xiàn)場(chǎng),嘉賓用英文演講,大屏幕右側(cè)以中文同步展示中文字幕
總之,作者曾經(jīng)賴以謀生的飯碗,可以說是被 AI 砸得七七八八了,也不知當(dāng)年合作過的翻譯公司和同行小伙伴們是否還安好。
從“對(duì)講機(jī)”到“自由交流”,AI “嘴替”還在進(jìn)化
在以上提到的各類場(chǎng)景中,用戶更多還是單方面的“接收”信息,而在需要“開口講外語”的場(chǎng)景,就涉及到更高階的翻譯技能——交替?zhèn)髯g和同聲傳譯。
交替?zhèn)髯g大多出現(xiàn)在外交會(huì)晤、外貿(mào)洽談等場(chǎng)景,就像我們常在電視里看到的那樣,A 講話人講一段,停下來,譯員翻譯給 B 講話人;B 講話人回復(fù),譯員再翻譯給 A 講話人,也就是講話人和譯員“交替”說話。
![]()
圖:意大利總理梅洛尼與美國總統(tǒng)特朗普會(huì)面,兩人身側(cè)是雙方譯員 | 來源:新聞
同聲傳譯則常見于高端會(huì)議、一對(duì)多發(fā)言的場(chǎng)景,講話人幾乎不需要特意停頓,譯員通過專業(yè)設(shè)備收音 ( 除去講話人聲音之外的雜音 ),最多延遲幾秒,即開始同步翻譯,聲音再通過麥克風(fēng),傳遞到現(xiàn)場(chǎng)佩戴同傳耳機(jī)的觀眾耳朵里。
![]()
圖:聯(lián)合國總部的全職同聲翻譯 CHEN JI | 來源:CHEN JI 的 YouTube 頻道
過去的同聲傳譯,需要最高級(jí)別的專業(yè)翻譯人才,輔以昂貴的專業(yè)設(shè)備提供支持。這里的同傳設(shè)備,主要解決的是通信問題,而非“翻譯”工作本身。而當(dāng)下火熱的 AI 翻譯耳機(jī)賽道,試圖攻克的,就是把同聲傳譯這項(xiàng)技能,從少數(shù)“高端場(chǎng)景”釋放,真正拉入到普通消費(fèi)者的日常工作、生活場(chǎng)景中。
經(jīng)過 7、8 年的技術(shù)攻堅(jiān)和產(chǎn)品迭代,AI 翻譯耳機(jī)已從概念階段真正落地,走向普惠化、消費(fèi)級(jí),應(yīng)用場(chǎng)景也從參觀訪問、商務(wù)會(huì)談、跨國會(huì)議等商業(yè)場(chǎng)景,擴(kuò)展到了出境旅游、跨文化交流等領(lǐng)域。頭部 AI 翻譯耳機(jī)也由當(dāng)初“對(duì)講機(jī)”式的交替?zhèn)髯g模式,進(jìn)化到了更接近“自由交流”式的同聲傳譯模式。
作者測(cè)試了時(shí)空壺最新一代產(chǎn)品 TimeKettle W4 Pro,發(fā)現(xiàn)它已經(jīng)完全可以應(yīng)付需要“開口講外語”的大部分場(chǎng)景。
![]()
這是時(shí)空壺 YouTube 官方賬號(hào)發(fā)布的 W4 Pro 的宣傳片,很好地展示了在商務(wù)場(chǎng)景中,W4 Pro 如何作為跨語言交流的 AI “嘴替”發(fā)揮作用。
W4 Pro 提供 5 種工作模式,適配不同的應(yīng)用場(chǎng)景,可供用戶自由切換。這 5 種模式涵蓋了上文中提到的所有場(chǎng)景:
1. 影音模式——為音、視頻內(nèi)容實(shí)時(shí)提供字幕和翻譯;
2. 傾聽模式——對(duì)方說外語,耳機(jī)翻譯給我聽;
3. 發(fā)言模式——我說中文,手機(jī)外放翻譯給對(duì)方聽;
4. 通話模式——我說中文,電話/IM 軟件對(duì)方聽到外語翻譯;對(duì)方說外語,耳機(jī)翻譯中文給我聽;
5. 1v1 雙向?qū)υ捘J健獙?duì)話雙方一人佩戴一只耳機(jī)自由交流,耳機(jī)同步翻譯,更貼近面對(duì)面日常交談的場(chǎng)景。
![]()
圖:從左至右依次是影音模式、傾聽/發(fā)言模式、通話模式
作為一名前英語筆譯,作者雖然可以應(yīng)付日常英語交流,但在開會(huì)、與不同國籍、不同口音的外國朋友交流時(shí),英語能力仍是明顯的限制,更不用說遇到其他語種的情況了。如今,AI 翻譯耳機(jī)這個(gè)“外掛”,給了我這樣的跨語言工作者極大的信心和助力。
跨語言交流沒有 one for all 的最佳解
底層技術(shù)的躍遷提升了終端產(chǎn)品的用戶體驗(yàn),也降低了應(yīng)用落地的門檻。如今市場(chǎng)上涌現(xiàn)出更多 AI 翻譯軟硬件設(shè)備:
許多大廠和初創(chuàng)品牌切入 AI 翻譯耳機(jī)賽道;讓普通藍(lán)牙耳機(jī)秒變“AI 翻譯耳機(jī)”的軟件模塊驚現(xiàn)華強(qiáng)北;專為翻譯設(shè)計(jì)的各類手持設(shè)備、手機(jī)、平板陸續(xù)上市;AI 翻譯眼鏡乃至腦機(jī)接口等更多創(chuàng)新形態(tài)的產(chǎn)品還在路上……
作者贊同時(shí)空壺創(chuàng)始人田力的觀點(diǎn):“跨語言痛點(diǎn)是非常大的,散落在非常多的產(chǎn)品里,市場(chǎng)是非常大的,但目前還沒出現(xiàn)一個(gè)通用型方案,適合所有場(chǎng)景。”
作為最早突破“雙向同傳”技術(shù)的 AI 翻譯耳機(jī)產(chǎn)品,時(shí)空壺的技術(shù)優(yōu)勢(shì)在“通話模式”和“1v1 雙向?qū)υ捘J健敝械捏w驗(yàn)最好,而在“影音模式”下,同聲傳譯的幾秒延遲可能造成的視頻“音畫不同步”,給用戶的體驗(yàn),肯定是不及內(nèi)容供給側(cè)的“原生配音”的。
此外,已有的解決方案還遠(yuǎn)談不上“完美”,就如同考試成績(jī)一樣,從 90 分提升到 95 分的難度,可能遠(yuǎn)大于從 60 分提升到 90 分。
比如,如何在在線翻譯網(wǎng)絡(luò)信號(hào)不好和離線翻譯質(zhì)量不好之間平衡?如何突破 1v1 場(chǎng)景限制,實(shí)現(xiàn)多人流暢地跨語言交流?耳機(jī)的形態(tài)如何突破“私人物品共享”的社交障礙?眼鏡的形態(tài)如何解決不識(shí)字的問題……
這其中,有的是技術(shù)問題,有的可能是工程問題,還有的甚至無關(guān)“跨語言”,而是純粹的“交流”習(xí)慣問題。
田力在近期一次公開談話中表示,“因?yàn)槿说慕涣鞯男问剑跁r(shí)間、空間和對(duì)象上,就是非常多元和豐富的。不同場(chǎng)景其實(shí)是排列組合的一個(gè)網(wǎng),我們從一開始做產(chǎn)品設(shè)計(jì)的時(shí)候就很明確了,時(shí)空壺不是為所有的場(chǎng)景服務(wù)的。當(dāng)前為止,其實(shí)我們解決的,只是這個(gè)排列組合中的一個(gè)點(diǎn),未來,可能是一個(gè)產(chǎn)品組合。我期待在未來解決所有場(chǎng)景問題的選手中,時(shí)空壺是幾個(gè)主要的貢獻(xiàn)者之一。”
也許未來會(huì)像電影《降臨》里描繪的那樣,有新的文字系統(tǒng)出現(xiàn),亦或者像小說《三體》中三體文明設(shè)定的那樣,直接通過“思維交流”,從而徹底顛覆掉人類跨語言交流的模式。但在那之前,作為曾經(jīng)的翻譯從業(yè)者、如今的 AI 翻譯產(chǎn)品用戶,作者自然期待時(shí)空壺的使命無限接近于完成——讓所有語言不通的人,都可以用母語自然交流、互相理解。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.