網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

華盛頓大學(xué)與Meta AI突破：可穿戴設(shè)備實(shí)現(xiàn)智能問(wèn)答秒級(jí)響應(yīng)能力

2026-04-30 21:37:19　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由華盛頓大學(xué)保羅·G·艾倫計(jì)算機(jī)科學(xué)與工程學(xué)院聯(lián)合Meta AI開展的研究，于2026年4月21日以預(yù)印本形式發(fā)布在arXiv平臺(tái)，論文編號(hào)為arXiv:2604.19642v1，研究方向歸屬計(jì)算語(yǔ)言學(xué)領(lǐng)域。有興趣深入了解的讀者可以通過(guò)該編號(hào)在arXiv上查閱完整論文。

**一、當(dāng)你的手表想"開口說(shuō)話"，卻卡殼了**

每天早上，你可能習(xí)慣了掏出手機(jī)問(wèn)一句"今天天氣怎樣"或者"幫我查一下這個(gè)詞是什么意思"。但如果這個(gè)問(wèn)題是朝著你手腕上的智能手表，或者架在鼻梁上的智能眼鏡說(shuō)的呢？你會(huì)發(fā)現(xiàn)，等待的那幾秒鐘，突然變得漫長(zhǎng)得令人抓狂。這種等待感，正是這篇研究要解決的核心問(wèn)題。

現(xiàn)在市面上最強(qiáng)大的AI助手，本質(zhì)上是運(yùn)行在遠(yuǎn)程數(shù)據(jù)中心里的龐大語(yǔ)言模型。當(dāng)你問(wèn)出一個(gè)問(wèn)題，設(shè)備要先通過(guò)網(wǎng)絡(luò)把你的問(wèn)題發(fā)送到云端服務(wù)器，服務(wù)器排隊(duì)處理，生成答案，再把答案?jìng)骰啬愕脑O(shè)備——整個(gè)過(guò)程快則半秒，慢則好幾秒。對(duì)于坐在電腦前的人來(lái)說(shuō)，這點(diǎn)延遲還勉強(qiáng)可以接受。但對(duì)于戴在手腕上或掛在耳邊的穿戴設(shè)備來(lái)說(shuō)，這種延遲會(huì)讓人覺得AI助手"反應(yīng)遲鈍"，完全破壞了流暢自然的對(duì)話感。

那么，為什么不直接在這些小設(shè)備上運(yùn)行AI模型呢？問(wèn)題在于，哪怕是最"輕量級(jí)"的語(yǔ)言模型，參數(shù)量也在1億到10億之間，對(duì)智能手表或智能眼鏡這類設(shè)備來(lái)說(shuō)，內(nèi)存和電量根本撐不住持續(xù)運(yùn)行這么大的模型。這些穿戴設(shè)備的計(jì)算資源極其有限，連最小號(hào)的AI模型都嫌太重。

于是，研究團(tuán)隊(duì)提出了一個(gè)讓人眼前一亮的思路：與其讓小設(shè)備獨(dú)挑大梁，不如讓它只干一件小事——在云端AI"想好答案"之前，迅速說(shuō)出回答的開頭幾個(gè)字，讓用戶有東西可以先讀著，感覺上就像AI立刻回應(yīng)了一樣。等云端的完整答案到達(dá)，再無(wú)縫銜接上去。這個(gè)方案的名字，叫做"微型語(yǔ)言模型"，英文縮寫為μLM（讀作"mu LM"）。

**二、 "接力賽"式的AI回答：本地先跑，云端接棒**

理解這個(gè)設(shè)計(jì)，可以把它類比成一場(chǎng)精心設(shè)計(jì)的接力賽。第一棒選手是跑步能力一般但反應(yīng)極快的"本地小模型"，它住在你的智能手表里，負(fù)責(zé)在槍聲響起的瞬間就沖出去，生成回答的前幾個(gè)詞。第二棒選手是速度驚人但需要一段準(zhǔn)備時(shí)間的"云端大模型"，它住在遠(yuǎn)方的數(shù)據(jù)中心里，在第一棒跑出去之后才開始啟動(dòng)，但它有足夠的時(shí)間在交棒點(diǎn)趕上來(lái)，接過(guò)接力棒繼續(xù)跑完全程。用戶看到的，是一場(chǎng)沒(méi)有中斷的完整比賽。

具體來(lái)說(shuō)，研究團(tuán)隊(duì)訓(xùn)練了一系列參數(shù)量極小的語(yǔ)言模型，最小的只有880萬(wàn)個(gè)參數(shù)，最大的約有2950萬(wàn)個(gè)參數(shù)。作為對(duì)比，普通的小型語(yǔ)言模型至少也有1億個(gè)參數(shù)，而主流大型語(yǔ)言模型動(dòng)輒有幾百億甚至上千億個(gè)參數(shù)。這些"微型語(yǔ)言模型"小到可以輕松塞進(jìn)穿戴設(shè)備有限的內(nèi)存里，并且能夠在幾十毫秒內(nèi)生成回答的開頭幾個(gè)詞。

這套"接力"機(jī)制的關(guān)鍵設(shè)計(jì)在于，云端大模型被明確告知：它的任務(wù)不是"重新回答這個(gè)問(wèn)題"，而是"接著前面幾個(gè)詞，繼續(xù)往下說(shuō)"。這個(gè)區(qū)別非常重要。如果不做特殊處理，云端大模型看到本地小模型生成的半截話，很可能會(huì)把它當(dāng)作一個(gè)已經(jīng)結(jié)束的陳述來(lái)回應(yīng)，或者重新開頭，讓整段文字變得奇怪突兀。研究團(tuán)隊(duì)通過(guò)特定的提示設(shè)計(jì)，讓云端模型明白自己扮演的是"續(xù)寫者"而非"回答者"，輸出內(nèi)容將直接拼接在本地模型的文字后面，形成一段讀起來(lái)渾然一體的完整答案。

**三、微型模型到底有多小，它能做好這件事嗎？**

880萬(wàn)參數(shù)的語(yǔ)言模型，究竟有多?。看騻€(gè)比方，現(xiàn)在一張高清手機(jī)壁紙大概占幾兆字節(jié)，而這個(gè)模型的整個(gè)參數(shù)文件，也只在幾十兆字節(jié)的量級(jí)——比你手機(jī)里隨便一首無(wú)損音樂(lè)文件還要小。用這么小的模型來(lái)生成有意義的文字，聽起來(lái)有點(diǎn)天方夜譚。

研究團(tuán)隊(duì)專門針對(duì)這個(gè)疑問(wèn)做了系統(tǒng)評(píng)測(cè)。他們從零開始訓(xùn)練了五個(gè)不同規(guī)模的微型模型，通過(guò)調(diào)整模型的"寬度"（每層神經(jīng)網(wǎng)絡(luò)的維度，分別為256、384和512）和"深度"（網(wǎng)絡(luò)層數(shù)，分別為8層和16層），得到了880萬(wàn)到2950萬(wàn)參數(shù)不等的五個(gè)版本。這些模型全部使用聊天對(duì)話風(fēng)格的數(shù)據(jù)進(jìn)行訓(xùn)練，語(yǔ)料庫(kù)包含了14.85億個(gè)詞語(yǔ)單元，覆蓋了日常問(wèn)答、指令遵循等場(chǎng)景。

評(píng)測(cè)分兩個(gè)維度進(jìn)行。一方面，研究團(tuán)隊(duì)用五個(gè)標(biāo)準(zhǔn)化的推理和知識(shí)測(cè)試基準(zhǔn)（包括常識(shí)推理、問(wèn)答判斷、科學(xué)問(wèn)題等）對(duì)這些模型進(jìn)行了量化打分，發(fā)現(xiàn)參數(shù)量在1400萬(wàn)到2950萬(wàn)之間的微型模型，綜合表現(xiàn)已經(jīng)能夠與一些參數(shù)量在7000萬(wàn)到2.56億之間的已有小模型持平甚至超過(guò)。換句話說(shuō)，一個(gè)約3000萬(wàn)參數(shù)的微型模型，在某些測(cè)評(píng)上與一個(gè)約1.25億參數(shù)的模型表現(xiàn)不相上下——前者只有后者體積的四分之一不到。

另一方面，研究團(tuán)隊(duì)還用專門針對(duì)對(duì)話質(zhì)量的維度進(jìn)行了評(píng)價(jià)，包括"是否對(duì)回答問(wèn)題有幫助"、"是否跑題"、"是否存在明顯錯(cuò)誤"、"表達(dá)是否清晰"以及"是否給出了有實(shí)質(zhì)內(nèi)容的信息"這五個(gè)方面。評(píng)估方式是讓GPT-4o充當(dāng)評(píng)判員，對(duì)每個(gè)模型生成的回答開頭打1到5分。為了驗(yàn)證AI評(píng)判員的可靠性，研究團(tuán)隊(duì)還請(qǐng)了10位人類評(píng)分員對(duì)隨機(jī)抽取的樣本打分，發(fā)現(xiàn)AI評(píng)分與人類評(píng)分之間的相關(guān)性高達(dá)0.803，證明這套評(píng)判機(jī)制是可信的。

從這部分結(jié)果來(lái)看，微型模型規(guī)模越大，表現(xiàn)越好，呈現(xiàn)出清晰的規(guī)律。在同等參數(shù)量條件下，"寬而淺"的模型（512維度、8層）略微勝過(guò)"窄而深"的模型（384維度、16層），說(shuō)明在這個(gè)極小參數(shù)規(guī)模下，適當(dāng)增加每層的維度比單純堆疊層數(shù)更有效。這一發(fā)現(xiàn)與其他研究者對(duì)小型模型結(jié)構(gòu)的觀察是一致的——模型的"體型"設(shè)計(jì)在這個(gè)尺度上格外關(guān)鍵。

**四、接力棒傳遞的藝術(shù)：幾個(gè)詞是最佳分界點(diǎn)？**

接力賽能否成功，關(guān)鍵在于交棒時(shí)機(jī)。本地小模型生成的詞數(shù)太少，云端大模型難以接上；生成的詞數(shù)太多，出錯(cuò)的風(fēng)險(xiǎn)就會(huì)上升，而且也等于浪費(fèi)了本地模型的推理時(shí)間。研究團(tuán)隊(duì)專門研究了"交棒詞數(shù)"這個(gè)問(wèn)題。

實(shí)驗(yàn)中，研究團(tuán)隊(duì)分別測(cè)試了本地模型生成4個(gè)詞、8個(gè)詞和16個(gè)詞后交棒給云端大模型的情況。評(píng)判標(biāo)準(zhǔn)是最終拼接起來(lái)的完整回答，在流暢度、語(yǔ)義連貫性、重復(fù)冗余程度和風(fēng)格一致性四個(gè)維度上的評(píng)分。

結(jié)果顯示，生成4個(gè)詞和生成8個(gè)詞的情況差異不大，兩種設(shè)置下拼接出的回答質(zhì)量都明顯優(yōu)于生成16個(gè)詞的情況。生成16個(gè)詞時(shí)，"交棒失敗率"——也就是本地模型的開頭讓云端大模型不得不糾錯(cuò)而無(wú)法直接續(xù)寫的比例——高達(dá)16.4%，而生成4個(gè)詞時(shí)這個(gè)比例只有3.7%，生成8個(gè)詞時(shí)為8.4%。這意味著，一旦本地模型"說(shuō)得太多"，出錯(cuò)的概率就會(huì)急劇上升，反而拖累了整體體驗(yàn)。

4到8個(gè)詞，恰好對(duì)應(yīng)人類閱讀大約1到2秒的內(nèi)容——這正好能填補(bǔ)云端大模型從接收請(qǐng)求到返回第一個(gè)詞所需的時(shí)間窗口。研究團(tuán)隊(duì)引用了一個(gè)有趣的心理學(xué)數(shù)據(jù)：成年人默讀速度平均約為每秒4個(gè)詞。所以當(dāng)本地模型生成了4到8個(gè)詞并顯示給用戶后，用戶剛好讀完，云端的接續(xù)內(nèi)容也已經(jīng)到達(dá)并無(wú)縫銜接上。從用戶的感知角度看，AI的回答就是即時(shí)開始、連續(xù)流暢的。

這一發(fā)現(xiàn)還有另一層意義。研究團(tuán)隊(duì)發(fā)現(xiàn)，即使使用較小的本地模型（880萬(wàn)參數(shù)）搭配大型云端模型，整體效果也優(yōu)于單獨(dú)使用本地模型（2850萬(wàn)參數(shù)）生成完整回答——也就是說(shuō)，"接力"這件事本身就有價(jià)值，哪怕接力的第一棒選手相對(duì)較弱，只要它能快速跑出一段靠譜的開頭，整場(chǎng)比賽的質(zhì)量就能得到保障。

**五、當(dāng)?shù)谝话襞苠e(cuò)方向：三種"糾偏"方案**

任何接力賽都有跑錯(cuò)方向的風(fēng)險(xiǎn)。微型語(yǔ)言模型雖然受過(guò)良好訓(xùn)練，但在某些刁鉆的問(wèn)題上，它可能會(huì)生成一個(gè)方向有偏差的開頭——比如張冠李戴地用錯(cuò)了概念，或者信心滿滿地開始了一個(gè)錯(cuò)誤的陳述。這時(shí)候，接棒的云端大模型怎么辦？

研究團(tuán)隊(duì)認(rèn)為，這種情況不應(yīng)該被簡(jiǎn)單地忽視或無(wú)聲地"強(qiáng)行續(xù)寫"，而應(yīng)該被設(shè)計(jì)為一個(gè)明確的糾錯(cuò)機(jī)制。他們?cè)O(shè)計(jì)了三種不同風(fēng)格的糾偏方案。

第一種叫"直接糾正"。云端模型在發(fā)現(xiàn)本地模型開頭有誤時(shí)，會(huì)直接在繼續(xù)回答之前插入一句以"糾正："開頭的聲明，明確指出前面說(shuō)的哪里不對(duì)，然后給出正確答案。這種方式最為透明，適合對(duì)準(zhǔn)確性要求極高的場(chǎng)景，比如涉及醫(yī)療或法律的查詢。

第二種叫"自然過(guò)渡"。云端模型不會(huì)明確標(biāo)記錯(cuò)誤，而是像一個(gè)聰明的人類說(shuō)話者一樣，用一句不超過(guò)12個(gè)詞的過(guò)渡語(yǔ)自然地把話題引回正確軌道，接著給出正確的完整答案。這種方式不會(huì)讓用戶感到突兀，整段話讀起來(lái)就像一個(gè)人自然地修正了自己的措辭，而不是被人打臉糾錯(cuò)。舉個(gè)例子，如果本地模型誤把PPO說(shuō)成了某個(gè)績(jī)效考核工具，云端模型可能會(huì)這樣接："……其實(shí)這里說(shuō)的是另一件事，讓我們聊聊強(qiáng)化學(xué)習(xí)里的近端策略優(yōu)化……"然后繼續(xù)給出正確解釋。

第三種叫"幽默化糾偏"。受到人機(jī)交互領(lǐng)域一些研究的啟發(fā)——研究發(fā)現(xiàn)，當(dāng)聊天機(jī)器人適度融入幽默感時(shí)，用戶會(huì)覺得互動(dòng)更有趣、更像真人，整體滿意度也會(huì)提升——這種方式把本地模型的錯(cuò)誤開頭當(dāng)作一個(gè)"故意的創(chuàng)意繞路"來(lái)處理，云端模型用輕松俏皮的語(yǔ)氣承認(rèn)這個(gè)"彎路"，然后迅速拉回正軌。

為了檢驗(yàn)用戶對(duì)這三種方式的偏好，研究團(tuán)隊(duì)招募了15位年齡在26到51歲之間的參與者做了一個(gè)用戶研究。每位參與者對(duì)10道隨機(jī)題目的三種糾錯(cuò)回答進(jìn)行排名。結(jié)果非常清晰：自然過(guò)渡方式最受歡迎（44%的參與者將其排在第一位），幽默化糾偏緊隨其后（36.7%排第一），而直接糾正方式最不受歡迎（只有19.3%排第一，有高達(dá)56%的參與者把它排在最后）。用戶普遍更喜歡那種"感覺上渾然一體、看不出破綻"的糾錯(cuò)，而不是生硬標(biāo)注錯(cuò)誤的方式。

**六、整體效果如何？用戶感知測(cè)試說(shuō)話**

理論設(shè)計(jì)再好，用戶實(shí)際感受才是最終的檢驗(yàn)標(biāo)準(zhǔn)。研究團(tuán)隊(duì)讓同樣的15位參與者對(duì)兩種回答進(jìn)行了比較：一種是由2850萬(wàn)參數(shù)的本地模型生成前8個(gè)詞、再由Qwen3-235B-A22B（一款擁有約2350億參數(shù)的大型語(yǔ)言模型）續(xù)寫完成的"接力版"回答；另一種是直接由Qwen3-235B-A22B從頭生成的"獨(dú)立版"回答。每位參與者看到10組問(wèn)題，每組配有這兩種回答各一份，順序隨機(jī)排列，需要選出更喜歡哪個(gè)，或者認(rèn)為兩者一樣好。

結(jié)果出人意料地令人振奮：有49.3%的判斷認(rèn)為兩種回答質(zhì)量"一樣好"，有28%的判斷更喜歡"接力版"，只有22.7%更喜歡"獨(dú)立版"。換算一下，在所有判斷中，有77.3%的情況下，參與者要么更偏愛接力版，要么覺得兩者沒(méi)有區(qū)別——這個(gè)比例在統(tǒng)計(jì)上顯著高于隨機(jī)猜測(cè)的50%基準(zhǔn)線。這意味著：一個(gè)只有2850萬(wàn)參數(shù)、藏在穿戴設(shè)備里的超小模型，配合云端大模型續(xù)寫，其最終輸出在普通用戶眼中與直接用頂級(jí)大模型回答沒(méi)有明顯差別。

**七、在真實(shí)硬件上跑起來(lái)有多快？**

所有這些設(shè)計(jì)，如果在實(shí)際設(shè)備上運(yùn)行速度不夠快，就只是空中樓閣。研究團(tuán)隊(duì)把2850萬(wàn)參數(shù)的微型模型部署在了Orange Pi 5這款嵌入式開發(fā)板上——它的算力水平大致可以類比一臺(tái)低配的樹莓派，是穿戴設(shè)備實(shí)際計(jì)算能力的合理代理。

測(cè)試結(jié)果相當(dāng)令人滿意。從接收到用戶提問(wèn)到生成第一個(gè)詞，這個(gè)過(guò)程只需要45毫秒；第一個(gè)詞生成完畢后，每繼續(xù)生成一個(gè)詞只需要約3毫秒；生成完整的4個(gè)詞，整個(gè)過(guò)程約為55毫秒。55毫秒是什么概念？人眨一次眼睛大約需要100到400毫秒，55毫秒比這還要快——對(duì)于用戶來(lái)說(shuō)，這幾乎就是"按下問(wèn)題、立即出現(xiàn)答案"的即時(shí)體驗(yàn)。

在與同類小型模型的橫向?qū)Ρ戎校⑿湍Ｐ偷谋憩F(xiàn)也相當(dāng)亮眼。與SmolLM2-135M-Instruct（一個(gè)1.35億參數(shù)的小型模型）相比，微型模型的端到端吞吐量是它的4.3倍，而每生成一個(gè)詞的能耗只有它的約22%，也就是節(jié)能約4.5倍。能耗對(duì)穿戴設(shè)備來(lái)說(shuō)至關(guān)重要——功耗的差距直接關(guān)系到電池續(xù)航時(shí)間，節(jié)省4.5倍的能耗意味著同樣的電量能支撐更長(zhǎng)時(shí)間的使用。

與此同時(shí)，研究團(tuán)隊(duì)還專門測(cè)試了這套系統(tǒng)在面對(duì)"不該被直接回答"的問(wèn)題時(shí)的安全表現(xiàn)。在80道預(yù)設(shè)的敏感問(wèn)題中，本地微型模型自行拒絕了其中31道，對(duì)于剩余49道、本地模型沒(méi)有拒絕的案例，云端大模型成功將其中33道引導(dǎo)到了無(wú)害的回應(yīng)方向。這種雙重保障機(jī)制意味著，即使本地模型在安全判斷上有所疏漏，云端模型仍然能夠起到把關(guān)作用。

**八、這套方案的局限與未來(lái)**

研究團(tuán)隊(duì)對(duì)這套方案的局限保持了清醒的認(rèn)識(shí)。微型語(yǔ)言模型是在日常對(duì)話類數(shù)據(jù)上訓(xùn)練的，對(duì)數(shù)學(xué)推導(dǎo)、編程代碼等專業(yè)領(lǐng)域的問(wèn)題處理能力相對(duì)有限。不過(guò)，研究團(tuán)隊(duì)也指出，智能手表和智能眼鏡的用戶提問(wèn)通常以日常建議和知識(shí)查詢?yōu)橹鳎嫉剿袦y(cè)試提問(wèn)的93.5%，專業(yè)類問(wèn)題極為罕見，所以這個(gè)局限在實(shí)際使用場(chǎng)景中影響有限。對(duì)于偶爾出現(xiàn)的超長(zhǎng)或高度專業(yè)的問(wèn)題，系統(tǒng)可以預(yù)設(shè)一個(gè)應(yīng)急策略：一旦問(wèn)題長(zhǎng)度超過(guò)閾值，就切換到一個(gè)通用的開場(chǎng)白，再由云端大模型接管。

此外，目前的系統(tǒng)聚焦于單輪問(wèn)答，也就是每次用戶提一個(gè)獨(dú)立問(wèn)題、AI給出一個(gè)完整回答的場(chǎng)景，對(duì)于多輪連續(xù)對(duì)話（比如追問(wèn)、澄清、上下文延續(xù)）的處理還有待進(jìn)一步研究。研究團(tuán)隊(duì)認(rèn)為，多輪對(duì)話的上下文管理可以交給云端大模型負(fù)責(zé)，本地模型只需專注于"第一棒"這件事。

在硬件評(píng)測(cè)方面，Orange Pi開發(fā)板只是穿戴設(shè)備的一個(gè)近似替代品，在真正量產(chǎn)的智能手表或智能眼鏡芯片上的實(shí)際表現(xiàn)還需要進(jìn)一步驗(yàn)證。研究團(tuán)隊(duì)也明確指出，未來(lái)應(yīng)在真實(shí)的穿戴設(shè)備處理器上進(jìn)行測(cè)試，以獲得更有說(shuō)服力的數(shù)據(jù)。

說(shuō)到底，這項(xiàng)研究提出的核心洞察是：AI系統(tǒng)不必在"設(shè)備上的完整模型"和"云端的完整延遲"之間二選一。通過(guò)把"立即說(shuō)出開頭"和"完整高質(zhì)量回答"這兩件事拆開來(lái)做，分別交給兩個(gè)極度不對(duì)等的搭檔完成，一個(gè)微型的、快速的本地模型和一個(gè)強(qiáng)大的、稍慢的云端模型可以合力創(chuàng)造出比任何一方單獨(dú)行動(dòng)都更好的用戶體驗(yàn)。本地模型的作用不是"生成完整答案"，而是"消除空白感"——而這件事，它做得相當(dāng)出色。

對(duì)于普通用戶來(lái)說(shuō)，這項(xiàng)研究最直接的潛在影響是：未來(lái)的智能手表、智能眼鏡或其他穿戴設(shè)備上的AI助手，可能真的能做到"問(wèn)完立即回答"，而不是讓你盯著加載動(dòng)畫等上好幾秒。這聽起來(lái)是個(gè)小事，但在人與AI日常交互中，流暢感和即時(shí)感往往決定了一項(xiàng)技術(shù)能否真正融入生活。至于這套方案最終如何在消費(fèi)級(jí)產(chǎn)品中落地、用戶在長(zhǎng)期使用中對(duì)"糾錯(cuò)"時(shí)的小插曲是否仍然接受，都是有趣的后續(xù)問(wèn)題。對(duì)技術(shù)細(xì)節(jié)感興趣的讀者，可以通過(guò)arXiv編號(hào)2604.19642查閱完整論文，源代碼和模型也已開放在論文中提供的GitHub倉(cāng)庫(kù)中。

Q&A

Q1：微型語(yǔ)言模型是什么，它和普通的AI助手有什么不同？

A：微型語(yǔ)言模型是一類參數(shù)量極小（只有880萬(wàn)到2950萬(wàn)個(gè)參數(shù)）的語(yǔ)言模型，專門設(shè)計(jì)在智能手表、智能眼鏡等算力有限的穿戴設(shè)備上運(yùn)行。與普通AI助手不同，微型語(yǔ)言模型不負(fù)責(zé)生成完整回答，只負(fù)責(zé)在用戶提問(wèn)后的幾十毫秒內(nèi)迅速生成回答的開頭幾個(gè)詞，隨后由云端的大型AI模型接續(xù)完成完整內(nèi)容。這種分工讓用戶幾乎感受不到等待，卻能最終得到高質(zhì)量的完整回答。

Q2：微型語(yǔ)言模型生成錯(cuò)誤開頭時(shí)，系統(tǒng)是如何糾正的？

A：研究團(tuán)隊(duì)設(shè)計(jì)了三種糾錯(cuò)方式。直接糾正是在回答前明確標(biāo)注"糾正："并給出正確信息；自然過(guò)渡是用一句簡(jiǎn)短的銜接語(yǔ)悄悄把話題引回正確方向，不留痕跡；幽默化糾偏則把錯(cuò)誤開頭當(dāng)作"故意繞路"，用輕松語(yǔ)氣拉回正題。用戶研究顯示，大多數(shù)人更喜歡自然過(guò)渡和幽默化方式，而不是直接標(biāo)注錯(cuò)誤的糾正方式。

Q3：微型語(yǔ)言模型在真實(shí)設(shè)備上的響應(yīng)速度有多快？

A：研究團(tuán)隊(duì)在Orange Pi嵌入式開發(fā)板（算力水平接近穿戴設(shè)備）上測(cè)試了2850萬(wàn)參數(shù)的微型模型。從收到問(wèn)題到生成第一個(gè)詞只需45毫秒，生成完整4個(gè)詞約55毫秒，比人眨一次眼還要快。與同類小型模型相比，微型模型的處理速度快4.3倍，每個(gè)詞的能耗也低約4.5倍，對(duì)需要節(jié)省電量的穿戴設(shè)備來(lái)說(shuō)非常友好。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.