AI打車(chē)Agent的「自作主張」正在引發(fā)用戶(hù)投訴風(fēng)暴。當(dāng)系統(tǒng)自信滿(mǎn)滿(mǎn)地將用戶(hù)送往錯(cuò)誤機(jī)場(chǎng)時(shí),背后暴露的是置信度機(jī)制的致命缺陷。本文揭秘如何通過(guò)四檔分級(jí)策略,將投訴率從2.1%直降至0.4%,并深入解析3秒弱確認(rèn)、歷史偏好衰減等關(guān)鍵設(shè)計(jì)細(xì)節(jié),展現(xiàn)AI產(chǎn)品在「自信」與「保守」間尋找平衡的藝術(shù)。
———— / BEGIN / ————
上個(gè)月,我朋友公司的打車(chē) Agent 出了一個(gè)事故。
用戶(hù)說(shuō)了一句「幫我叫個(gè)車(chē)去機(jī)場(chǎng)」,Agent 很自信地叫了一輛去浦東機(jī)場(chǎng)的車(chē)。
結(jié)果用戶(hù)要去的是虹橋機(jī)場(chǎng)。
用戶(hù)投訴了。還發(fā)了微博。
這不是個(gè)例。我們統(tǒng)計(jì)了一下,類(lèi)似的「AI 自作主張」投訴,每天有二三十起。
占比不高,但每一起都很傷用戶(hù)體驗(yàn)。而且,這種事一旦上了社交媒體,傳播起來(lái)比好評(píng)快多了。
我們花了三個(gè)月時(shí)間,重新設(shè)計(jì)了 Agent 的「置信度分級(jí)」機(jī)制。投訴率從 2.1% 降到了 0.4%。
這篇文章記錄一下我們踩過(guò)的坑,以及最后是怎么解決這個(gè)問(wèn)題的。
01
先把問(wèn)題說(shuō)清楚。
用戶(hù)說(shuō)「幫我叫個(gè)車(chē)去機(jī)場(chǎng)」這句話,對(duì)人來(lái)說(shuō)很簡(jiǎn)單,但對(duì) AI 來(lái)說(shuō),信息是不完整的。
去哪個(gè)機(jī)場(chǎng)?上海有兩個(gè),浦東和虹橋。
從哪里出發(fā)?當(dāng)前位置還是另一個(gè)地址?
要什么車(chē)型?快車(chē)還是專(zhuān)車(chē)?
現(xiàn)在叫還是預(yù)約?
這些問(wèn)題,用戶(hù)沒(méi)說(shuō),AI 怎么辦?
我們最初的方案很樸素,AI 自己猜。
根據(jù)用戶(hù)歷史數(shù)據(jù),這個(gè)用戶(hù)之前 80% 的時(shí)候去的是浦東機(jī)場(chǎng),那就默認(rèn)浦東。車(chē)型默認(rèn)快車(chē),時(shí)間默認(rèn)現(xiàn)在。
聽(tīng)起來(lái)很合理對(duì)吧。
但實(shí)際跑下來(lái),問(wèn)題大了。
02
我們最初的方案是「二元判斷」。
意圖識(shí)別出來(lái)了,就執(zhí)行。識(shí)別不出來(lái),就問(wèn)用戶(hù)。
非常簡(jiǎn)單粗暴。
效果怎么樣?
很差。
第一個(gè)問(wèn)題是,太多「確定」其實(shí)是錯(cuò)的。
AI 覺(jué)得自己識(shí)別出來(lái)了,置信度很高,直接執(zhí)行。結(jié)果執(zhí)行錯(cuò)了。
比如用戶(hù)說(shuō)「去機(jī)場(chǎng)」,AI 根據(jù)歷史數(shù)據(jù)默認(rèn)了浦東機(jī)場(chǎng),因?yàn)闅v史數(shù)據(jù)里浦東更多。但用戶(hù)這次實(shí)際要去虹橋。
高置信度不代表高準(zhǔn)確率。
這個(gè)道理我們是交了學(xué)費(fèi)才懂的。
第二個(gè)問(wèn)題是,太多「不確定」影響體驗(yàn)。
另一個(gè)極端是,AI 太保守,動(dòng)不動(dòng)就問(wèn)用戶(hù)。
你要去哪個(gè)機(jī)場(chǎng)?你從哪里出發(fā)?
你要什么車(chē)型?
你要現(xiàn)在叫還是預(yù)約?
用戶(hù)會(huì)崩潰的,我就說(shuō)了一句話,你問(wèn)我四個(gè)問(wèn)題?
反復(fù)確認(rèn)會(huì)嚴(yán)重影響用戶(hù)體驗(yàn)。
所以我們陷入了一個(gè)兩難,執(zhí)行太多會(huì)出錯(cuò),問(wèn)太多會(huì)煩人。
03
后來(lái)我們引入了「置信度分級(jí)」。
核心思路是,根據(jù)置信度高低,采取不同的處理策略。
我們把置信度分成四檔。
第一檔,90% 以上,直接執(zhí)行。用戶(hù)感知是秒響應(yīng),無(wú)確認(rèn)。
第二檔,70% 到 90%,弱確認(rèn)。顯示選項(xiàng),3 秒無(wú)異議默認(rèn)通過(guò)。
第三檔,50% 到 70%,強(qiáng)確認(rèn)。必須用戶(hù)選擇才能繼續(xù)。
第四檔,50% 以下,主動(dòng)詢(xún)問(wèn)。讓用戶(hù)提供更多信息。
04
具體怎么操作呢。
第一檔,直接執(zhí)行。
條件是意圖明確,關(guān)鍵信息完整,沒(méi)有歧義。
比如用戶(hù)說(shuō)「幫我叫個(gè)快車(chē)從公司到浦東機(jī)場(chǎng) T2」,這句話信息量很完整,意圖很明確。AI 直接呼叫快車(chē),從用戶(hù)設(shè)置的公司地址到浦東機(jī)場(chǎng) T2。
這種情況不需要任何確認(rèn),直接執(zhí)行就行。
第二檔,弱確認(rèn)。
條件是意圖明確,但有一定默認(rèn)值需要確認(rèn)。
比如用戶(hù)說(shuō)「去機(jī)場(chǎng)」。
AI 會(huì)說(shuō),好的,為您呼叫快車(chē)從當(dāng)前位置到浦東機(jī)場(chǎng) T2,3 秒后自動(dòng)確認(rèn),點(diǎn)擊可修改目的地。
如果用戶(hù) 3 秒內(nèi)沒(méi)有操作,默認(rèn)確認(rèn)。如果用戶(hù)點(diǎn)擊了修改,展示其他選項(xiàng),虹橋機(jī)場(chǎng)、其他航站樓。
這種方式既給了用戶(hù)反悔的機(jī)會(huì),又不會(huì)讓用戶(hù)覺(jué)得太啰嗦。
第三檔,強(qiáng)確認(rèn)。
條件是存在明顯歧義,需要用戶(hù)選擇。
比如用戶(hù)說(shuō)「去機(jī)場(chǎng)」,但歷史數(shù)據(jù)顯示用戶(hù)去過(guò)浦東和虹橋的次數(shù)差不多。
這種情況 AI 就不能自己猜了,必須讓用戶(hù)選。
AI 會(huì)說(shuō),請(qǐng)選擇您要去的機(jī)場(chǎng),然后給出選項(xiàng),浦東國(guó)際機(jī)場(chǎng),虹橋國(guó)際機(jī)場(chǎng)。
必須等用戶(hù)選擇才能繼續(xù)。
第四檔,主動(dòng)詢(xún)問(wèn)。
條件是關(guān)鍵信息缺失,無(wú)法合理默認(rèn)。
比如用戶(hù)說(shuō)「我要趕飛機(jī)」。
這句話表達(dá)了一個(gè)意圖,但關(guān)鍵信息完全缺失。去哪個(gè)機(jī)場(chǎng),什么時(shí)候走,都不知道。
AI 會(huì)說(shuō),好的,請(qǐng)告訴我您的航班信息或目的地機(jī)場(chǎng),我來(lái)幫您叫車(chē)。
05
說(shuō)到這里可能有人會(huì)問(wèn),置信度怎么算?
這個(gè)問(wèn)題我們也糾結(jié)了很久。
最開(kāi)始我們直接用大模型輸出的 confidence 值,發(fā)現(xiàn)不靠譜。大模型的 confidence 跟實(shí)際準(zhǔn)確率對(duì)不上。
后來(lái)我們改成了綜合計(jì)算,考慮四個(gè)因素。
第一是意圖識(shí)別的置信度,模型對(duì)意圖分類(lèi)的把握程度。
第二是槽位完整度,必填信息是否都有了。
第三是歧義程度,關(guān)鍵詞是否有多個(gè)可能的解釋。
第四是用戶(hù)歷史,這個(gè)用戶(hù)以前的偏好是否明確。
舉個(gè)例子。
用戶(hù)說(shuō)「去機(jī)場(chǎng)」。
意圖識(shí)別置信度 95%,明確是叫車(chē)。槽位完整度 70%,缺少具體機(jī)場(chǎng)。歧義程度高,有兩個(gè)機(jī)場(chǎng)可選。用戶(hù)歷史 90%,大部分時(shí)候去浦東。
綜合置信度大概是 71%,落入弱確認(rèn)檔位。
這個(gè)計(jì)算方式不一定是最優(yōu)的,但至少比單純用模型的 confidence 靠譜多了。
06
還有幾個(gè)細(xì)節(jié)問(wèn)題需要處理。
第一個(gè)是弱確認(rèn)的 3 秒怎么定的。
這個(gè)時(shí)間是測(cè)試出來(lái)的。
太短,1 秒,用戶(hù)來(lái)不及反應(yīng)。太長(zhǎng),5 秒,用戶(hù)等得不耐煩。
我們做了 A/B 測(cè)試,發(fā)現(xiàn) 3 秒是最優(yōu)的。用戶(hù)有足夠時(shí)間看到信息,如果要修改來(lái)得及點(diǎn)擊,如果沒(méi)問(wèn)題不會(huì)覺(jué)得等太久。
第二個(gè)是用戶(hù)歷史怎么用。
我們會(huì)記錄用戶(hù)的偏好。常用地址,公司、家、機(jī)場(chǎng)。車(chē)型偏好,快車(chē)多還是專(zhuān)車(chē)多。時(shí)間偏好,通常什么時(shí)間叫車(chē)。
這些偏好會(huì)影響默認(rèn)值的選擇。
但有個(gè)坑,偏好會(huì)過(guò)時(shí)。
用戶(hù)換工作了,公司地址變了。用戶(hù)搬家了,家的位置變了。
我們的處理方式是,偏好有時(shí)效性,超過(guò) 3 個(gè)月不用的偏好權(quán)重下降。偏好出現(xiàn)變化的時(shí)候,比如連續(xù)兩次選了不同的地址,主動(dòng)詢(xún)問(wèn)是否更新。
第三個(gè)是兜底策略。
不管置信度多高,有些情況必須做兜底。
金額超過(guò)閾值,預(yù)估費(fèi)用超過(guò) 200 元,必須確認(rèn)。距離超過(guò)閾值,目的地超過(guò) 50 公里,必須確認(rèn)。異常時(shí)間,凌晨 2 點(diǎn)到 5 點(diǎn)叫車(chē),必須確認(rèn)。
這些是高風(fēng)險(xiǎn)場(chǎng)景,錯(cuò)了代價(jià)很高,寧可多問(wèn)一句。
07
說(shuō)說(shuō)效果。
上線一個(gè)月后的數(shù)據(jù)。
首次成功率,優(yōu)化前 65%,優(yōu)化后 72%。最終完成率,優(yōu)化前 82%,優(yōu)化后 91%。平均交互輪次,優(yōu)化前 3.2 輪,優(yōu)化后 2.1 輪。用戶(hù)投訴率,優(yōu)化前 2.1%,優(yōu)化后 0.8%。
后來(lái)又迭代了幾個(gè)版本,投訴率降到了 0.4%。
幾個(gè)關(guān)鍵變化。
首次成功率提升,更多用戶(hù)一次就成功,因?yàn)槿醮_認(rèn)減少了不必要的詢(xún)問(wèn)。
最終完成率提升,更少用戶(hù)中途放棄,因?yàn)轶w驗(yàn)更流暢。
交互輪次減少,從 3.2 輪降到 2.1 輪,效率提升明顯。
投訴率下降,錯(cuò)誤執(zhí)行的情況大幅減少。
08
聊聊我們踩過(guò)的坑。
第一個(gè)坑是置信度閾值拍腦袋定的。
我們最初的閾值是直接拍腦袋,90%、70%、50%。
后來(lái)根據(jù)用戶(hù)反饋不斷調(diào)整。
有用戶(hù)說(shuō)「明明我說(shuō)得很清楚,怎么還要確認(rèn)」,說(shuō)明直接執(zhí)行的閾值可以調(diào)高一點(diǎn)。
有用戶(hù)說(shuō)「我沒(méi)說(shuō)去浦東,怎么默認(rèn)浦東」,說(shuō)明機(jī)場(chǎng)選擇的確認(rèn)需要加強(qiáng)。
收集反饋,分析原因,調(diào)整閾值,觀察效果。這個(gè)循環(huán)要持續(xù)做。
第二個(gè)坑是不同業(yè)務(wù)場(chǎng)景閾值不一樣。
打車(chē)場(chǎng)景,錯(cuò)了可以取消重新叫,代價(jià)不算太高,可以適當(dāng)激進(jìn)。
支付場(chǎng)景,錯(cuò)了可能造成資金損失,必須非常保守。
沒(méi)有通用的閾值,要根據(jù)業(yè)務(wù)特點(diǎn)調(diào)整。
第三個(gè)坑是忽略了極端情況。
大部分用戶(hù)的請(qǐng)求是正常的,但總有一些極端情況。
用戶(hù)輸入了一個(gè)不存在的地址。用戶(hù)要求去一個(gè) 500 公里外的地方。用戶(hù)的請(qǐng)求自相矛盾,幫我叫個(gè)車(chē)但我不要坐車(chē)。
這些極端情況要單獨(dú)處理,不能讓系統(tǒng)崩潰或者給出荒謬的響應(yīng)。
09
做完這個(gè)項(xiàng)目,我有一個(gè)很深的感觸。
AI 的智能,不在于它多聰明,而在于它知道自己多不聰明。
什么意思呢。
好的 AI 產(chǎn)品,是知道什么時(shí)候該直接執(zhí)行,什么時(shí)候該問(wèn)一句,什么時(shí)候該多問(wèn)幾句的。
這種分寸感,才是好產(chǎn)品的核心。
太自信的 AI 會(huì)出錯(cuò),太謙虛的 AI 會(huì)煩人。找到那個(gè)平衡點(diǎn),需要大量的數(shù)據(jù)、測(cè)試和迭代。
我們做了三個(gè)月,還只是剛剛摸到一點(diǎn)門(mén)道。
如果你也在做 Agent 類(lèi)的產(chǎn)品,希望這些經(jīng)驗(yàn)對(duì)你有幫助。
置信度分級(jí)不是什么高深的技術(shù),核心就是一個(gè)原則,根據(jù)把握程度決定行動(dòng)方式。但要把這個(gè)原則落地,需要很多細(xì)節(jié)的打磨。
本文來(lái)自公眾號(hào):鳴老師 作者:鳴老師
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.