網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

做打車(chē) Agent 半年，我終于搞懂了置信度這個(gè)東西

2026-05-04 10:11:54　來(lái)源: 人人都是產(chǎn)品經(jīng)理社區(qū)

廣東舉報(bào)

分享至

AI打車(chē)Agent的「自作主張」正在引發(fā)用戶(hù)投訴風(fēng)暴。當(dāng)系統(tǒng)自信滿(mǎn)滿(mǎn)地將用戶(hù)送往錯(cuò)誤機(jī)場(chǎng)時(shí)，背后暴露的是置信度機(jī)制的致命缺陷。本文揭秘如何通過(guò)四檔分級(jí)策略，將投訴率從2.1%直降至0.4%，并深入解析3秒弱確認(rèn)、歷史偏好衰減等關(guān)鍵設(shè)計(jì)細(xì)節(jié)，展現(xiàn)AI產(chǎn)品在「自信」與「保守」間尋找平衡的藝術(shù)。

———— / BEGIN / ————

上個(gè)月，我朋友公司的打車(chē) Agent 出了一個(gè)事故。

用戶(hù)說(shuō)了一句「幫我叫個(gè)車(chē)去機(jī)場(chǎng)」，Agent 很自信地叫了一輛去浦東機(jī)場(chǎng)的車(chē)。

結(jié)果用戶(hù)要去的是虹橋機(jī)場(chǎng)。

用戶(hù)投訴了。還發(fā)了微博。

這不是個(gè)例。我們統(tǒng)計(jì)了一下，類(lèi)似的「AI 自作主張」投訴，每天有二三十起。

占比不高，但每一起都很傷用戶(hù)體驗(yàn)。而且，這種事一旦上了社交媒體，傳播起來(lái)比好評(píng)快多了。

我們花了三個(gè)月時(shí)間，重新設(shè)計(jì)了 Agent 的「置信度分級(jí)」機(jī)制。投訴率從 2.1% 降到了 0.4%。

這篇文章記錄一下我們踩過(guò)的坑，以及最后是怎么解決這個(gè)問(wèn)題的。

先把問(wèn)題說(shuō)清楚。

用戶(hù)說(shuō)「幫我叫個(gè)車(chē)去機(jī)場(chǎng)」這句話，對(duì)人來(lái)說(shuō)很簡(jiǎn)單，但對(duì) AI 來(lái)說(shuō)，信息是不完整的。

去哪個(gè)機(jī)場(chǎng)？上海有兩個(gè)，浦東和虹橋。

從哪里出發(fā)？當(dāng)前位置還是另一個(gè)地址？

要什么車(chē)型？快車(chē)還是專(zhuān)車(chē)？

現(xiàn)在叫還是預(yù)約？

這些問(wèn)題，用戶(hù)沒(méi)說(shuō)，AI 怎么辦？

我們最初的方案很樸素，AI 自己猜。

根據(jù)用戶(hù)歷史數(shù)據(jù)，這個(gè)用戶(hù)之前 80% 的時(shí)候去的是浦東機(jī)場(chǎng)，那就默認(rèn)浦東。車(chē)型默認(rèn)快車(chē)，時(shí)間默認(rèn)現(xiàn)在。

聽(tīng)起來(lái)很合理對(duì)吧。

但實(shí)際跑下來(lái)，問(wèn)題大了。

我們最初的方案是「二元判斷」。

意圖識(shí)別出來(lái)了，就執(zhí)行。識(shí)別不出來(lái)，就問(wèn)用戶(hù)。

非常簡(jiǎn)單粗暴。

效果怎么樣？

很差。

第一個(gè)問(wèn)題是，太多「確定」其實(shí)是錯(cuò)的。

AI 覺(jué)得自己識(shí)別出來(lái)了，置信度很高，直接執(zhí)行。結(jié)果執(zhí)行錯(cuò)了。

比如用戶(hù)說(shuō)「去機(jī)場(chǎng)」，AI 根據(jù)歷史數(shù)據(jù)默認(rèn)了浦東機(jī)場(chǎng)，因?yàn)闅v史數(shù)據(jù)里浦東更多。但用戶(hù)這次實(shí)際要去虹橋。

高置信度不代表高準(zhǔn)確率。

這個(gè)道理我們是交了學(xué)費(fèi)才懂的。

第二個(gè)問(wèn)題是，太多「不確定」影響體驗(yàn)。

另一個(gè)極端是，AI 太保守，動(dòng)不動(dòng)就問(wèn)用戶(hù)。

你要去哪個(gè)機(jī)場(chǎng)？你從哪里出發(fā)？
你要什么車(chē)型？
你要現(xiàn)在叫還是預(yù)約？

用戶(hù)會(huì)崩潰的，我就說(shuō)了一句話，你問(wèn)我四個(gè)問(wèn)題？

反復(fù)確認(rèn)會(huì)嚴(yán)重影響用戶(hù)體驗(yàn)。

所以我們陷入了一個(gè)兩難，執(zhí)行太多會(huì)出錯(cuò)，問(wèn)太多會(huì)煩人。

后來(lái)我們引入了「置信度分級(jí)」。

核心思路是，根據(jù)置信度高低，采取不同的處理策略。

我們把置信度分成四檔。

第一檔，90% 以上，直接執(zhí)行。用戶(hù)感知是秒響應(yīng)，無(wú)確認(rèn)。

第二檔，70% 到 90%，弱確認(rèn)。顯示選項(xiàng)，3 秒無(wú)異議默認(rèn)通過(guò)。

第三檔，50% 到 70%，強(qiáng)確認(rèn)。必須用戶(hù)選擇才能繼續(xù)。

第四檔，50% 以下，主動(dòng)詢(xún)問(wèn)。讓用戶(hù)提供更多信息。

具體怎么操作呢。

第一檔，直接執(zhí)行。

條件是意圖明確，關(guān)鍵信息完整，沒(méi)有歧義。

比如用戶(hù)說(shuō)「幫我叫個(gè)快車(chē)從公司到浦東機(jī)場(chǎng) T2」，這句話信息量很完整，意圖很明確。AI 直接呼叫快車(chē)，從用戶(hù)設(shè)置的公司地址到浦東機(jī)場(chǎng) T2。

這種情況不需要任何確認(rèn)，直接執(zhí)行就行。

第二檔，弱確認(rèn)。

條件是意圖明確，但有一定默認(rèn)值需要確認(rèn)。

比如用戶(hù)說(shuō)「去機(jī)場(chǎng)」。

AI 會(huì)說(shuō)，好的，為您呼叫快車(chē)從當(dāng)前位置到浦東機(jī)場(chǎng) T2，3 秒后自動(dòng)確認(rèn)，點(diǎn)擊可修改目的地。

如果用戶(hù) 3 秒內(nèi)沒(méi)有操作，默認(rèn)確認(rèn)。如果用戶(hù)點(diǎn)擊了修改，展示其他選項(xiàng)，虹橋機(jī)場(chǎng)、其他航站樓。

這種方式既給了用戶(hù)反悔的機(jī)會(huì)，又不會(huì)讓用戶(hù)覺(jué)得太啰嗦。

第三檔，強(qiáng)確認(rèn)。

條件是存在明顯歧義，需要用戶(hù)選擇。

比如用戶(hù)說(shuō)「去機(jī)場(chǎng)」，但歷史數(shù)據(jù)顯示用戶(hù)去過(guò)浦東和虹橋的次數(shù)差不多。

這種情況 AI 就不能自己猜了，必須讓用戶(hù)選。

AI 會(huì)說(shuō)，請(qǐng)選擇您要去的機(jī)場(chǎng)，然后給出選項(xiàng)，浦東國(guó)際機(jī)場(chǎng)，虹橋國(guó)際機(jī)場(chǎng)。

必須等用戶(hù)選擇才能繼續(xù)。

第四檔，主動(dòng)詢(xún)問(wèn)。

條件是關(guān)鍵信息缺失，無(wú)法合理默認(rèn)。

比如用戶(hù)說(shuō)「我要趕飛機(jī)」。

這句話表達(dá)了一個(gè)意圖，但關(guān)鍵信息完全缺失。去哪個(gè)機(jī)場(chǎng)，什么時(shí)候走，都不知道。

AI 會(huì)說(shuō)，好的，請(qǐng)告訴我您的航班信息或目的地機(jī)場(chǎng)，我來(lái)幫您叫車(chē)。

說(shuō)到這里可能有人會(huì)問(wèn)，置信度怎么算？

這個(gè)問(wèn)題我們也糾結(jié)了很久。

最開(kāi)始我們直接用大模型輸出的 confidence 值，發(fā)現(xiàn)不靠譜。大模型的 confidence 跟實(shí)際準(zhǔn)確率對(duì)不上。

后來(lái)我們改成了綜合計(jì)算，考慮四個(gè)因素。

第一是意圖識(shí)別的置信度，模型對(duì)意圖分類(lèi)的把握程度。

第二是槽位完整度，必填信息是否都有了。

第三是歧義程度，關(guān)鍵詞是否有多個(gè)可能的解釋。

第四是用戶(hù)歷史，這個(gè)用戶(hù)以前的偏好是否明確。

舉個(gè)例子。

用戶(hù)說(shuō)「去機(jī)場(chǎng)」。

意圖識(shí)別置信度 95%，明確是叫車(chē)。槽位完整度 70%，缺少具體機(jī)場(chǎng)。歧義程度高，有兩個(gè)機(jī)場(chǎng)可選。用戶(hù)歷史 90%，大部分時(shí)候去浦東。

綜合置信度大概是 71%，落入弱確認(rèn)檔位。

這個(gè)計(jì)算方式不一定是最優(yōu)的，但至少比單純用模型的 confidence 靠譜多了。

還有幾個(gè)細(xì)節(jié)問(wèn)題需要處理。

第一個(gè)是弱確認(rèn)的 3 秒怎么定的。

這個(gè)時(shí)間是測(cè)試出來(lái)的。

太短，1 秒，用戶(hù)來(lái)不及反應(yīng)。太長(zhǎng)，5 秒，用戶(hù)等得不耐煩。

我們做了 A/B 測(cè)試，發(fā)現(xiàn) 3 秒是最優(yōu)的。用戶(hù)有足夠時(shí)間看到信息，如果要修改來(lái)得及點(diǎn)擊，如果沒(méi)問(wèn)題不會(huì)覺(jué)得等太久。

第二個(gè)是用戶(hù)歷史怎么用。

我們會(huì)記錄用戶(hù)的偏好。常用地址，公司、家、機(jī)場(chǎng)。車(chē)型偏好，快車(chē)多還是專(zhuān)車(chē)多。時(shí)間偏好，通常什么時(shí)間叫車(chē)。

這些偏好會(huì)影響默認(rèn)值的選擇。

但有個(gè)坑，偏好會(huì)過(guò)時(shí)。

用戶(hù)換工作了，公司地址變了。用戶(hù)搬家了，家的位置變了。

我們的處理方式是，偏好有時(shí)效性，超過(guò) 3 個(gè)月不用的偏好權(quán)重下降。偏好出現(xiàn)變化的時(shí)候，比如連續(xù)兩次選了不同的地址，主動(dòng)詢(xún)問(wèn)是否更新。

第三個(gè)是兜底策略。

不管置信度多高，有些情況必須做兜底。

金額超過(guò)閾值，預(yù)估費(fèi)用超過(guò) 200 元，必須確認(rèn)。距離超過(guò)閾值，目的地超過(guò) 50 公里，必須確認(rèn)。異常時(shí)間，凌晨 2 點(diǎn)到 5 點(diǎn)叫車(chē)，必須確認(rèn)。

這些是高風(fēng)險(xiǎn)場(chǎng)景，錯(cuò)了代價(jià)很高，寧可多問(wèn)一句。

說(shuō)說(shuō)效果。

上線一個(gè)月后的數(shù)據(jù)。

首次成功率，優(yōu)化前 65%，優(yōu)化后 72%。最終完成率，優(yōu)化前 82%，優(yōu)化后 91%。平均交互輪次，優(yōu)化前 3.2 輪，優(yōu)化后 2.1 輪。用戶(hù)投訴率，優(yōu)化前 2.1%，優(yōu)化后 0.8%。

后來(lái)又迭代了幾個(gè)版本，投訴率降到了 0.4%。

幾個(gè)關(guān)鍵變化。

首次成功率提升，更多用戶(hù)一次就成功，因?yàn)槿醮_認(rèn)減少了不必要的詢(xún)問(wèn)。

最終完成率提升，更少用戶(hù)中途放棄，因?yàn)轶w驗(yàn)更流暢。

交互輪次減少，從 3.2 輪降到 2.1 輪，效率提升明顯。

投訴率下降，錯(cuò)誤執(zhí)行的情況大幅減少。

聊聊我們踩過(guò)的坑。

第一個(gè)坑是置信度閾值拍腦袋定的。

我們最初的閾值是直接拍腦袋，90%、70%、50%。

后來(lái)根據(jù)用戶(hù)反饋不斷調(diào)整。

有用戶(hù)說(shuō)「明明我說(shuō)得很清楚，怎么還要確認(rèn)」，說(shuō)明直接執(zhí)行的閾值可以調(diào)高一點(diǎn)。

有用戶(hù)說(shuō)「我沒(méi)說(shuō)去浦東，怎么默認(rèn)浦東」，說(shuō)明機(jī)場(chǎng)選擇的確認(rèn)需要加強(qiáng)。

收集反饋，分析原因，調(diào)整閾值，觀察效果。這個(gè)循環(huán)要持續(xù)做。

第二個(gè)坑是不同業(yè)務(wù)場(chǎng)景閾值不一樣。

打車(chē)場(chǎng)景，錯(cuò)了可以取消重新叫，代價(jià)不算太高，可以適當(dāng)激進(jìn)。

支付場(chǎng)景，錯(cuò)了可能造成資金損失，必須非常保守。

沒(méi)有通用的閾值，要根據(jù)業(yè)務(wù)特點(diǎn)調(diào)整。

第三個(gè)坑是忽略了極端情況。

大部分用戶(hù)的請(qǐng)求是正常的，但總有一些極端情況。

用戶(hù)輸入了一個(gè)不存在的地址。用戶(hù)要求去一個(gè) 500 公里外的地方。用戶(hù)的請(qǐng)求自相矛盾，幫我叫個(gè)車(chē)但我不要坐車(chē)。

這些極端情況要單獨(dú)處理，不能讓系統(tǒng)崩潰或者給出荒謬的響應(yīng)。

做完這個(gè)項(xiàng)目，我有一個(gè)很深的感觸。

AI 的智能，不在于它多聰明，而在于它知道自己多不聰明。

什么意思呢。

好的 AI 產(chǎn)品，是知道什么時(shí)候該直接執(zhí)行，什么時(shí)候該問(wèn)一句，什么時(shí)候該多問(wèn)幾句的。

這種分寸感，才是好產(chǎn)品的核心。

太自信的 AI 會(huì)出錯(cuò)，太謙虛的 AI 會(huì)煩人。找到那個(gè)平衡點(diǎn)，需要大量的數(shù)據(jù)、測(cè)試和迭代。

我們做了三個(gè)月，還只是剛剛摸到一點(diǎn)門(mén)道。

如果你也在做 Agent 類(lèi)的產(chǎn)品，希望這些經(jīng)驗(yàn)對(duì)你有幫助。

置信度分級(jí)不是什么高深的技術(shù)，核心就是一個(gè)原則，根據(jù)把握程度決定行動(dòng)方式。但要把這個(gè)原則落地，需要很多細(xì)節(jié)的打磨。

本文來(lái)自公眾號(hào)：鳴老師作者：鳴老師

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.