從賣token到賣結(jié)果，這些公司開始讓AI背KPI了

2026-05-19 12:12:30　來源: 機器之心Pro

河北舉報

分享至

編輯｜張倩

自從黃仁勛在 GTC 上大手一揮，鼓勵企業(yè)把 token 消耗量算進(jìn)工程師的 KPI，魔幻的事情就一天比一天多了。

先是 Meta 內(nèi)部搞起「燒 token 競賽」，員工為沖 KPI，寫死循環(huán) bot、用低效提示詞刷量；接著亞馬遜員工為了證明自己「高頻使用 Agent」，明明不需要自動化的活兒，硬給做成自動。表面看，這是大廠員工在「卷 AI 使用率」，但背后暴露的問題其實更嚴(yán)重：當(dāng)企業(yè)無法衡量 AI 的真實價值時，就只能退而求其次，用「調(diào)用量」代替「產(chǎn)出」。

而這種失真，正在變成整個行業(yè)的共同困境。

麥肯錫數(shù)據(jù)顯示，88% 的企業(yè)已經(jīng)在至少一個職能中常態(tài)化使用 AI，但真正能被定義為「AI 高績效企業(yè)」，即 EBIT 因 AI 提升超過 5% 的，不到 6%。大量預(yù)算、算力和工程師時間被投入進(jìn)去，最后換來的，卻往往只是一份「看起來很忙」的賬單。企業(yè)知道 AI 很重要，也知道競爭對手在用，但問題是：錢到底花得值不值？沒人說得清

這其實也是過去兩年 AI 落地最尷尬的地方。

因為大多數(shù) AI 公司賣的，本質(zhì)上還是「工具」。工具是否真正創(chuàng)造價值，風(fēng)險天然由采購方承擔(dān)。更何況，這一次的工具不僅更貴、更復(fù)雜，還高度依賴企業(yè)自身的數(shù)據(jù)、流程和組織配合。于是，很多企業(yè)最后只能盯著 token、調(diào)用次數(shù)、Agent 使用頻率這些「過程指標(biāo)」，試圖從里面推測 AI 有沒有產(chǎn)生結(jié)果。

但問題在于，企業(yè)真正想買的，從來不是 token。

CEO 不會因為員工多調(diào)用了幾次模型而高興，董事會也不會因為 Agent 使用率提升就認(rèn)可 ROI。企業(yè)真正想要的，其實一直都很簡單：結(jié)果，而且是能被驗證、能被歸因、最好還能直接寫進(jìn)財報里的結(jié)果

只是過去，很少有 AI 公司敢為這個結(jié)果負(fù)責(zé)。

而現(xiàn)在，一批公司開始嘗試改寫這件事：他們不再按「賣工具」收費，而是開始直接對結(jié)果收費，讓 AI 真正背上 KPI。其中，硅谷的 Sierra 與國內(nèi)的零犀科技，恰好代表了這一模式在海內(nèi)外的先行探索。

當(dāng) AI 公司開始為結(jié)果負(fù)責(zé)

今年 3 月份，紅杉的一篇文章帶火了一個名為「Raas（Result-as-a-Service）」的概念。

文章開篇就拋出斷言：「下一個萬億美元級公司，將是一家偽裝成服務(wù)公司的軟件公司。」

怎么理解？先看文中定義的兩種 AI 商業(yè)模式：Copilot 和 Autopilot。前者賣的是工具 —— 專業(yè)人士用 AI 提效，但雇人用 AI 還得額外花錢。后者賣的是「工作成果」本身：AI 直接交付結(jié)果，客戶只為可衡量的業(yè)務(wù)結(jié)果付費，而不是軟件訂閱。

紅杉的判斷是：后者價值高得多。因為數(shù)據(jù)擺在那里 ——企業(yè)每花 1 美元在軟件工具上，就要在相關(guān)服務(wù)和人力上花掉約 6 美元。AI 的進(jìn)步讓「賣結(jié)果」成為可能，Autopilot 公司可以直擊這個遠(yuǎn)超工具市場的勞動預(yù)算。

這篇文章在圈內(nèi)引發(fā)轟動，原因很簡單：一個頂級投資機構(gòu)，親自把「賣結(jié)果」的前景和分量點明了，等于給投資人指了下一波重倉方向。

不過，也有人質(zhì)疑這是投資機構(gòu)炒概念，但緊隨其后的一個融資消息讓市場開始認(rèn)真審視這個概念的分量。

這個消息來自一家名為 Sierra 的公司。該公司由 OpenAI 董事會主席 Bret Taylor 與前谷歌高管 Clay Bavor 聯(lián)合創(chuàng)立，旨在通過 AI 為企業(yè)提供定制化的客戶體驗解決方案（比如幫用戶改訂單、退款、調(diào)庫存），其核心理念就是讓客戶「pay for a job well done」。今年 5 月，該公司宣布完成 9.5 億美元融資，公司估值超過 150 億美元。

要知道，這一估值是他們ARR（1.5 億美元）的 100 多倍。對于一個剛剛被擺上牌桌的新賽道來說，這幾乎已經(jīng)不是普通意義上的高估值，而更像是一種明確的下注。

而真正說服投資人的，是 Sierra 本身的商業(yè)化進(jìn)展。目前，他們已經(jīng)覆蓋超過 40% 的財富 50 強企業(yè)。在客戶體驗與自動化服務(wù)這種高度核心、又極度看重穩(wěn)定性和 ROI 的場景里，大企業(yè)不會因為「概念性感」就大規(guī)模采購。某種意義上，這些客戶本身就是最嚴(yán)格的投票人。

而 Sierra 拿下這些客戶，本身就在說明一件事：RaaS 已經(jīng)不再停留在 PPT 和融資故事里，而是開始完成真正的大規(guī)模商業(yè)驗證

在國內(nèi)，類似的事情也在發(fā)生。而且國內(nèi)公司還額外證明了一件事：RaaS 模式能實現(xiàn)規(guī)模化盈利和正現(xiàn)金流

讓市場注意到這一點的，是一家名為零犀科技的公司。

坦白說，國內(nèi)宣稱走 RaaS 路線的公司不止他們一家，但現(xiàn)階段，真正能拿出盈利數(shù)據(jù)的卻鳳毛麟角，而零犀恰恰是那個少數(shù)派

他們做的事，其實可以理解成「讓 AI Agent 直接去賣東西」。在保險、汽車這些行業(yè)里，零犀的 AI 會直接面向 C 端用戶溝通，從最開始判斷用戶有沒有興趣，到中間的跟進(jìn)、推薦，再到最后成交，整套銷售流程都由 AI 自己完成。這個過程最大的難點在于，你最終要拿結(jié)果說話 —— 用戶是不是真的下單、保單是不是真的成交、錢是不是真的進(jìn)來是金標(biāo)準(zhǔn)。

但從 2019 年開始，零犀就選擇為這件事的結(jié)果負(fù)責(zé)，并一路走到了今天：從早期負(fù)毛利，到 2024 年實現(xiàn)公司級凈利轉(zhuǎn)正，再到 2025 年跑出規(guī)模化盈利與正現(xiàn)金流。數(shù)據(jù)顯示，某頭部保險機構(gòu)接入其智能體后，新增保費超過 20 億元。而如果用傳統(tǒng)人機結(jié)合模式完成同樣的增量，往往需要一支 800 到 1000 人的銷售團隊。

無論是硅谷的 Sierra，還是國內(nèi)的零犀，它們都在做同一件需要膽量的事：把傳統(tǒng)上由客戶承擔(dān)的不確定性，主動攬到自己身上

在 AI 仍被多數(shù)人當(dāng)作「效率工具」的語境下，這種選擇本質(zhì)上需要足夠的技術(shù)底氣。因為只有當(dāng)你真的相信，自己的系統(tǒng)能夠穩(wěn)定完成任務(wù)、持續(xù)優(yōu)化結(jié)果、并長期控制波動時，你才敢簽下這樣的合同。否則，一次結(jié)果不達(dá)標(biāo)，吞掉的就是真金白銀的虧損。

也正因如此，RaaS 真正有意思的地方，從來不只是商業(yè)模式創(chuàng)新，而是它天然會倒逼公司走向另一個維度的技術(shù)探索。而這，恰恰也是 Sierra 和零犀接下來最值得被拆解的地方。

為結(jié)果負(fù)責(zé)，不能單靠大模型基座

Sierra 和零犀，表面上看業(yè)務(wù)差別很大。Sierra 把「Better customer experiences. Built on Sierra.」掛在官網(wǎng)最顯眼的位置，核心產(chǎn)品 Agent OS 幫企業(yè)批量造 AI 客服，談的是體驗。零犀則一頭扎進(jìn)保險、汽車等銷售場景，談的是成交。

但從底層來看，兩家公司面對的是同一個根本性難題：如何讓 AI 在真實業(yè)務(wù)場景里穩(wěn)定地把事情做完，并且為結(jié)果負(fù)責(zé)。正是這個共同的出發(fā)點，倒逼出了高度相似的技術(shù)路徑。

首先，兩家都不是在單純地賣模型能力，而是在賣任務(wù)完成 ——Agent 的設(shè)計目標(biāo)從一開始就指向業(yè)務(wù)結(jié)果，而不是簡單的生成質(zhì)量。為此，它們都在大模型之上額外搭了一套執(zhí)行、記憶與評估系統(tǒng)，并對模型本身做了二次干預(yù)，讓它在特定場景下更可靠、更少犯錯、更清楚什么算好結(jié)果。更關(guān)鍵的是，兩套系統(tǒng)都不是靜止的 —— 它們在真實業(yè)務(wù)里持續(xù)跑、持續(xù)學(xué)，越用越強。

這些共性讓它們看起來走在同一條大路上。但接下來的岔口，客戶體驗與銷售的本質(zhì)差異，把兩家推向了完全不同的技術(shù)縱深。

當(dāng)回答對≠能成交

由于瞄準(zhǔn)客戶體驗，Sierra 的核心命題是「把事情做對」，目標(biāo)是答對問題、少犯錯、不出合規(guī)風(fēng)險。圍繞這個目標(biāo)，Sierra 搭建的是一套精密的模型編排體系：15 款以上的異構(gòu)模型按任務(wù)特性分工協(xié)作，再由監(jiān)督者模型實時審查每一次輸出。這是一種偏向「組織架構(gòu)管理」的技術(shù)思路 —— 把正確性管住，系統(tǒng)就能穩(wěn)定運轉(zhuǎn)。

但對于瞄準(zhǔn)銷售的零犀來說，核心命題截然不同 —— 它不是「對不對」的問題，因為話術(shù)對不等于能成交。舉個例子，一位女士在咨詢保險過程中說「我要和老公商量一下」，通用大模型可能順勢接一句「好的，您回去商量」。看起來，這個回復(fù)沒有什么毛病。但在實際的銷售場景中，一個金牌銷售不會讓話題就這么終結(jié)，而是讀懂這句話背后的真實顧慮（比如怕買錯或沒搞懂保障范圍），并做進(jìn)一步努力。

這種情況下，模型必須學(xué)會向高轉(zhuǎn)化方向傾斜。因此，零犀真正需要的是一套獎懲機制 —— 做對了給正向激勵，沒達(dá)到預(yù)期就施加懲罰，通過后訓(xùn)練持續(xù)把模型的權(quán)重推向想要的方向。

但這個后訓(xùn)練過程，遠(yuǎn)比訓(xùn)練模型去做編程等任務(wù)坎坷，因為銷售場景的難點是全方位的 —— 數(shù)據(jù)稀缺、信號稀疏、歸因復(fù)雜，而且根本無法在虛擬環(huán)境中驗證。

我們知道，銷售的成交率本來就低，實際場景里可能只有百分之幾，大部分用戶都不會成交。這意味著你拿到的正向反饋天然稀少，沒辦法像訓(xùn)練代碼模型那樣 —— 寫一段代碼，跑一下看有沒有報錯，就能立刻得到明確的對錯反饋，進(jìn)而產(chǎn)生大量訓(xùn)練數(shù)據(jù)。銷售結(jié)果是由真實的人來決定的，你沒辦法造出一個虛擬用戶，設(shè)定「只要這樣說他就一定會買」，這個環(huán)境根本不存在。

歸因則是更復(fù)雜的問題。一單成交了，是因為 AI 話術(shù)好，還是客戶本來就有購買意向？一單丟了，是 AI 策略失誤，還是客戶客觀原因？這和「吸煙是否導(dǎo)致肺癌」是同一類問題 —— 不是個體能直接驗證的，必須靠大量真實樣本的統(tǒng)計因果分析才能建立可信的歸因邏輯。

但統(tǒng)計也不是萬能的，因為很多時候基于統(tǒng)計的大模型無法區(qū)分真正的因果和虛假的相關(guān)，這也是所謂「幻覺」的根源。當(dāng)模型看到「溝通時間長」與「成交」之間存在統(tǒng)計相關(guān)，它可能就學(xué)會拼命延長對話，卻不知道如果用戶一直在投訴，聊再久也不會買單。單純依賴統(tǒng)計因果，模型會輕易被混淆變量帶偏，這正是銷售場景里最容易踩的坑。這也是為什么通用大模型無論能力多強，在銷售轉(zhuǎn)化這件事上都難以直接搞定。

零犀的突破口：讓模型學(xué)會「因果」

正因為銷售場景存在以上這些問題，零犀最后走出了一條和通用大模型很不一樣的后訓(xùn)練路徑。這條路徑的關(guān)鍵，不是單純讓模型「更會說」，而是讓模型在后訓(xùn)練階段學(xué)會：用戶買，為什么會買，什么策略真正有效、為什么有效，以及什么樣的策略應(yīng)該被持續(xù)雖化

為了達(dá)到這個目標(biāo)，首先，它解決的是「歸因」這件事。

前面提到，銷售最大的難點之一，是模型很容易被虛假的統(tǒng)計相關(guān)帶偏。這里的問題不在于模型不會統(tǒng)計，而在于它不知道真正起作用的「因」是什么。

所以，零犀沉淀的并不只是普通對話數(shù)據(jù)，而是一套盡可能因果完備的全鏈路數(shù)據(jù)：用戶當(dāng)時是什么狀態(tài)、瀏覽了什么頁面、AI 為什么采取這個策略、用戶后續(xù)又給出了什么反饋…… 這些信息都會被完整記錄下來，并沉淀為領(lǐng)域因果知識圖譜，作為事實底盤約束模型輸出。因為只有「因」足夠完整，模型才不會只學(xué)到表面的相關(guān)性。

但數(shù)據(jù)只是基礎(chǔ)，更難的是把銷售經(jīng)驗真正變成模型能力

很多銷冠并不一定能準(zhǔn)確說清自己為什么厲害，但他們往往知道：什么情況下應(yīng)該推進(jìn)，什么情況下應(yīng)該轉(zhuǎn)移話題，什么情況下用戶真正的顧慮其實沒有說出口。零犀做的，是把這些原本存在于人腦中的經(jīng)驗，拆解成一套「用戶狀態(tài)識別 — 策略選擇 — 結(jié)果反饋」的因果邏輯，再通過后訓(xùn)練沉淀進(jìn)模型。這套「邏輯因果」方法與「統(tǒng)計因果」共同作用，使得模型的輸出更加可靠，能讓模型知道什么該獎、什么該罰、什么樣的策略值得被強化學(xué)習(xí)持續(xù)放大。

此外，起作用的還有反事實推理。系統(tǒng)不僅記錄「做了什么」，還會評估「如果沒做會怎樣」—— 對每一次未成交，它會復(fù)盤：比如在給新生兒父母介紹保險時，如果當(dāng)時沒講性價比，而是繼續(xù)聊孩子保障缺口，轉(zhuǎn)化率預(yù)計能到多少？這種從「沒發(fā)生的事」里提取知識的能力，讓模型在真實數(shù)據(jù)稀疏時依然能持續(xù)學(xué)習(xí)。

當(dāng)這些能力建立起來之后，系統(tǒng)的自主進(jìn)化才真正開始運轉(zhuǎn)。

由于零犀本身就是按結(jié)果收費，它天然能夠拿到最直接的反饋閉環(huán)。哪些策略帶來了更高轉(zhuǎn)化，哪些用戶會在什么節(jié)點流失，哪些干預(yù)方式實際上適得其反，系統(tǒng)都能在真實業(yè)務(wù)環(huán)境中持續(xù)完成評估、歸因和策略調(diào)優(yōu)。

與此同時，新的業(yè)務(wù)規(guī)則、成功案例和失敗教訓(xùn)，也會被不斷加工成結(jié)構(gòu)化的因果知識片段，重新沉淀回模型與知識圖譜之中。隨著服務(wù)規(guī)模擴大，系統(tǒng)對用戶理解、策略選擇和交付能力的積累也會越來越深，最終形成一種持續(xù)自我優(yōu)化、自我進(jìn)化的后訓(xùn)練體系。

因此，零犀的壁壘，本質(zhì)上并不是某一個單點技術(shù)，而是一套不斷自我強化的飛輪：因果完備的數(shù)據(jù)、業(yè)務(wù) know-how 的 AI 化，以及真實業(yè)務(wù)環(huán)境中的持續(xù)迭代，三者彼此咬合，最終形成了一個會越跑越快的后訓(xùn)練系統(tǒng)。

而支撐這個飛輪持續(xù)運轉(zhuǎn)的，是一支優(yōu)秀的后訓(xùn)練團隊。除了來自頭部高校和大廠的算法工程師之外，零犀還長期引入深耕行業(yè)十年以上的銷售專家。他們參與的并不只是「標(biāo)注數(shù)據(jù)」，還在幫助系統(tǒng)回答一個更難的問題：頂級銷售真正有效的能力，到底該如何被 AI 理解、拆解和復(fù)制。

RaaS：AI 的價值回歸

當(dāng)我們把視線從具體的技術(shù)細(xì)節(jié)拉回來，會發(fā)現(xiàn) Sierra 和零犀的探索，其實正在回答 AI 行業(yè)一個更根本的問題：AI 到底應(yīng)該怎么創(chuàng)造價值，又該如何被定價

這兩年，一個趨勢正在變得越來越明顯：單點工具的壁壘正在被快速瓦解。Claude Code 等 Agent 產(chǎn)品的出現(xiàn)，讓很多專門工具，變成了「用時生成、用完即棄」的東西。工具本身的價值，正在以肉眼可見的速度被稀釋。但與此同時，另一件事情的價值卻在水漲船高：把工作真正做完、做好的服務(wù)。

原因很簡單。工具只是流程里的一把錘子，你買了錘子，還得自己去釘釘子，釘歪了、釘錯了，責(zé)任都在你。但服務(wù)交付的是「把釘子釘好」這件事本身 —— 結(jié)果確定，風(fēng)險轉(zhuǎn)移。

這其實也是 AI 從誕生第一天開始，人們真正期待它做到的事情 ——成為一個能獨立背 KPI 的數(shù)字勞動力。誰能真正做到這一點，誰能拿到的市場，就會比傳統(tǒng)軟件大出一個數(shù)量級。

而 RaaS 這個賽道更值得關(guān)注的地方在于，它的護(hù)城河并不會隨著基礎(chǔ)模型升級而被削弱，反而可能越來越深

因為 SaaS 賣的是工具，客戶今天能買，明天也能換；但 RaaS 一旦開始端到端地交付結(jié)果，它就會逐漸嵌入客戶真正的業(yè)務(wù)流程。更關(guān)鍵的是，每一次真實交付，都會沉淀新的結(jié)果數(shù)據(jù)、行業(yè) know-how、策略經(jīng)驗和合規(guī)邏輯。這些東西不會因為底層模型升級就被清零，相反，模型越強，它們的價值反而越會被放大。

還有一個容易被忽視的變化是：當(dāng)客戶開始習(xí)慣「按結(jié)果付費」之后，他們會反過來用這套標(biāo)準(zhǔn)去要求所有后來的 AI 服務(wù)商。

這也是為什么，零犀提到說，他們的一些大客戶，已經(jīng)開始不再關(guān)心「你用了哪個模型」「參數(shù)量是多少」，而是直接追問：「你到底能不能把轉(zhuǎn)化率做上去？」一旦行業(yè)開始用結(jié)果而不是功能評估 AI，整個競爭邏輯都會被徹底改寫。

所以，先發(fā)者真正占據(jù)的，并不只是時間窗口，而是定義規(guī)則的能力

回到文章開頭，那些大廠內(nèi)部為了沖 AI 使用率而瘋狂「燒 token」的荒誕場景，本質(zhì)上其實暴露的是同一個問題：AI 的價值，始終沒有被真正兌現(xiàn)。而 RaaS 真正重要的地方，恰恰在于它把這件事重新拉回了正軌。

從本質(zhì)上來講，這是一種價值回歸：讓 AI 真正對結(jié)果負(fù)責(zé)，讓收益和風(fēng)險對齊，也讓「生產(chǎn)力」這個詞第一次真正回到商業(yè)世界最樸素的衡量標(biāo)準(zhǔn)里 —— 到底有沒有把事情做成。

摩根士丹利 2026 年初發(fā)布的報告將 AI 定義為第六次技術(shù)革命。前五次技術(shù)革命的歷史已經(jīng)反復(fù)驗證：短期賣「鏟子」的基礎(chǔ)設(shè)施商最先獲利，長期最大價值卻沉淀在應(yīng)用層和采用者手中。由于這種生產(chǎn)率紅利的滯后性，AI 對生產(chǎn)率的實質(zhì)性帶動可能要到 2030 年之后才會充分顯現(xiàn)。當(dāng)泡沫退去、噪音消散，真正穿越周期的，永遠(yuǎn)是那些敢于為結(jié)果負(fù)責(zé)、把技術(shù)轉(zhuǎn)化為生產(chǎn)率的公司。

這也正是 RaaS 最值得被長期看好的底層邏輯。零犀和 Sierra 的探索，不是在做概念，而是在重演一個被歷史反復(fù)驗證的劇本：誰能把「鏟子」用好，把工作真正做完，誰就能定義下一個十年。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.