網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI 提效了，老板覺得自己又行了：可代碼行數(shù)和 Token 排名，真該拿來裁人嗎？

2026-04-18 13:39:48　來源: AI前線

北京舉報

分享至

作者 | Tina

采訪嘉賓 | 沈浪、茹炳晟、吳娟、方漢

編輯 | 蔡芳芳

“我不明白，AI 的發(fā)展為什么不是讓我們能 5 點下班，而是讓更多人被裁員，其他人繼續(xù)工作到 10 點。”

“兩年前，我們工作的節(jié)奏還可以，但 AI 到來之后，這個狀態(tài)不存在了。節(jié)奏一下子被拉快了，因為管理層覺得 AI 可以極大提升效率，以前還能按正常周期推進(jìn)的事情，現(xiàn)在都默認(rèn)你應(yīng)該更快給結(jié)果。”

“現(xiàn)在我們內(nèi)部的考核，其實已經(jīng)慢慢往 AI 那邊偏了。最直接的就是代碼量，我們有一個排行榜，誰發(fā)了多少行代碼，一刷就能看到。組里有個別人幾乎全靠 AI 在寫，代碼量和 PR 數(shù)量一下子拉得特別高，慢慢大家就都被拿去跟這種人對標(biāo)。慢慢就有點變味了，一開始是比代碼量，后來開始比誰用 AI 用得多，再往后連 Token 都開始被看。這些東西其實沒有寫進(jìn)績效，但你心里都清楚，什么是會被看到的。”

從這三個程序員的講述里，能明顯感覺到，行業(yè)里的氣氛在變，大家都在被迫提速。

與此同時，業(yè)界也不斷傳出各種收緊人力的消息，真假交織。國外亞馬遜、Meta 在調(diào)整崗位結(jié)構(gòu)，國內(nèi)也不斷傳出網(wǎng)易等大廠壓縮外包、用 AI 接手基礎(chǔ)工作的消息，連“裁員一定要快”都成了熱梗。

AI 的發(fā)展，開始和一種殘酷的判斷綁在了一起：既然有些活已經(jīng)明顯變快，那人是不是可以少一點？于是，越來越多人心里開始冒出一絲不安：當(dāng)效率被不斷量化、不斷比較之后，下一個被算掉的，會不會就是自己？

提效這陣風(fēng)，沒人能站在風(fēng)外

過去一年，大家討論 AI，已經(jīng)從“要不要用（adoption）”轉(zhuǎn)向“到底能不能提速（speed）”，感覺像是“成熟度”的潘多拉魔盒一下子被打開了。畢竟，AI 在軟件開發(fā)里的角色變化太快了，從最早的代碼補(bǔ)全，到對話式生成，再到 agent，甚至多智能體協(xié)同，它介入研發(fā)流程的深度已經(jīng)和以前很不一樣了。

也正因為變化太快，市場上越來越多人開始把這類能力看得近乎神乎其神，甚至開始有意無意地傳播一種更浮躁而激進(jìn)的想法：AI 時代的軟件工程已經(jīng)和過去完全不同了，好像原來那套工程實踐都可以被拋開，不需要懂 Kubernetes，不需要理解系統(tǒng)架構(gòu)，只要會用模型，就夠了。Agent 也仿佛成了什么都能包辦的“萬能外包”。而其中的代表 Claude Code，不知不覺間已經(jīng)成了部分人的“技術(shù)信仰”。

對不少企業(yè)負(fù)責(zé)人來說，這確實是一個瘋狂又不可思議的時期。

尤其是對于那些本來就只有二三十人的小公司，或者現(xiàn)在很流行的 OPC、“一人公司”來說，大模型帶來的提效幾乎是一眼就能看到的，很多活就是比過去純靠人手寫快得多。也正因為這樣，這類公司的負(fù)責(zé)人最容易被那些炫技產(chǎn)品打動，尤其是 Design to Code 這種從 Figma 直接生成前端代碼的演示。

這種效率上的提升，同樣也吸引了互聯(lián)網(wǎng)企業(yè)。

互聯(lián)網(wǎng)公司最后還是要看數(shù)字。比如騰訊就在去年底發(fā)過一組數(shù)據(jù)：九成員工使用編程助手，將編碼時間縮短了 40%，整體提升 20%。

快手則把生產(chǎn)力提升的北極星指標(biāo)直接放在了“需求交付周期”上。按照他們向 InfoQ 提供的最新數(shù)據(jù)，L1 階段的團(tuán)隊，AI 主要還是代碼補(bǔ)全工具，提升通常在 15% 到 25% 之間；而到了 L2、L3 階段，AI 開始更深地進(jìn)入交付過程，甚至能自主完成更多任務(wù)，人主要做需求定義和質(zhì)量審核，提效幅度會更大一些。“我們標(biāo)桿團(tuán)隊，L2/L3 需求占比超過 20% 的，交付周期下降了 58%。”

昆侖萬維 CEO 方漢也對 InfoQ 提到，公司使用 AI 后，“項目平均交付時間大幅縮短了”。他在接受《中國企業(yè)家》采訪時也進(jìn)一步披露了背后的投入和效果：公司已經(jīng)不再把 AI 支出看作 Token 補(bǔ)貼，而是納入統(tǒng)一的 IT 采購。按他的說法，公司現(xiàn)在每個月消耗的 Token 大概在 10000 億到 12000 億之間，分?jǐn)偟絾T工身上，大約是每人每月 700 元。按 2024 年底約 1500 名研發(fā)技術(shù)人員來算，公司一個月在 Token 上的支出大約是 105 萬元，一年最少 1200 萬元。

方漢認(rèn)為這筆投入“太值了”。因為每月百萬元左右的投入，差不多相當(dāng)于 20 個員工的成本。更重要的是，實施一個月后，研發(fā)速度提升了 50% 以上，尤其是架構(gòu)師和 Team Leader 這類崗位，提升最明顯，幾乎能達(dá)到 3 到 5 倍。

金融行業(yè)要求穩(wěn)、安全、合規(guī)，AI 落地沒法一蹴而就。

神州信息做的是銀行核心軟件系統(tǒng)。跟互聯(lián)網(wǎng)公司不一樣，金融領(lǐng)域?qū)夹g(shù)方案的引入持更為審慎的態(tài)度：不關(guān)心這技術(shù)有多“炫酷”，而是能否與現(xiàn)有技術(shù)體系實現(xiàn)無縫銜接。具體來說，這涵蓋代碼質(zhì)量的可控性、復(fù)雜任務(wù)的拆解能力、功能需求的完整覆蓋、需求定位的精準(zhǔn)程度，以及與既有系統(tǒng)架構(gòu)、開發(fā)規(guī)范和工程流程的適配程度。簡言之，評判標(biāo)準(zhǔn)不僅是“能否生成代碼”，更是“能否在現(xiàn)有系統(tǒng)內(nèi)生成符合工程質(zhì)量要求的代碼”。

所以 2025 年之前，神州信息試過用 AI 做文檔補(bǔ)全、代碼 - 文檔一致性治理這些事，但那時模型能力和工具都跟不上，試下來效果不怎么樣，內(nèi)部結(jié)論是“還不能用在生產(chǎn)上”。

到 2025 年2月前后，情況變了。大模型強(qiáng)了，配套工具也更完善了，神州信息又重新開始系統(tǒng)性地驗證 AI 能力，逐步確認(rèn)了 AI 技術(shù)已初步具備進(jìn)入銀行軟件這類高可靠性要求場景的條件。

那金融行業(yè)到底有沒有提效？具體到一些單點環(huán)節(jié)，提效已經(jīng)很明顯了。以測試用例編寫為例：此前單個功能模塊的測試用例編寫工作通常需要 5 人團(tuán)隊耗時一個月完成；引入 AI 輔助后，該流程已轉(zhuǎn)變?yōu)?1 人審核 AI 生成結(jié)果的輕量化模式，且 AI 在異常場景覆蓋方面往往表現(xiàn)出更優(yōu)的全面性。在文檔維護(hù)場景中，以往需要投入 10 人月方能完成的文檔補(bǔ)全工作，如今借助 AI 從代碼逆向生成設(shè)計文檔的方式，可在 3 至 5 人月內(nèi)完成，效率提升幅度達(dá) 50% 以上。

AI 時代的“效率悖論”：明明讓人變快了，但提效卻斷在中間

這輪“提效”風(fēng)里，AI 真把人變快了，對此現(xiàn)在已經(jīng)沒人懷疑了。但一線開發(fā)者感受到的卻是另一回事。

有開發(fā)者對 InfoQ 形容，AI 出現(xiàn)之前，開發(fā)這件事其實是有節(jié)奏的。寫代碼、調(diào)試、驗證，一步一步往前走。可到了 2025 年中，隨著 AI 編程工具大規(guī)模普及，周圍幾乎已經(jīng)沒人再老老實實一行行手寫代碼了。AI 寫代碼當(dāng)然更快，但人并沒有因此輕松下來，反而比以前更忙了。因為“老板也懂了 AI 能提效”，預(yù)期被迅速抬高，很多原本按正常周期推進(jìn)的事情，一下子都被要求更快交付結(jié)果。

問題不在“快”，而在快的那一段，只發(fā)生在局部。需求還要對齊，測試還要走，聯(lián)調(diào)、上線、問題處理，一樣都沒少，甚至因為 AI 的引入，多了一層新的復(fù)雜性。于是就出現(xiàn)一種很別扭的狀態(tài)：編碼提速了，但整體節(jié)奏沒跟上，被壓掉的時間，最后還是得靠人自己補(bǔ)上。

從企業(yè)披露的數(shù)據(jù)里也能看到這種“錯位”：編碼這一段確實更快了，但整體提效大多仍然停留在 15%～25%。

復(fù)旦大學(xué)CodeWisdom團(tuán)隊首席技術(shù)專家茹炳晟，對這種落差并不意外。在他看來，很多人都把“編碼提速”看得太重了。

在企業(yè)級研發(fā)里，真正寫代碼的時間，通常只占 20%～30%。剩下的大頭，都在溝通、對齊、評審、測試和各種臨時事務(wù)上。AI 提升的，主要是這 20%～30% 的環(huán)節(jié)，自然很難直接拉動全局。“局部的提升，我認(rèn)為很容易做到。”茹炳晟說，“難的是把效率真正拉通到端到端的全流程。這對推動改進(jìn)的人要求很高：你要看得清瓶頸在哪，敢不敢動流程，也要有能力做取舍。”

按他的判斷，至少在大型軟件系統(tǒng)里，目前還沒有看到特別顯著的整體提升，尤其是那些大型、復(fù)雜、歷史包袱重、同時質(zhì)量要求又極高的系統(tǒng)，比如銀行核心交易系統(tǒng)、工業(yè)軟件等。

這類系統(tǒng)往往一個產(chǎn)品就有五六百人參與維護(hù)，多的甚至達(dá)到上千人。在這樣的規(guī)模下，AI 可以帶來局部提速，但還很難撬動整體交付效率。

也正是在這種“局部快、整體不動”的結(jié)構(gòu)里，快手研發(fā)效能負(fù)責(zé)人沈浪說，他們花了一年多才摸到一個關(guān)鍵判斷：AI 工具、個人提效和組織提效，從來不是一回事，他們自己一開始也踩過這個坑。AI 代碼率上去了，看起來很不錯，但回頭看整體交付周期，改善其實有限。

因為大公司里，從個人提效到組織提效之間常常隔著兩道鴻溝：第一個是從個人到團(tuán)隊，你個人寫代碼是快了，但代碼評審還得排隊，測試環(huán)境也得等，這些卡點會一點點把效率吃回去；第二個是從團(tuán)隊到組織，就算團(tuán)隊交付更快了，只要需求、測試、發(fā)布這些流程還是瓶頸，整個組織的交付周期照樣快不起來。（延伸閱讀：“”、“”）

更麻煩的是，有些速度其實是“借”來的。茹炳晟提到，現(xiàn)在行業(yè)里一個很大的誤區(qū)，就是太喜歡用交付速度來衡量 AI 的價值。短期看當(dāng)然會更快，功能先跑通，代碼先交上去，效果立刻就能看到。但這種快，往往是把代價往后挪了。

AI 生成的代碼，未必符合原有的架構(gòu)風(fēng)格，也可能把本來不該重復(fù)實現(xiàn)的東西又寫了一遍。眼前看是提速了，后面卻可能留下維護(hù)稅和技術(shù)債。這些賬不會當(dāng)場爆出來，但會一直跟著代碼和系統(tǒng)走，到了后續(xù)維護(hù)、變更、擴(kuò)展的時候，影響才會越來越明顯。

什么樣的企業(yè)，敢把提效直接置換成裁員？

這也是為什么，那種小型、輕量的軟件開發(fā)看起來 AI 提效效果最“炸”。

尤其是那種由三五十人以下小團(tuán)隊負(fù)責(zé)的一個 IT 系統(tǒng)、一個小應(yīng)用，系統(tǒng)不復(fù)雜，協(xié)作鏈條也短，大模型一接進(jìn)去，很容易就跑出“一個人頂一個小團(tuán)隊”的效果。

問題是，這類項目很多活得不久。可能做一年就結(jié)束了，維護(hù)壓力、技術(shù)債、架構(gòu)混亂這些真正的后遺癥，還沒來得及爆發(fā)，項目先沒了。老板看到的就只剩下一件事：人可以再少一點，活照樣能干完。

AI 被拿來當(dāng)裁員依據(jù)，往往就是從這里開始的：沒做過大型復(fù)雜項目的人，最容易把 AI 神化；把軟件工程誤讀成“寫代碼”的人，則最容易把小應(yīng)用里的局部提效，錯當(dāng)成所有團(tuán)隊都該接受的裁員信號。

但金融企業(yè)不是這樣。

金融行業(yè)系統(tǒng)本身非常復(fù)雜，AI 在代碼生成環(huán)節(jié)的起效遠(yuǎn)沒有外界想的那么高。像復(fù)雜賬務(wù)、事務(wù)一致性、7×24 小時銀行機(jī)制支撐這類代碼，靠的是人長期積累下來的經(jīng)驗。AI 在簡單查詢和增刪改查上當(dāng)然快，但一碰到這些復(fù)雜場景，提效自然就放緩了——天花板就在那里。

除此之外，合規(guī)判斷、數(shù)據(jù)安全邊界、監(jiān)管問責(zé)時的責(zé)任承擔(dān)，最終還是得由人來扛。知識傳遞一旦斷檔，系統(tǒng)穩(wěn)定性就會受影響。所以銀行不會像小企業(yè)那樣，一看到 AI 快了就急著裁人。所以有金融行業(yè)技術(shù)負(fù)責(zé)人認(rèn)為：把 AI 省出來的人力直接砍掉，那是危險的誤判。

怎么衡量開發(fā)者的生產(chǎn)力

AI 的出現(xiàn)，首先放大了組織之間的差異。沈浪打了個比方：AI 像一面透鏡，基礎(chǔ)扎實的組織，長板被放得更長；本來就有問題的組織，短板也暴露得更徹底。與此同時，AI 也把個人之間的差異拉得更開了。資深工程師對需求理解深、任務(wù)拆解能力強(qiáng)、能識別 AI 幻覺，AI 就成了判斷力的放大器；初級工程師執(zhí)行速度快了，但判斷失誤也跟著快了。這放大了不同層級工程師之間的差距。

這種差異一旦被看見，人就忍不住要比。程序員之間開始暗暗較勁，你用了多少 token，我寫了多少行代碼。有些是隱形的，同事間嘴上不說心里有數(shù)；有些干脆擺到明面上，成了榜單。比如 Meta 內(nèi)部，有人搭了個叫 Claudeonomics 的排行榜，8.5 萬名員工比誰燒的 token 多，前三名能拿徽章、頭銜，甚至有人專門讓 AI Agent 跑幾小時任務(wù)就為了刷數(shù)據(jù)。

還有那個更古老的指標(biāo)——代碼行數(shù)，雖然老掉牙，但從來沒人真的忘了它。當(dāng) AI 把“寫代碼”這件事變得廉價之后，衡量一個開發(fā)者的生產(chǎn)力到底該看什么，成了一個更棘手的問題。

“同時推進(jìn) 5 個項目，現(xiàn)在平均一天能產(chǎn)出 3.7 萬行代碼...... 我最近一直在試著讓軟件工程師接受一件事：你們一直奉為圭臬的那句‘代碼行數(shù)沒意義’，到了 agentic engineering 時代，可能沒那么對了。再過 5 年，你們大概不會相信自己當(dāng)年真這么想過。”

這其實是一個老問題。

幾十年來，怎么衡量開發(fā)者的生產(chǎn)力，在軟件行業(yè)里爭議不斷。十年前，Martin Fowler 甚至認(rèn)為，開發(fā)者的生產(chǎn)力是無法真正被衡量的。

后來《Accelerate》問世，把軟件交付拆成了幾百個可測量的指標(biāo)——部署頻率、變更前置時間、平均恢復(fù)時間等等，行業(yè)總算有了一套相對成體系的參照系。

沈浪觀察到，這套框架其實一直在變。十年里，從 DORA 到 GSM 到 SPACE 到 DevEx 到 DX Core 4，表面上是度量方法在進(jìn)步，背后則是“開發(fā)者是什么”這個定義在變。DORA 時代，開發(fā)者是生產(chǎn)線上的工人，看產(chǎn)出速度；SPACE 時代，開發(fā)者是有情感、需協(xié)作的多維個體；到了 AI 時代，開發(fā)者變成了與 AI 協(xié)同的決策者。

如今 AI 來了之后，情況也變得更復(fù)雜了。寫代碼這件事也變得前所未有地快，組織自然想用新的尺子去量“AI 時代的生產(chǎn)力”。問題在于，這套尺子很快就走偏了——最典型的例子，就是代碼行數(shù)這個早該被淘汰的指標(biāo)，堂而皇之地殺了回來。

代碼行數(shù)之所以重新流行，原因很簡單：它最容易測量，結(jié)果也最顯眼。你不需要復(fù)雜的遙測系統(tǒng)，也不需要成熟的指標(biāo)框架，只要統(tǒng)計一下就行。然而，低投入的改動可能寫出很多行代碼，高投入的改動卻可能只有寥寥幾行——這個指標(biāo)天然就不穩(wěn)定。到了 AI 時代，問題只會更嚴(yán)重。同樣一個程序，AI 生成的代碼，本就傾向于寫得更“膨脹”，行數(shù)更大。

但現(xiàn)實就是這么離譜，代碼行數(shù)這個噪音極大的指標(biāo)，正和 Meta 的 token 排行榜一樣，成為衡量“誰更努力”的顯性標(biāo)尺。那么如果不看代碼行數(shù)，不看 token 消耗量，那到底該看什么？

舊尺子量新世界：尺子沒變，刻度變了

諷刺的是，DORA 和 SPACE 這類傳統(tǒng)框架并沒有被沖垮，反而在 AI 時代站得更穩(wěn)了。

茹炳晟認(rèn)為，軟件研發(fā)的本質(zhì)問題沒有變。人月神話里那些關(guān)于復(fù)雜度、一致性、協(xié)作、溝通的屬性，并沒有因為大語言模型的出現(xiàn)而發(fā)生任何的改變，所以度量體系的底層邏輯也就不該變。

不過，他也指出，DORA 和 SPACE 的核心雖然有效，但標(biāo)桿需要重新校正。其中，DORA 的四個指標(biāo)——部署頻率、變更前置時間、變更失敗率、平均恢復(fù)時間——依然是穩(wěn)定的核心選項。但基準(zhǔn)變了。以前追求每日部署，現(xiàn)在 AI 讓每小時部署都成為可能，原來的絕對值失去了意義。更合理的做法是：同一個團(tuán)隊，對比引入 AI 前后的變化——能不能在不犧牲穩(wěn)定性和質(zhì)量的前提下，把業(yè)務(wù)價值交付的節(jié)奏提上去。

SPACE 框架的維度——滿意度、績效、活動、溝通協(xié)作、效率——同樣重要，但內(nèi)涵發(fā)生了根本變化。以前衡量人，現(xiàn)在衡量人與 AI 的協(xié)同。滿意度不再只看開發(fā)者對工具滿不滿意，更要看他是否信任 AI 的輸出、是否對代碼有掌控感；效率不再是“代碼寫得快不快”，而是認(rèn)知負(fù)擔(dān)有沒有減輕；溝通協(xié)作從人與人的交互，擴(kuò)展到人跟 AI 的交互、甚至 Agent 與 Agent 的交互。因此，可以引入一些新指標(biāo)：比如完成一個任務(wù)需要與 AI 交互多少次，需求清晰與不清晰時分別調(diào)用 AI 多少次，生成內(nèi)容被采納與被駁回的比例。

代碼行數(shù)不是完全沒用，它可以作為過程指標(biāo)，比如觀察開發(fā)者的活躍度或 AI 使用頻次。真正該看的，是 AI 代碼采納率、單位 token 產(chǎn)出，以及認(rèn)知負(fù)擔(dān)——高職級工程師原本并行 1.7 個項目，AI 幫忙后能升到 2.5 甚至 2.8。

快手也遵循了同樣的邏輯。沈浪說，他們沒有拋棄 DORA，而是在它之上加了一層 AI 維度：保留交付周期和變更失敗率作為質(zhì)量錨點，把人均產(chǎn)出從“代碼行”換成“交付需求數(shù)”，新增 AI 代碼率（逐行比對）、L2/L3 需求占比、研發(fā) NPS。并且摒棄了最容易被刷也更危險的的 PR 數(shù)量和提交頻率。

具體到代碼行，正確的用法是衡量 AI 工具覆蓋深度——AI 生成代碼行占總代碼行的比例。但用它衡量個人生產(chǎn)力就是錯誤用法。快手改用“人均有效代碼行”：只算進(jìn)入生產(chǎn)環(huán)境、通過質(zhì)量門控的凈增有效代碼。這個數(shù)字從 134 行提升到 213 行每人天，漲幅 59%。

舊尺子量新世界：尺子沒變，刻度變了

前文提到的 Meta 排行榜，排名第一的人一個月燒掉 2810 億 token，折合數(shù)百萬美元。公司 30 天總消耗甚至突破了 60 萬億 token。另一個例子，Sigrid Jin，25 歲，去年 Anthropic 的榜一大哥，一年在 Claude Code 上燒掉 250 億 token，約 17.5 萬美元。

很多企業(yè)都是不設(shè)限的鼓勵大家使用。方漢的原話是：“token 數(shù)大多數(shù)情況比人力便宜，如果考慮開發(fā)速度的提升，就更加正向了，限制開發(fā)者合理支出沒有任何意義。”

方漢的觀點代表了很多互聯(lián)網(wǎng)公司的做法。而在對信息安全有嚴(yán)格要求的金融行業(yè)，神州信息則展現(xiàn)了另一種邏輯。

神州信息軟件工藝創(chuàng)新部負(fù)責(zé)人提到，出于信息安全和監(jiān)管合規(guī)要求，金融行業(yè)在應(yīng)用 AI 時，普遍更傾向于私有化部署，而不是直接依賴公有云。通常的做法是自建 GPU 算力集群，并將大模型部署在本地，以支撐實際業(yè)務(wù)需求。在這樣的前提下，GPU 算力雖然是 AI 應(yīng)用中的一項主要成本，但放到企業(yè)整體技術(shù)投入中看，該項支出占比相對有限，"屬于可接受的范圍"。

也正因為如此，神州信息一直支持內(nèi)部開發(fā)者使用 AI 工具。相比單純控制資源消耗，他們更看重把 AI 真正用起來。神州信息軟件工藝創(chuàng)新部負(fù)責(zé)人表示：“我們鼓勵開發(fā)者積極探索 AI 能力的邊界，用好了就是最有力的證明。”

但不管怎么用，token 燒掉的都是真金白銀。大廠工程師薪酬很高，但他消耗的 token 成本，占薪酬的比例可能非常低。你甚至?xí)X得，跟他靠這些 token 多做出來的事情相比，這點錢幾乎可以忽略。所以大廠可以“不計代價”。小公司則完全不一樣。員工薪酬絕對值沒那么高，如果某個人的 token 消耗可能都快趕上他一半工資了，那么對公司來說，token 成本是真實刺痛的成本，不能忽略。

更根本的變化在于：過去算“人工小時”，現(xiàn)在算“token 成本”。今年 3 月阿里蔡崇信還表示，智能體本質(zhì)上就是虛擬白領(lǐng)，是一種知識型員工。既是員工，就該算時薪——過去給人算時薪，現(xiàn)在也該給 Agent 算一算：它到底是不是一支高效、回報率高的勞動力？

沈浪提醒，Agent 模式不能跟 L1、L2 混用同一套指標(biāo)。

L1 輔助形式，如 IDE 代碼補(bǔ)全，效率單位是“人的產(chǎn)出”，消耗低、轉(zhuǎn)化率高，基本上直接變成代碼。L2 協(xié)同模式，如代碼審查輔助和單測生成，中等消耗，轉(zhuǎn)化率也不錯，效率單位變成“團(tuán)隊的交付”。L3 自主模式，Agentic 任務(wù)執(zhí)行消耗最高，但產(chǎn)出價值也最高，只是失敗率也相應(yīng)更高。隨意問答探索價值最低，很難量化。

一個開發(fā)者幾分鐘內(nèi)就可能消耗數(shù)千美元，在 Agentic 模式下尤其常見。企業(yè)如果沒有預(yù)算管理機(jī)制，很容易出現(xiàn)“效率提升了，但成本也失控了”的局面。

另一方面，當(dāng)生產(chǎn)力的最小單位從“人”變成了“人 + Agent 組合”，單評估“人”肯定不夠，所以，目前快手探索的框架是把輸入側(cè)和輸出側(cè)分開來看。輸入側(cè)，人貢獻(xiàn)的是需求定義、架構(gòu)判斷、質(zhì)量審核的時間，Agent 消耗的是 Token、執(zhí)行時間、工具調(diào)用次數(shù)。輸出側(cè)，看的是交付的需求數(shù)量、需求質(zhì)量（一次通過率、線上 Bug 率）和交付周期。綜合 ROI 就是輸出價值除以人力成本加 Agent 成本。

另外在場景上，標(biāo)準(zhǔn)化、可驗證的活——CRUD 代碼、單測生成、寫文檔——ROI 高。模糊、要人拍腦袋的活——復(fù)雜業(yè)務(wù)邏輯、架構(gòu)決策、安全審查——用 AI 可能省下來的時間還不夠驗證錯沒錯，ROI 低。

最終價值是把 token 消耗和工程產(chǎn)出綁在一起。用掉多少 token，除以省下來的工程師工時，得到一個“token 效率比”。再折算成成本對比，看 ROI 是否為正。同時按場景和級別設(shè)預(yù)算，超了告警——不截斷，但得讓人心里有數(shù)。

今年 2 月，谷歌將 AI 使用情況正式通過 GRAD 系統(tǒng)與員工績效掛鉤。同月，亞馬遜被曝用內(nèi)部系統(tǒng) Clarity 追蹤員工 AI 調(diào)用次數(shù)——AI 用得夠不夠，直接決定你能不能晉升。微軟更早一步，將 AI 工具使用納入全員績效考核。國外三大廠殊途同歸：AI 不再是可選項，而是考核的一部分。

國內(nèi)也不遑多讓。昆侖萬維從普通開發(fā)到技術(shù)線 CTO，無一豁免，AI 編程能力直接納入績效考核，開發(fā)效率要提升至少 50%，并與末位淘汰綁定。

但我們也該明白，提效有天花板。復(fù)雜軟件的地位，不會被動搖。那些動輒幾百人維護(hù)的大型系統(tǒng)，靠的不是 Token 堆砌，是經(jīng)驗沉淀、是背責(zé)制度、是對穩(wěn)定性的敬畏。

AI 省出來的人效，目的是承接更多項目、覆蓋更多場景，而不是把做事的人變少。

未來，當(dāng) Token 計價器不斷滾動、上下文成本不斷雪球化，人類這種“看起來更慢”的大腦，會不會反而變成一種高端奢侈品？一個工程師可以花 5 個小時認(rèn)真看復(fù)雜架構(gòu)、深入思考問題，而不會像 AI 那樣不斷累積驚人的計算費用。在企業(yè)預(yù)算里，這種“慢速的人腦”，反而可能成為終極的固定成本資產(chǎn)。人的價值，恰恰藏在那些算不出 Token 的地方。

聲明：本文為 InfoQ 原創(chuàng)，不代表平臺觀點，未經(jīng)許可禁止轉(zhuǎn)載。

會議推薦

世界模型的下一個突破在哪？Agent 從 Demo 到工程化還差什么？安全與可信這道坎怎么過？研發(fā)體系不重構(gòu)，還能撐多久？

AICon 上海站 2026，4 大核心專題等你來：世界模型與多模態(tài)智能突破、Agent 架構(gòu)與工程化實踐、Agent 安全與可信治理、企業(yè)級研發(fā)體系重構(gòu)。14 個專題全面開放征稿。

誠摯邀請你登臺分享實戰(zhàn)經(jīng)驗。AICon 2026，期待與你同行。

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.