![]()
作者 | Tina
采訪嘉賓 | 沈浪、茹炳晟、吳娟、方漢
編輯 | 蔡芳芳
“我不明白,AI 的發(fā)展為什么不是讓我們能 5 點下班,而是讓更多人被裁員,其他人繼續(xù)工作到 10 點。”
“兩年前,我們工作的節(jié)奏還可以,但 AI 到來之后,這個狀態(tài)不存在了。節(jié)奏一下子被拉快了,因為管理層覺得 AI 可以極大提升效率,以前還能按正常周期推進(jìn)的事情,現(xiàn)在都默認(rèn)你應(yīng)該更快給結(jié)果。”
“現(xiàn)在我們內(nèi)部的考核,其實已經(jīng)慢慢往 AI 那邊偏了。最直接的就是代碼量,我們有一個排行榜,誰發(fā)了多少行代碼,一刷就能看到。組里有個別人幾乎全靠 AI 在寫,代碼量和 PR 數(shù)量一下子拉得特別高,慢慢大家就都被拿去跟這種人對標(biāo)。慢慢就有點變味了,一開始是比代碼量,后來開始比誰用 AI 用得多,再往后連 Token 都開始被看。這些東西其實沒有寫進(jìn)績效,但你心里都清楚,什么是會被看到的。”
從這三個程序員的講述里,能明顯感覺到,行業(yè)里的氣氛在變,大家都在被迫提速。
與此同時,業(yè)界也不斷傳出各種收緊人力的消息,真假交織。國外亞馬遜、Meta 在調(diào)整崗位結(jié)構(gòu),國內(nèi)也不斷傳出網(wǎng)易等大廠壓縮外包、用 AI 接手基礎(chǔ)工作的消息,連“裁員一定要快”都成了熱梗。
AI 的發(fā)展,開始和一種殘酷的判斷綁在了一起:既然有些活已經(jīng)明顯變快,那人是不是可以少一點?于是,越來越多人心里開始冒出一絲不安:當(dāng)效率被不斷量化、不斷比較之后,下一個被算掉的,會不會就是自己?
提效這陣風(fēng),沒人能站在風(fēng)外
過去一年,大家討論 AI,已經(jīng)從“要不要用(adoption)”轉(zhuǎn)向“到底能不能提速(speed)”,感覺像是“成熟度”的潘多拉魔盒一下子被打開了。畢竟,AI 在軟件開發(fā)里的角色變化太快了,從最早的代碼補(bǔ)全,到對話式生成,再到 agent,甚至多智能體協(xié)同,它介入研發(fā)流程的深度已經(jīng)和以前很不一樣了。
也正因為變化太快,市場上越來越多人開始把這類能力看得近乎神乎其神,甚至開始有意無意地傳播一種更浮躁而激進(jìn)的想法:AI 時代的軟件工程已經(jīng)和過去完全不同了,好像原來那套工程實踐都可以被拋開,不需要懂 Kubernetes,不需要理解系統(tǒng)架構(gòu),只要會用模型,就夠了。Agent 也仿佛成了什么都能包辦的“萬能外包”。而其中的代表 Claude Code,不知不覺間已經(jīng)成了部分人的“技術(shù)信仰”。
對不少企業(yè)負(fù)責(zé)人來說,這確實是一個瘋狂又不可思議的時期。
尤其是對于那些本來就只有二三十人的小公司,或者現(xiàn)在很流行的 OPC、“一人公司”來說,大模型帶來的提效幾乎是一眼就能看到的,很多活就是比過去純靠人手寫快得多。也正因為這樣,這類公司的負(fù)責(zé)人最容易被那些炫技產(chǎn)品打動,尤其是 Design to Code 這種從 Figma 直接生成前端代碼的演示。
這種效率上的提升,同樣也吸引了互聯(lián)網(wǎng)企業(yè)。
互聯(lián)網(wǎng)公司最后還是要看數(shù)字。比如騰訊就在去年底發(fā)過一組數(shù)據(jù):九成員工使用編程助手,將編碼時間縮短了 40%,整體提升 20%。
快手則把生產(chǎn)力提升的北極星指標(biāo)直接放在了“需求交付周期”上。按照他們向 InfoQ 提供的最新數(shù)據(jù),L1 階段的團(tuán)隊,AI 主要還是代碼補(bǔ)全工具,提升通常在 15% 到 25% 之間;而到了 L2、L3 階段,AI 開始更深地進(jìn)入交付過程,甚至能自主完成更多任務(wù),人主要做需求定義和質(zhì)量審核,提效幅度會更大一些。“我們標(biāo)桿團(tuán)隊,L2/L3 需求占比超過 20% 的,交付周期下降了 58%。”
昆侖萬維 CEO 方漢也對 InfoQ 提到,公司使用 AI 后,“項目平均交付時間大幅縮短了”。他在接受《中國企業(yè)家》采訪時也進(jìn)一步披露了背后的投入和效果:公司已經(jīng)不再把 AI 支出看作 Token 補(bǔ)貼,而是納入統(tǒng)一的 IT 采購。按他的說法,公司現(xiàn)在每個月消耗的 Token 大概在 10000 億到 12000 億之間,分?jǐn)偟絾T工身上,大約是每人每月 700 元。按 2024 年底約 1500 名研發(fā)技術(shù)人員來算,公司一個月在 Token 上的支出大約是 105 萬元,一年最少 1200 萬元。
方漢認(rèn)為這筆投入“太值了”。因為每月百萬元左右的投入,差不多相當(dāng)于 20 個員工的成本。更重要的是,實施一個月后,研發(fā)速度提升了 50% 以上,尤其是架構(gòu)師和 Team Leader 這類崗位,提升最明顯,幾乎能達(dá)到 3 到 5 倍。
金融行業(yè)要求穩(wěn)、安全、合規(guī),AI 落地沒法一蹴而就。
神州信息做的是銀行核心軟件系統(tǒng)。跟互聯(lián)網(wǎng)公司不一樣,金融領(lǐng)域?qū)夹g(shù)方案的引入持更為審慎的態(tài)度:不關(guān)心這技術(shù)有多“炫酷”,而是能否與現(xiàn)有技術(shù)體系實現(xiàn)無縫銜接。具體來說,這涵蓋代碼質(zhì)量的可控性、復(fù)雜任務(wù)的拆解能力、功能需求的完整覆蓋、需求定位的精準(zhǔn)程度,以及與既有系統(tǒng)架構(gòu)、開發(fā)規(guī)范和工程流程的適配程度。簡言之,評判標(biāo)準(zhǔn)不僅是“能否生成代碼”,更是“能否在現(xiàn)有系統(tǒng)內(nèi)生成符合工程質(zhì)量要求的代碼”。
所以 2025 年之前,神州信息試過用 AI 做文檔補(bǔ)全、代碼 - 文檔一致性治理這些事,但那時模型能力和工具都跟不上,試下來效果不怎么樣,內(nèi)部結(jié)論是“還不能用在生產(chǎn)上”。
到 2025 年2月前后,情況變了。大模型強(qiáng)了,配套工具也更完善了,神州信息又重新開始系統(tǒng)性地驗證 AI 能力,逐步確認(rèn)了 AI 技術(shù)已初步具備進(jìn)入銀行軟件這類高可靠性要求場景的條件。
那金融行業(yè)到底有沒有提效?具體到一些單點環(huán)節(jié),提效已經(jīng)很明顯了。以測試用例編寫為例:此前單個功能模塊的測試用例編寫工作通常需要 5 人團(tuán)隊耗時一個月完成;引入 AI 輔助后,該流程已轉(zhuǎn)變?yōu)?1 人審核 AI 生成結(jié)果的輕量化模式,且 AI 在異常場景覆蓋方面往往表現(xiàn)出更優(yōu)的全面性。在文檔維護(hù)場景中,以往需要投入 10 人月方能完成的文檔補(bǔ)全工作,如今借助 AI 從代碼逆向生成設(shè)計文檔的方式,可在 3 至 5 人月內(nèi)完成,效率提升幅度達(dá) 50% 以上。
AI 時代的“效率悖論”:明明讓人變快了,但提效卻斷在中間
這輪“提效”風(fēng)里,AI 真把人變快了,對此現(xiàn)在已經(jīng)沒人懷疑了。但一線開發(fā)者感受到的卻是另一回事。
有開發(fā)者對 InfoQ 形容,AI 出現(xiàn)之前,開發(fā)這件事其實是有節(jié)奏的。寫代碼、調(diào)試、驗證,一步一步往前走。可到了 2025 年中,隨著 AI 編程工具大規(guī)模普及,周圍幾乎已經(jīng)沒人再老老實實一行行手寫代碼了。AI 寫代碼當(dāng)然更快,但人并沒有因此輕松下來,反而比以前更忙了。因為“老板也懂了 AI 能提效”,預(yù)期被迅速抬高,很多原本按正常周期推進(jìn)的事情,一下子都被要求更快交付結(jié)果。
問題不在“快”,而在快的那一段,只發(fā)生在局部。需求還要對齊,測試還要走,聯(lián)調(diào)、上線、問題處理,一樣都沒少,甚至因為 AI 的引入,多了一層新的復(fù)雜性。于是就出現(xiàn)一種很別扭的狀態(tài):編碼提速了,但整體節(jié)奏沒跟上,被壓掉的時間,最后還是得靠人自己補(bǔ)上。
從企業(yè)披露的數(shù)據(jù)里也能看到這種“錯位”:編碼這一段確實更快了,但整體提效大多仍然停留在 15%~25%。
復(fù)旦大學(xué)CodeWisdom團(tuán)隊首席技術(shù)專家茹炳晟,對這種落差并不意外。在他看來,很多人都把“編碼提速”看得太重了。
在企業(yè)級研發(fā)里,真正寫代碼的時間,通常只占 20%~30%。剩下的大頭,都在溝通、對齊、評審、測試和各種臨時事務(wù)上。AI 提升的,主要是這 20%~30% 的環(huán)節(jié),自然很難直接拉動全局。“局部的提升,我認(rèn)為很容易做到。”茹炳晟說,“難的是把效率真正拉通到端到端的全流程。這對推動改進(jìn)的人要求很高:你要看得清瓶頸在哪,敢不敢動流程,也要有能力做取舍。”
按他的判斷,至少在大型軟件系統(tǒng)里,目前還沒有看到特別顯著的整體提升,尤其是那些大型、復(fù)雜、歷史包袱重、同時質(zhì)量要求又極高的系統(tǒng),比如銀行核心交易系統(tǒng)、工業(yè)軟件等。
這類系統(tǒng)往往一個產(chǎn)品就有五六百人參與維護(hù),多的甚至達(dá)到上千人。在這樣的規(guī)模下,AI 可以帶來局部提速,但還很難撬動整體交付效率。
也正是在這種“局部快、整體不動”的結(jié)構(gòu)里,快手研發(fā)效能負(fù)責(zé)人沈浪說,他們花了一年多才摸到一個關(guān)鍵判斷:AI 工具、個人提效和組織提效,從來不是一回事,他們自己一開始也踩過這個坑。AI 代碼率上去了,看起來很不錯,但回頭看整體交付周期,改善其實有限。
因為大公司里,從個人提效到組織提效之間常常隔著兩道鴻溝:第一個是從個人到團(tuán)隊,你個人寫代碼是快了,但代碼評審還得排隊,測試環(huán)境也得等,這些卡點會一點點把效率吃回去;第二個是從團(tuán)隊到組織,就算團(tuán)隊交付更快了,只要需求、測試、發(fā)布這些流程還是瓶頸,整個組織的交付周期照樣快不起來。(延伸閱讀:“”、“”)
更麻煩的是,有些速度其實是“借”來的。茹炳晟提到,現(xiàn)在行業(yè)里一個很大的誤區(qū),就是太喜歡用交付速度來衡量 AI 的價值。短期看當(dāng)然會更快,功能先跑通,代碼先交上去,效果立刻就能看到。但這種快,往往是把代價往后挪了。
AI 生成的代碼,未必符合原有的架構(gòu)風(fēng)格,也可能把本來不該重復(fù)實現(xiàn)的東西又寫了一遍。眼前看是提速了,后面卻可能留下維護(hù)稅和技術(shù)債。這些賬不會當(dāng)場爆出來,但會一直跟著代碼和系統(tǒng)走,到了后續(xù)維護(hù)、變更、擴(kuò)展的時候,影響才會越來越明顯。
什么樣的企業(yè),敢把提效直接置換成裁員?
這也是為什么,那種小型、輕量的軟件開發(fā)看起來 AI 提效效果最“炸”。
尤其是那種由三五十人以下小團(tuán)隊負(fù)責(zé)的一個 IT 系統(tǒng)、一個小應(yīng)用,系統(tǒng)不復(fù)雜,協(xié)作鏈條也短,大模型一接進(jìn)去,很容易就跑出“一個人頂一個小團(tuán)隊”的效果。
問題是,這類項目很多活得不久。可能做一年就結(jié)束了,維護(hù)壓力、技術(shù)債、架構(gòu)混亂這些真正的后遺癥,還沒來得及爆發(fā),項目先沒了。老板看到的就只剩下一件事:人可以再少一點,活照樣能干完。
AI 被拿來當(dāng)裁員依據(jù),往往就是從這里開始的:沒做過大型復(fù)雜項目的人,最容易把 AI 神化;把軟件工程誤讀成“寫代碼”的人,則最容易把小應(yīng)用里的局部提效,錯當(dāng)成所有團(tuán)隊都該接受的裁員信號。
但金融企業(yè)不是這樣。
金融行業(yè)系統(tǒng)本身非常復(fù)雜,AI 在代碼生成環(huán)節(jié)的起效遠(yuǎn)沒有外界想的那么高。像復(fù)雜賬務(wù)、事務(wù)一致性、7×24 小時銀行機(jī)制支撐這類代碼,靠的是人長期積累下來的經(jīng)驗。AI 在簡單查詢和增刪改查上當(dāng)然快,但一碰到這些復(fù)雜場景,提效自然就放緩了——天花板就在那里。
除此之外,合規(guī)判斷、數(shù)據(jù)安全邊界、監(jiān)管問責(zé)時的責(zé)任承擔(dān),最終還是得由人來扛。知識傳遞一旦斷檔,系統(tǒng)穩(wěn)定性就會受影響。所以銀行不會像小企業(yè)那樣,一看到 AI 快了就急著裁人。所以有金融行業(yè)技術(shù)負(fù)責(zé)人認(rèn)為:把 AI 省出來的人力直接砍掉,那是危險的誤判。
怎么衡量開發(fā)者的生產(chǎn)力
AI 的出現(xiàn),首先放大了組織之間的差異。沈浪打了個比方:AI 像一面透鏡,基礎(chǔ)扎實的組織,長板被放得更長;本來就有問題的組織,短板也暴露得更徹底。與此同時,AI 也把個人之間的差異拉得更開了。資深工程師對需求理解深、任務(wù)拆解能力強(qiáng)、能識別 AI 幻覺,AI 就成了判斷力的放大器;初級工程師執(zhí)行速度快了,但判斷失誤也跟著快了。這放大了不同層級工程師之間的差距。
這種差異一旦被看見,人就忍不住要比。程序員之間開始暗暗較勁,你用了多少 token,我寫了多少行代碼。有些是隱形的,同事間嘴上不說心里有數(shù);有些干脆擺到明面上,成了榜單。比如 Meta 內(nèi)部,有人搭了個叫 Claudeonomics 的排行榜,8.5 萬名員工比誰燒的 token 多,前三名能拿徽章、頭銜,甚至有人專門讓 AI Agent 跑幾小時任務(wù)就為了刷數(shù)據(jù)。
還有那個更古老的指標(biāo)——代碼行數(shù),雖然老掉牙,但從來沒人真的忘了它。當(dāng) AI 把“寫代碼”這件事變得廉價之后,衡量一個開發(fā)者的生產(chǎn)力到底該看什么,成了一個更棘手的問題。
![]()
![]()
“同時推進(jìn) 5 個項目,現(xiàn)在平均一天能產(chǎn)出 3.7 萬行代碼...... 我最近一直在試著讓軟件工程師接受一件事:你們一直奉為圭臬的那句‘代碼行數(shù)沒意義’,到了 agentic engineering 時代,可能沒那么對了。再過 5 年,你們大概不會相信自己當(dāng)年真這么想過。”
這其實是一個老問題。
幾十年來,怎么衡量開發(fā)者的生產(chǎn)力,在軟件行業(yè)里爭議不斷。十年前,Martin Fowler 甚至認(rèn)為,開發(fā)者的生產(chǎn)力是無法真正被衡量的。
![]()
后來《Accelerate》問世,把軟件交付拆成了幾百個可測量的指標(biāo)——部署頻率、變更前置時間、平均恢復(fù)時間等等,行業(yè)總算有了一套相對成體系的參照系。
沈浪觀察到,這套框架其實一直在變。十年里,從 DORA 到 GSM 到 SPACE 到 DevEx 到 DX Core 4,表面上是度量方法在進(jìn)步,背后則是“開發(fā)者是什么”這個定義在變。DORA 時代,開發(fā)者是生產(chǎn)線上的工人,看產(chǎn)出速度;SPACE 時代,開發(fā)者是有情感、需協(xié)作的多維個體;到了 AI 時代,開發(fā)者變成了與 AI 協(xié)同的決策者。
如今 AI 來了之后,情況也變得更復(fù)雜了。寫代碼這件事也變得前所未有地快,組織自然想用新的尺子去量“AI 時代的生產(chǎn)力”。問題在于,這套尺子很快就走偏了——最典型的例子,就是代碼行數(shù)這個早該被淘汰的指標(biāo),堂而皇之地殺了回來。
代碼行數(shù)之所以重新流行,原因很簡單:它最容易測量,結(jié)果也最顯眼。你不需要復(fù)雜的遙測系統(tǒng),也不需要成熟的指標(biāo)框架,只要統(tǒng)計一下就行。然而,低投入的改動可能寫出很多行代碼,高投入的改動卻可能只有寥寥幾行——這個指標(biāo)天然就不穩(wěn)定。到了 AI 時代,問題只會更嚴(yán)重。同樣一個程序,AI 生成的代碼,本就傾向于寫得更“膨脹”,行數(shù)更大。
但現(xiàn)實就是這么離譜,代碼行數(shù)這個噪音極大的指標(biāo),正和 Meta 的 token 排行榜一樣,成為衡量“誰更努力”的顯性標(biāo)尺。那么如果不看代碼行數(shù),不看 token 消耗量,那到底該看什么?
舊尺子量新世界:尺子沒變,刻度變了
諷刺的是,DORA 和 SPACE 這類傳統(tǒng)框架并沒有被沖垮,反而在 AI 時代站得更穩(wěn)了。
茹炳晟認(rèn)為,軟件研發(fā)的本質(zhì)問題沒有變。人月神話里那些關(guān)于復(fù)雜度、一致性、協(xié)作、溝通的屬性,并沒有因為大語言模型的出現(xiàn)而發(fā)生任何的改變,所以度量體系的底層邏輯也就不該變。
不過,他也指出,DORA 和 SPACE 的核心雖然有效,但標(biāo)桿需要重新校正。其中,DORA 的四個指標(biāo)——部署頻率、變更前置時間、變更失敗率、平均恢復(fù)時間——依然是穩(wěn)定的核心選項。但基準(zhǔn)變了。以前追求每日部署,現(xiàn)在 AI 讓每小時部署都成為可能,原來的絕對值失去了意義。更合理的做法是:同一個團(tuán)隊,對比引入 AI 前后的變化——能不能在不犧牲穩(wěn)定性和質(zhì)量的前提下,把業(yè)務(wù)價值交付的節(jié)奏提上去。
SPACE 框架的維度——滿意度、績效、活動、溝通協(xié)作、效率——同樣重要,但內(nèi)涵發(fā)生了根本變化。以前衡量人,現(xiàn)在衡量人與 AI 的協(xié)同。滿意度不再只看開發(fā)者對工具滿不滿意,更要看他是否信任 AI 的輸出、是否對代碼有掌控感;效率不再是“代碼寫得快不快”,而是認(rèn)知負(fù)擔(dān)有沒有減輕;溝通協(xié)作從人與人的交互,擴(kuò)展到人跟 AI 的交互、甚至 Agent 與 Agent 的交互。因此,可以引入一些新指標(biāo):比如完成一個任務(wù)需要與 AI 交互多少次,需求清晰與不清晰時分別調(diào)用 AI 多少次,生成內(nèi)容被采納與被駁回的比例。
代碼行數(shù)不是完全沒用,它可以作為過程指標(biāo),比如觀察開發(fā)者的活躍度或 AI 使用頻次。真正該看的,是 AI 代碼采納率、單位 token 產(chǎn)出,以及認(rèn)知負(fù)擔(dān)——高職級工程師原本并行 1.7 個項目,AI 幫忙后能升到 2.5 甚至 2.8。
快手也遵循了同樣的邏輯。沈浪說,他們沒有拋棄 DORA,而是在它之上加了一層 AI 維度:保留交付周期和變更失敗率作為質(zhì)量錨點,把人均產(chǎn)出從“代碼行”換成“交付需求數(shù)”,新增 AI 代碼率(逐行比對)、L2/L3 需求占比、研發(fā) NPS。并且摒棄了最容易被刷也更危險的的 PR 數(shù)量和提交頻率。
具體到代碼行,正確的用法是衡量 AI 工具覆蓋深度——AI 生成代碼行占總代碼行的比例。但用它衡量個人生產(chǎn)力就是錯誤用法。快手改用“人均有效代碼行”:只算進(jìn)入生產(chǎn)環(huán)境、通過質(zhì)量門控的凈增有效代碼。這個數(shù)字從 134 行提升到 213 行每人天,漲幅 59%。
舊尺子量新世界:尺子沒變,刻度變了
前文提到的 Meta 排行榜,排名第一的人一個月燒掉 2810 億 token,折合數(shù)百萬美元。公司 30 天總消耗甚至突破了 60 萬億 token。另一個例子,Sigrid Jin,25 歲,去年 Anthropic 的榜一大哥,一年在 Claude Code 上燒掉 250 億 token,約 17.5 萬美元。
很多企業(yè)都是不設(shè)限的鼓勵大家使用。方漢的原話是:“token 數(shù)大多數(shù)情況比人力便宜,如果考慮開發(fā)速度的提升,就更加正向了,限制開發(fā)者合理支出沒有任何意義。”
方漢的觀點代表了很多互聯(lián)網(wǎng)公司的做法。而在對信息安全有嚴(yán)格要求的金融行業(yè),神州信息則展現(xiàn)了另一種邏輯。
神州信息軟件工藝創(chuàng)新部負(fù)責(zé)人提到,出于信息安全和監(jiān)管合規(guī)要求,金融行業(yè)在應(yīng)用 AI 時,普遍更傾向于私有化部署,而不是直接依賴公有云。通常的做法是自建 GPU 算力集群,并將大模型部署在本地,以支撐實際業(yè)務(wù)需求。在這樣的前提下,GPU 算力雖然是 AI 應(yīng)用中的一項主要成本,但放到企業(yè)整體技術(shù)投入中看,該項支出占比相對有限,"屬于可接受的范圍"。
也正因為如此,神州信息一直支持內(nèi)部開發(fā)者使用 AI 工具。相比單純控制資源消耗,他們更看重把 AI 真正用起來。神州信息軟件工藝創(chuàng)新部負(fù)責(zé)人表示:“我們鼓勵開發(fā)者積極探索 AI 能力的邊界,用好了就是最有力的證明。”
但不管怎么用,token 燒掉的都是真金白銀。大廠工程師薪酬很高,但他消耗的 token 成本,占薪酬的比例可能非常低。你甚至?xí)X得,跟他靠這些 token 多做出來的事情相比,這點錢幾乎可以忽略。所以大廠可以“不計代價”。小公司則完全不一樣。 員工薪酬絕對值沒那么高,如果某個人的 token 消耗可能都快趕上他一半工資了,那么對公司來說,token 成本是真實刺痛的成本,不能忽略。
更根本的變化在于:過去算“人工小時”,現(xiàn)在算“token 成本”。今年 3 月阿里蔡崇信還表示,智能體本質(zhì)上就是虛擬白領(lǐng),是一種知識型員工。既是員工,就該算時薪——過去給人算時薪,現(xiàn)在也該給 Agent 算一算:它到底是不是一支高效、回報率高的勞動力?
沈浪提醒,Agent 模式不能跟 L1、L2 混用同一套指標(biāo)。
L1 輔助形式,如 IDE 代碼補(bǔ)全,效率單位是“人的產(chǎn)出”,消耗低、轉(zhuǎn)化率高,基本上直接變成代碼。L2 協(xié)同模式,如代碼審查輔助和單測生成,中等消耗,轉(zhuǎn)化率也不錯,效率單位變成“團(tuán)隊的交付”。L3 自主模式,Agentic 任務(wù)執(zhí)行消耗最高,但產(chǎn)出價值也最高,只是失敗率也相應(yīng)更高。隨意問答探索價值最低,很難量化。
一個開發(fā)者幾分鐘內(nèi)就可能消耗數(shù)千美元,在 Agentic 模式下尤其常見。企業(yè)如果沒有預(yù)算管理機(jī)制,很容易出現(xiàn)“效率提升了,但成本也失控了”的局面。
另一方面,當(dāng)生產(chǎn)力的最小單位從“人”變成了“人 + Agent 組合”,單評估“人”肯定不夠,所以,目前快手探索的框架是把輸入側(cè)和輸出側(cè)分開來看。輸入側(cè),人貢獻(xiàn)的是需求定義、架構(gòu)判斷、質(zhì)量審核的時間,Agent 消耗的是 Token、執(zhí)行時間、工具調(diào)用次數(shù)。輸出側(cè),看的是交付的需求數(shù)量、需求質(zhì)量(一次通過率、線上 Bug 率)和交付周期。綜合 ROI 就是輸出價值除以人力成本加 Agent 成本。
另外在場景上,標(biāo)準(zhǔn)化、可驗證的活——CRUD 代碼、單測生成、寫文檔——ROI 高。模糊、要人拍腦袋的活——復(fù)雜業(yè)務(wù)邏輯、架構(gòu)決策、安全審查——用 AI 可能省下來的時間還不夠驗證錯沒錯,ROI 低。
最終價值是把 token 消耗和工程產(chǎn)出綁在一起。用掉多少 token,除以省下來的工程師工時,得到一個“token 效率比”。再折算成成本對比,看 ROI 是否為正。同時按場景和級別設(shè)預(yù)算,超了告警——不截斷,但得讓人心里有數(shù)。
今年 2 月,谷歌將 AI 使用情況正式通過 GRAD 系統(tǒng)與員工績效掛鉤。同月,亞馬遜被曝用內(nèi)部系統(tǒng) Clarity 追蹤員工 AI 調(diào)用次數(shù)——AI 用得夠不夠,直接決定你能不能晉升。微軟更早一步,將 AI 工具使用納入全員績效考核。國外三大廠殊途同歸:AI 不再是可選項,而是考核的一部分。
國內(nèi)也不遑多讓。昆侖萬維從普通開發(fā)到技術(shù)線 CTO,無一豁免,AI 編程能力直接納入績效考核,開發(fā)效率要提升至少 50%,并與末位淘汰綁定。
但我們也該明白,提效有天花板。復(fù)雜軟件的地位,不會被動搖。那些動輒幾百人維護(hù)的大型系統(tǒng),靠的不是 Token 堆砌,是經(jīng)驗沉淀、是背責(zé)制度、是對穩(wěn)定性的敬畏。
AI 省出來的人效,目的是承接更多項目、覆蓋更多場景,而不是把做事的人變少。
未來,當(dāng) Token 計價器不斷滾動、上下文成本不斷雪球化,人類這種“看起來更慢”的大腦,會不會反而變成一種高端奢侈品?一個工程師可以花 5 個小時認(rèn)真看復(fù)雜架構(gòu)、深入思考問題,而不會像 AI 那樣不斷累積驚人的計算費用。在企業(yè)預(yù)算里,這種“慢速的人腦”,反而可能成為終極的固定成本資產(chǎn)。人的價值,恰恰藏在那些算不出 Token 的地方。
聲明:本文為 InfoQ 原創(chuàng),不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載。
會議推薦
世界模型的下一個突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發(fā)體系不重構(gòu),還能撐多久?
AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態(tài)智能突破、Agent 架構(gòu)與工程化實踐、Agent 安全與可信治理、企業(yè)級研發(fā)體系重構(gòu)。14 個專題全面開放征稿。
誠摯邀請你登臺分享實戰(zhàn)經(jīng)驗。AICon 2026,期待與你同行。
今日薦文
你也「在看」嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.