![]()
機(jī)器之心編輯部
隨著大語(yǔ)言模型逐步進(jìn)入復(fù)雜推理、自動(dòng)化研究和網(wǎng)絡(luò)安全等高難度任務(wù),傳統(tǒng)的模型評(píng)測(cè)方式正在面臨新的挑戰(zhàn)。
長(zhǎng)期以來(lái),模型發(fā)布往往伴隨著一張由多項(xiàng)基準(zhǔn)測(cè)試構(gòu)成的成績(jī)表:數(shù)學(xué)、編程、科學(xué)問(wèn)答、網(wǎng)絡(luò)安全、知識(shí)推理等能力被壓縮為若干分?jǐn)?shù),并據(jù)此與上一代模型進(jìn)行橫向比較。
![]()
OpenAI 研究員 Noam Brown 近日撰文指出,當(dāng)模型能夠在回答問(wèn)題時(shí)使用更多推理步驟、調(diào)用更多工具或執(zhí)行更長(zhǎng)時(shí)間的搜索與試驗(yàn)后,單一分?jǐn)?shù)已越來(lái)越難以準(zhǔn)確反映模型的實(shí)際能力。
![]()
Brown 的核心觀點(diǎn)是:大模型的表現(xiàn)不僅取決于模型本身,也越來(lái)越取決于模型在推理階段獲得了多少計(jì)算資源。未來(lái)評(píng)估模型時(shí),不能只問(wèn)「模型得了多少分」,還應(yīng)回答另一個(gè)問(wèn)題:模型是在消耗多少 token、多少費(fèi)用和多長(zhǎng)運(yùn)行時(shí)間的前提下,獲得這一成績(jī)的?
他建議,行業(yè)應(yīng)當(dāng)從「單點(diǎn)成績(jī)」轉(zhuǎn)向「性能—推理計(jì)算量曲線」,并將推理預(yù)算視為模型能力評(píng)估和人工智能安全政策中的基礎(chǔ)變量。
新模型的能力差距,可能被傳統(tǒng)成績(jī)表低估
Brown 以 GPT-5.5 發(fā)布后的市場(chǎng)反應(yīng)為例,說(shuō)明傳統(tǒng)模型排行榜的局限性。
按照他的描述,GPT-5.5 發(fā)布初期,外界首先注意到的是一組并不算特別顯眼的基準(zhǔn)測(cè)試成績(jī)。與 GPT-5.4 相比,新模型的分?jǐn)?shù)有所提高,但從常規(guī)成績(jī)表看,提升幅度似乎有限。部分用戶因此對(duì)新版本持觀望甚至質(zhì)疑態(tài)度。
但在模型開(kāi)放使用后的數(shù)小時(shí)內(nèi),隨著開(kāi)發(fā)者和研究人員開(kāi)始測(cè)試更復(fù)雜的任務(wù),一些用戶發(fā)現(xiàn),GPT-5.5 在長(zhǎng)鏈條推理、持續(xù)執(zhí)行和復(fù)雜問(wèn)題處理方面表現(xiàn)出更加明顯的代際差異。Brown 認(rèn)為,這種「實(shí)際體驗(yàn)明顯增強(qiáng)、榜單分?jǐn)?shù)卻變化有限」的現(xiàn)象,反映出傳統(tǒng)評(píng)測(cè)沒(méi)有完整呈現(xiàn)模型能力。
問(wèn)題在于,不同模型的評(píng)測(cè)結(jié)果未必建立在相同的推理預(yù)算之上。
在傳統(tǒng)評(píng)測(cè)框架中,研究者往往會(huì)為每個(gè)模型選擇一套能夠盡可能提高成績(jī)的測(cè)試配置,再將最終分?jǐn)?shù)放入同一張表格。這種方式看似公平,但可能掩蓋一個(gè)關(guān)鍵變量:某些模型可以在獲得更多推理 token、更多調(diào)用次數(shù)或更長(zhǎng)運(yùn)行時(shí)間后,繼續(xù)顯著提升表現(xiàn);另一些模型則可能較早觸及性能上限。
Brown 展示的網(wǎng)絡(luò)安全評(píng)測(cè)案例表明,如果只比較各模型在所謂「最大測(cè)試時(shí)計(jì)算量」條件下的最終成績(jī),GPT-5.5 相較 GPT-5.4 的優(yōu)勢(shì)可能并不突出。但如果將 token 數(shù)量、推理成本或延遲控制在相同水平,再觀察不同模型的表現(xiàn),GPT-5.5 的能力提升會(huì)更加明顯。
![]()
換言之,模型間的差距不僅體現(xiàn)在最終分?jǐn)?shù)上,也體現(xiàn)在其利用額外推理計(jì)算量的效率上。
為什么不能簡(jiǎn)單地「跑到性能不再提升為止」
一種直觀的解決方案是:為每個(gè)模型持續(xù)增加推理資源,直到其表現(xiàn)進(jìn)入平臺(tái)期,再比較各自的最高能力。
Brown 認(rèn)為,這種思路在實(shí)踐中未必可行。原因是,對(duì)于新一代模型而言,性能平臺(tái)期可能遠(yuǎn)比預(yù)期更晚出現(xiàn),甚至在現(xiàn)實(shí)可承受的預(yù)算范圍內(nèi)難以觀測(cè)。
他引用了 Andrej Karpathy 發(fā)起的自動(dòng)化研究實(shí)驗(yàn)作為例子。在相關(guān)實(shí)驗(yàn)中,模型持續(xù)執(zhí)行大量試驗(yàn)后,性能仍然保持改善趨勢(shì)。即使實(shí)驗(yàn)次數(shù)達(dá)到數(shù)百次,提升曲線也沒(méi)有完全趨于平緩。
![]()
Brown 同時(shí)提到英國(guó)人工智能安全研究所(AI Security Institute)的網(wǎng)絡(luò)安全評(píng)測(cè)結(jié)果。在該評(píng)測(cè)中,包括 Mythos 和 GPT-5.5 在內(nèi)的部分模型,在累計(jì)使用超過(guò) 1 億 token 后,任務(wù)表現(xiàn)仍然繼續(xù)提高。
![]()
這一現(xiàn)象意味著,在復(fù)雜任務(wù)上,模型能夠利用越來(lái)越長(zhǎng)的運(yùn)行時(shí)間和越來(lái)越大的推理預(yù)算,持續(xù)探索、試錯(cuò)和修正策略。更強(qiáng)的模型不僅起點(diǎn)更高,還可能更擅長(zhǎng)將額外計(jì)算資源轉(zhuǎn)化為有效能力。
Brown 據(jù)此推測(cè),隨著模型能力提高,其可有效運(yùn)行的任務(wù)周期也會(huì)延長(zhǎng)。過(guò)去,人們或許可以在相對(duì)有限的預(yù)算下觀察到模型性能趨于穩(wěn)定;未來(lái),性能上限可能被不斷推遠(yuǎn)。在某些任務(wù)中,所謂「平臺(tái)期」甚至可能不再是一個(gè)容易測(cè)量的狀態(tài)。
從單一分?jǐn)?shù)轉(zhuǎn)向「性能—成本曲線」
面對(duì)這一變化,Brown 建議,模型發(fā)布機(jī)構(gòu)應(yīng)改變基準(zhǔn)測(cè)試的呈現(xiàn)方式。
與其只公布一個(gè)最終分?jǐn)?shù),不如在橫軸上標(biāo)注推理計(jì)算量,在縱軸上展示任務(wù)表現(xiàn),繪制完整的性能變化曲線。橫軸可以采用 token 數(shù)量、推理費(fèi)用或?qū)嶋H運(yùn)行時(shí)間等指標(biāo)。
這種方法能夠回答傳統(tǒng)成績(jī)表難以解釋的問(wèn)題。例如,在相同預(yù)算下,哪個(gè)模型表現(xiàn)更好?當(dāng)預(yù)算增加十倍時(shí),哪個(gè)模型提升更快?模型是否已經(jīng)接近能力上限?不同模型的成本效益如何變化?
目前,部分基準(zhǔn)測(cè)試已經(jīng)開(kāi)始采用類似方法。Brown 提到,ARC-AGI 等評(píng)測(cè)已嘗試衡量模型分?jǐn)?shù)與運(yùn)行成本之間的關(guān)系,而不是只發(fā)布單一成績(jī)。
![]()
另一種可行方案,是為評(píng)測(cè)設(shè)定明確的 token、成本或時(shí)間限制,并提前將預(yù)算信息告知模型。這種方式類似于人類參加標(biāo)準(zhǔn)化考試:無(wú)論是美國(guó)大學(xué)入學(xué)考試 SAT,還是國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽,參賽者都需要在固定時(shí)間內(nèi)完成任務(wù)。模型能力也可以在統(tǒng)一約束下進(jìn)行比較。
不過(guò),Brown 同時(shí)指出,不同指標(biāo)都有局限。
token 數(shù)量未必能夠直接跨模型比較,因?yàn)椴煌P褪褂玫姆衷~器、生成速度和單位 token 成本可能存在差異。費(fèi)用受到硬件利用率、批量處理方式和工程實(shí)現(xiàn)的影響。運(yùn)行時(shí)間同樣不是完美指標(biāo),因?yàn)椤付嘀悄荏w協(xié)作」或 best-of-N 等技術(shù)可以并行生成多個(gè)候選答案,在顯著增加總計(jì)算量的同時(shí),不一定明顯增加用戶感受到的等待時(shí)間。
盡管如此,他認(rèn)為,上述指標(biāo)中的任何一種,都比脫離推理預(yù)算的單一分?jǐn)?shù)更具信息量。
推理預(yù)算問(wèn)題正在延伸至人工智能安全評(píng)估
Brown 的討論并不限于模型排行榜。他認(rèn)為,推理預(yù)算還會(huì)直接影響前沿模型的安全治理。
在前沿人工智能模型發(fā)布前,研發(fā)機(jī)構(gòu)通常會(huì)對(duì)網(wǎng)絡(luò)攻擊、生物風(fēng)險(xiǎn)、化學(xué)風(fēng)險(xiǎn)和其他潛在濫用能力進(jìn)行評(píng)估。如果模型達(dá)到某一風(fēng)險(xiǎn)閾值,研發(fā)機(jī)構(gòu)可能需要推遲發(fā)布,或在部署前增加訪問(wèn)限制、監(jiān)控機(jī)制和其他緩解措施。
問(wèn)題在于,如果模型能力會(huì)隨著推理計(jì)算量增加而提升,那么安全評(píng)估應(yīng)當(dāng)使用多大的推理預(yù)算?
在現(xiàn)實(shí)中,普通用戶可能只會(huì)為一次任務(wù)投入幾美元或幾十美元。但一個(gè)資金充足的組織、專業(yè)團(tuán)隊(duì)或國(guó)家級(jí)行為體,可能愿意為單一目標(biāo)投入遠(yuǎn)高于普通用戶的資源。如果評(píng)測(cè)機(jī)構(gòu)只在較低預(yù)算下測(cè)試模型,就可能低估其在高資源條件下的風(fēng)險(xiǎn)能力。
Brown 以 Gemini 3 Deep Think 發(fā)布后的爭(zhēng)議為例。他指出,Deep Think 的基準(zhǔn)測(cè)試成績(jī)顯著高于此前模型,但發(fā)布時(shí)沒(méi)有同步提供針對(duì)該版本風(fēng)險(xiǎn)能力的完整系統(tǒng)卡。這一做法引發(fā)部分人工智能安全研究者批評(píng)。
![]()
![]()
不過(guò),在 Brown 看來(lái),爭(zhēng)議背后還有更深層的問(wèn)題:人工智能企業(yè)和安全機(jī)構(gòu)尚未形成一套穩(wěn)定的方法,用于評(píng)估不同推理預(yù)算下的模型能力。
他推測(cè),Deep Think 可能并不是一個(gè)完全獨(dú)立訓(xùn)練的新模型,而是基于其他已有模型構(gòu)建的一套推理腳手架系統(tǒng)。此類系統(tǒng)可以通過(guò)多次調(diào)用模型、并行生成候選結(jié)果、自動(dòng)檢驗(yàn)答案和迭代修正等方式,提高復(fù)雜任務(wù)表現(xiàn)。
如果這一判斷成立,那么 Deep Think 所展示的部分能力,理論上并非只有平臺(tái)自身能夠?qū)崿F(xiàn)。外部開(kāi)發(fā)者只要愿意投入足夠高的推理費(fèi)用,也可能通過(guò)組合多次模型調(diào)用,構(gòu)建出類似的工作流。Deep Think 的作用,更多是將原本需要專業(yè)開(kāi)發(fā)能力的復(fù)雜推理流程,封裝成普通用戶也能便捷調(diào)用的產(chǎn)品形態(tài)。
因此,Brown 認(rèn)為,真正值得關(guān)注的問(wèn)題不是某一個(gè)產(chǎn)品是否單獨(dú)發(fā)布了系統(tǒng)卡,而是當(dāng)基礎(chǔ)模型最初發(fā)布時(shí),研發(fā)機(jī)構(gòu)是否已經(jīng)充分測(cè)試了它在不同推理預(yù)算和不同腳手架策略下可能達(dá)到的能力水平。
高預(yù)算評(píng)測(cè)難以全面實(shí)施,但可以嘗試外推
理論上,一個(gè)資源充足的行為體可能為單一任務(wù)投入超過(guò) 1000 萬(wàn)美元的推理成本。但安全評(píng)估通常涉及成千上萬(wàn)甚至數(shù)百萬(wàn)次測(cè)試運(yùn)行。如果每一次運(yùn)行都使用極高預(yù)算,評(píng)測(cè)成本將迅速失去可行性。
Brown 提出,可以先在相對(duì)可控的推理預(yù)算范圍內(nèi)進(jìn)行測(cè)試,再根據(jù)模型能力隨計(jì)算量變化的趨勢(shì),對(duì)更高預(yù)算條件下的表現(xiàn)進(jìn)行外推。同時(shí),評(píng)測(cè)機(jī)構(gòu)應(yīng)明確標(biāo)注預(yù)測(cè)區(qū)間和不確定性,而不是將推算結(jié)果視為確定結(jié)論。
![]()
這種方法類似于通過(guò)局部數(shù)據(jù)估算更大規(guī)模系統(tǒng)的變化趨勢(shì)。它無(wú)法替代實(shí)際測(cè)試,但可以幫助研發(fā)機(jī)構(gòu)和監(jiān)管者理解:當(dāng)模型被賦予更多時(shí)間、更多工具和更多計(jì)算資源后,風(fēng)險(xiǎn)邊界可能發(fā)生怎樣的變化。
不過(guò),Brown 也承認(rèn),長(zhǎng)周期任務(wù)仍然可能帶來(lái)難以通過(guò)短期實(shí)驗(yàn)解決的問(wèn)題。
例如,如果研究者希望判斷一個(gè)自主智能體在持續(xù)運(yùn)行一年后是否會(huì)出現(xiàn)目標(biāo)偏移、策略欺騙或其他失配行為,那么最可靠的方法可能仍然是讓該智能體實(shí)際運(yùn)行足夠長(zhǎng)的時(shí)間。僅僅根據(jù)幾小時(shí)或幾天的實(shí)驗(yàn)結(jié)果進(jìn)行外推,未必能夠捕捉長(zhǎng)期行為中的關(guān)鍵變化。
這將產(chǎn)生一個(gè)新的現(xiàn)實(shí)矛盾:人工智能模型的開(kāi)發(fā)和發(fā)布周期可能只有數(shù)月,而智能體能夠持續(xù)運(yùn)行的任務(wù)周期卻可能越來(lái)越長(zhǎng)。未來(lái),研發(fā)機(jī)構(gòu)或許會(huì)面臨一種特殊情況——新模型還沒(méi)有完成覆蓋其最大運(yùn)行周期的安全測(cè)試,下一代模型就已經(jīng)接近發(fā)布。
三項(xiàng)建議:讓推理預(yù)算成為模型評(píng)估的基礎(chǔ)變量
針對(duì)能力評(píng)測(cè)和安全治理中的上述問(wèn)題,Brown 提出了三項(xiàng)具體建議。
第一,人工智能研發(fā)機(jī)構(gòu)應(yīng)當(dāng)在發(fā)布新模型時(shí),公布不同推理預(yù)算條件下的基準(zhǔn)測(cè)試表現(xiàn)。理想情況下,企業(yè)應(yīng)提供以 token 數(shù)量、成本或運(yùn)行時(shí)間為橫軸的性能曲線。至少,企業(yè)需要說(shuō)明取得某一單點(diǎn)成績(jī)時(shí)實(shí)際使用了多少推理資源。
第二,基準(zhǔn)測(cè)試排行榜應(yīng)當(dāng)記錄推理資源消耗,或者為參評(píng)模型設(shè)定統(tǒng)一的 token、費(fèi)用或時(shí)間上限。目前,已經(jīng)有部分評(píng)測(cè)開(kāi)始納入相關(guān)變量,但行業(yè)尚未形成標(biāo)準(zhǔn)做法。
第三,人工智能企業(yè)的準(zhǔn)備度框架(Preparedness Framework)和負(fù)責(zé)任擴(kuò)展政策(Responsible Scaling Policy,RSP)應(yīng)當(dāng)明確考慮推理階段的計(jì)算資源。當(dāng)機(jī)構(gòu)判斷模型是否跨越某一安全閾值時(shí),不應(yīng)只考察單一配置下的表現(xiàn),還應(yīng)評(píng)估多個(gè)推理預(yù)算水平,并對(duì)更高預(yù)算條件下的風(fēng)險(xiǎn)能力進(jìn)行帶有不確定性說(shuō)明的預(yù)測(cè)。
行業(yè)已認(rèn)識(shí)到問(wèn)題,但評(píng)測(cè)體系仍未完全跟上
推理階段增加計(jì)算資源可以提升模型表現(xiàn),并不是一個(gè)全新的發(fā)現(xiàn)。
自 OpenAI 在 2024 年 9 月發(fā)布 o1 系列推理模型以來(lái),行業(yè)已經(jīng)普遍意識(shí)到:模型在回答問(wèn)題時(shí)投入更多推理步驟,能夠在數(shù)學(xué)、代碼和復(fù)雜分析任務(wù)上取得更好的結(jié)果。圍繞「測(cè)試時(shí)計(jì)算擴(kuò)展」或「推理時(shí)計(jì)算擴(kuò)展」的研究,也逐漸成為大模型發(fā)展的重要方向。
但 Brown 認(rèn)為,在這一趨勢(shì)出現(xiàn)近兩年后,許多前沿模型發(fā)布仍然主要依靠單一基準(zhǔn)分?jǐn)?shù)進(jìn)行傳播和比較。部分安全機(jī)構(gòu)也可能在某個(gè)腳手架系統(tǒng)使用數(shù)十倍、甚至上百倍推理預(yù)算獲得更高成績(jī)后,才重新審視模型能力邊界。
隨著模型越來(lái)越擅長(zhǎng)利用長(zhǎng)時(shí)間運(yùn)行、多輪試錯(cuò)和大規(guī)模推理資源,傳統(tǒng)排行榜的解釋力可能繼續(xù)下降。同一個(gè)基礎(chǔ)模型,在低預(yù)算問(wèn)答、高預(yù)算深度研究、多智能體協(xié)作和自動(dòng)化工具調(diào)用等不同條件下,可能呈現(xiàn)出截然不同的能力水平。
Brown 的判斷是,未來(lái)衡量人工智能能力時(shí),推理預(yù)算不應(yīng)再被視為測(cè)試過(guò)程中的附屬信息,而應(yīng)像模型規(guī)模、訓(xùn)練數(shù)據(jù)和上下文窗口一樣,成為評(píng)測(cè)報(bào)告中的核心參數(shù)。
從更廣泛的角度看,這也意味著,人工智能行業(yè)正在逐步告別「用一個(gè)數(shù)字定義一個(gè)模型」的階段。對(duì)于能力評(píng)估、產(chǎn)品比較和安全治理而言,真正重要的問(wèn)題可能不再只是模型能做什么,而是當(dāng)它獲得足夠多的時(shí)間、資金和計(jì)算資源后,究竟可以做到什么程度。
參考連接:https://x.com/polynoamial/status/2064210146558136827
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.