網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI科學(xué)家Noam Brown：AI的真正上限，可能根本沒(méi)人測(cè)得起

2026-06-09 20:26:00　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

機(jī)器之心編輯部

隨著大語(yǔ)言模型逐步進(jìn)入復(fù)雜推理、自動(dòng)化研究和網(wǎng)絡(luò)安全等高難度任務(wù)，傳統(tǒng)的模型評(píng)測(cè)方式正在面臨新的挑戰(zhàn)。

長(zhǎng)期以來(lái)，模型發(fā)布往往伴隨著一張由多項(xiàng)基準(zhǔn)測(cè)試構(gòu)成的成績(jī)表：數(shù)學(xué)、編程、科學(xué)問(wèn)答、網(wǎng)絡(luò)安全、知識(shí)推理等能力被壓縮為若干分?jǐn)?shù)，并據(jù)此與上一代模型進(jìn)行橫向比較。

OpenAI 研究員 Noam Brown 近日撰文指出，當(dāng)模型能夠在回答問(wèn)題時(shí)使用更多推理步驟、調(diào)用更多工具或執(zhí)行更長(zhǎng)時(shí)間的搜索與試驗(yàn)后，單一分?jǐn)?shù)已越來(lái)越難以準(zhǔn)確反映模型的實(shí)際能力。

Brown 的核心觀點(diǎn)是：大模型的表現(xiàn)不僅取決于模型本身，也越來(lái)越取決于模型在推理階段獲得了多少計(jì)算資源。未來(lái)評(píng)估模型時(shí)，不能只問(wèn)「模型得了多少分」，還應(yīng)回答另一個(gè)問(wèn)題：模型是在消耗多少 token、多少費(fèi)用和多長(zhǎng)運(yùn)行時(shí)間的前提下，獲得這一成績(jī)的？

他建議，行業(yè)應(yīng)當(dāng)從「單點(diǎn)成績(jī)」轉(zhuǎn)向「性能—推理計(jì)算量曲線」，并將推理預(yù)算視為模型能力評(píng)估和人工智能安全政策中的基礎(chǔ)變量。

新模型的能力差距，可能被傳統(tǒng)成績(jī)表低估

Brown 以 GPT-5.5 發(fā)布后的市場(chǎng)反應(yīng)為例，說(shuō)明傳統(tǒng)模型排行榜的局限性。

按照他的描述，GPT-5.5 發(fā)布初期，外界首先注意到的是一組并不算特別顯眼的基準(zhǔn)測(cè)試成績(jī)。與 GPT-5.4 相比，新模型的分?jǐn)?shù)有所提高，但從常規(guī)成績(jī)表看，提升幅度似乎有限。部分用戶因此對(duì)新版本持觀望甚至質(zhì)疑態(tài)度。

但在模型開(kāi)放使用后的數(shù)小時(shí)內(nèi)，隨著開(kāi)發(fā)者和研究人員開(kāi)始測(cè)試更復(fù)雜的任務(wù)，一些用戶發(fā)現(xiàn)，GPT-5.5 在長(zhǎng)鏈條推理、持續(xù)執(zhí)行和復(fù)雜問(wèn)題處理方面表現(xiàn)出更加明顯的代際差異。Brown 認(rèn)為，這種「實(shí)際體驗(yàn)明顯增強(qiáng)、榜單分?jǐn)?shù)卻變化有限」的現(xiàn)象，反映出傳統(tǒng)評(píng)測(cè)沒(méi)有完整呈現(xiàn)模型能力。

問(wèn)題在于，不同模型的評(píng)測(cè)結(jié)果未必建立在相同的推理預(yù)算之上。

在傳統(tǒng)評(píng)測(cè)框架中，研究者往往會(huì)為每個(gè)模型選擇一套能夠盡可能提高成績(jī)的測(cè)試配置，再將最終分?jǐn)?shù)放入同一張表格。這種方式看似公平，但可能掩蓋一個(gè)關(guān)鍵變量：某些模型可以在獲得更多推理 token、更多調(diào)用次數(shù)或更長(zhǎng)運(yùn)行時(shí)間后，繼續(xù)顯著提升表現(xiàn)；另一些模型則可能較早觸及性能上限。

Brown 展示的網(wǎng)絡(luò)安全評(píng)測(cè)案例表明，如果只比較各模型在所謂「最大測(cè)試時(shí)計(jì)算量」條件下的最終成績(jī)，GPT-5.5 相較 GPT-5.4 的優(yōu)勢(shì)可能并不突出。但如果將 token 數(shù)量、推理成本或延遲控制在相同水平，再觀察不同模型的表現(xiàn)，GPT-5.5 的能力提升會(huì)更加明顯。

換言之，模型間的差距不僅體現(xiàn)在最終分?jǐn)?shù)上，也體現(xiàn)在其利用額外推理計(jì)算量的效率上。

為什么不能簡(jiǎn)單地「跑到性能不再提升為止」

一種直觀的解決方案是：為每個(gè)模型持續(xù)增加推理資源，直到其表現(xiàn)進(jìn)入平臺(tái)期，再比較各自的最高能力。

Brown 認(rèn)為，這種思路在實(shí)踐中未必可行。原因是，對(duì)于新一代模型而言，性能平臺(tái)期可能遠(yuǎn)比預(yù)期更晚出現(xiàn)，甚至在現(xiàn)實(shí)可承受的預(yù)算范圍內(nèi)難以觀測(cè)。

他引用了 Andrej Karpathy 發(fā)起的自動(dòng)化研究實(shí)驗(yàn)作為例子。在相關(guān)實(shí)驗(yàn)中，模型持續(xù)執(zhí)行大量試驗(yàn)后，性能仍然保持改善趨勢(shì)。即使實(shí)驗(yàn)次數(shù)達(dá)到數(shù)百次，提升曲線也沒(méi)有完全趨于平緩。

Brown 同時(shí)提到英國(guó)人工智能安全研究所（AI Security Institute）的網(wǎng)絡(luò)安全評(píng)測(cè)結(jié)果。在該評(píng)測(cè)中，包括 Mythos 和 GPT-5.5 在內(nèi)的部分模型，在累計(jì)使用超過(guò) 1 億 token 后，任務(wù)表現(xiàn)仍然繼續(xù)提高。

這一現(xiàn)象意味著，在復(fù)雜任務(wù)上，模型能夠利用越來(lái)越長(zhǎng)的運(yùn)行時(shí)間和越來(lái)越大的推理預(yù)算，持續(xù)探索、試錯(cuò)和修正策略。更強(qiáng)的模型不僅起點(diǎn)更高，還可能更擅長(zhǎng)將額外計(jì)算資源轉(zhuǎn)化為有效能力。

Brown 據(jù)此推測(cè)，隨著模型能力提高，其可有效運(yùn)行的任務(wù)周期也會(huì)延長(zhǎng)。過(guò)去，人們或許可以在相對(duì)有限的預(yù)算下觀察到模型性能趨于穩(wěn)定；未來(lái)，性能上限可能被不斷推遠(yuǎn)。在某些任務(wù)中，所謂「平臺(tái)期」甚至可能不再是一個(gè)容易測(cè)量的狀態(tài)。

從單一分?jǐn)?shù)轉(zhuǎn)向「性能—成本曲線」

面對(duì)這一變化，Brown 建議，模型發(fā)布機(jī)構(gòu)應(yīng)改變基準(zhǔn)測(cè)試的呈現(xiàn)方式。

與其只公布一個(gè)最終分?jǐn)?shù)，不如在橫軸上標(biāo)注推理計(jì)算量，在縱軸上展示任務(wù)表現(xiàn)，繪制完整的性能變化曲線。橫軸可以采用 token 數(shù)量、推理費(fèi)用或?qū)嶋H運(yùn)行時(shí)間等指標(biāo)。

這種方法能夠回答傳統(tǒng)成績(jī)表難以解釋的問(wèn)題。例如，在相同預(yù)算下，哪個(gè)模型表現(xiàn)更好？當(dāng)預(yù)算增加十倍時(shí)，哪個(gè)模型提升更快？模型是否已經(jīng)接近能力上限？不同模型的成本效益如何變化？

目前，部分基準(zhǔn)測(cè)試已經(jīng)開(kāi)始采用類似方法。Brown 提到，ARC-AGI 等評(píng)測(cè)已嘗試衡量模型分?jǐn)?shù)與運(yùn)行成本之間的關(guān)系，而不是只發(fā)布單一成績(jī)。

另一種可行方案，是為評(píng)測(cè)設(shè)定明確的 token、成本或時(shí)間限制，并提前將預(yù)算信息告知模型。這種方式類似于人類參加標(biāo)準(zhǔn)化考試：無(wú)論是美國(guó)大學(xué)入學(xué)考試 SAT，還是國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽，參賽者都需要在固定時(shí)間內(nèi)完成任務(wù)。模型能力也可以在統(tǒng)一約束下進(jìn)行比較。

不過(guò)，Brown 同時(shí)指出，不同指標(biāo)都有局限。

token 數(shù)量未必能夠直接跨模型比較，因?yàn)椴煌Ｐ褪褂玫姆衷~器、生成速度和單位 token 成本可能存在差異。費(fèi)用受到硬件利用率、批量處理方式和工程實(shí)現(xiàn)的影響。運(yùn)行時(shí)間同樣不是完美指標(biāo)，因?yàn)椤付嘀悄荏w協(xié)作」或 best-of-N 等技術(shù)可以并行生成多個(gè)候選答案，在顯著增加總計(jì)算量的同時(shí)，不一定明顯增加用戶感受到的等待時(shí)間。

盡管如此，他認(rèn)為，上述指標(biāo)中的任何一種，都比脫離推理預(yù)算的單一分?jǐn)?shù)更具信息量。

推理預(yù)算問(wèn)題正在延伸至人工智能安全評(píng)估

Brown 的討論并不限于模型排行榜。他認(rèn)為，推理預(yù)算還會(huì)直接影響前沿模型的安全治理。

在前沿人工智能模型發(fā)布前，研發(fā)機(jī)構(gòu)通常會(huì)對(duì)網(wǎng)絡(luò)攻擊、生物風(fēng)險(xiǎn)、化學(xué)風(fēng)險(xiǎn)和其他潛在濫用能力進(jìn)行評(píng)估。如果模型達(dá)到某一風(fēng)險(xiǎn)閾值，研發(fā)機(jī)構(gòu)可能需要推遲發(fā)布，或在部署前增加訪問(wèn)限制、監(jiān)控機(jī)制和其他緩解措施。

問(wèn)題在于，如果模型能力會(huì)隨著推理計(jì)算量增加而提升，那么安全評(píng)估應(yīng)當(dāng)使用多大的推理預(yù)算？

在現(xiàn)實(shí)中，普通用戶可能只會(huì)為一次任務(wù)投入幾美元或幾十美元。但一個(gè)資金充足的組織、專業(yè)團(tuán)隊(duì)或國(guó)家級(jí)行為體，可能愿意為單一目標(biāo)投入遠(yuǎn)高于普通用戶的資源。如果評(píng)測(cè)機(jī)構(gòu)只在較低預(yù)算下測(cè)試模型，就可能低估其在高資源條件下的風(fēng)險(xiǎn)能力。

Brown 以 Gemini 3 Deep Think 發(fā)布后的爭(zhēng)議為例。他指出，Deep Think 的基準(zhǔn)測(cè)試成績(jī)顯著高于此前模型，但發(fā)布時(shí)沒(méi)有同步提供針對(duì)該版本風(fēng)險(xiǎn)能力的完整系統(tǒng)卡。這一做法引發(fā)部分人工智能安全研究者批評(píng)。

不過(guò)，在 Brown 看來(lái)，爭(zhēng)議背后還有更深層的問(wèn)題：人工智能企業(yè)和安全機(jī)構(gòu)尚未形成一套穩(wěn)定的方法，用于評(píng)估不同推理預(yù)算下的模型能力。

他推測(cè)，Deep Think 可能并不是一個(gè)完全獨(dú)立訓(xùn)練的新模型，而是基于其他已有模型構(gòu)建的一套推理腳手架系統(tǒng)。此類系統(tǒng)可以通過(guò)多次調(diào)用模型、并行生成候選結(jié)果、自動(dòng)檢驗(yàn)答案和迭代修正等方式，提高復(fù)雜任務(wù)表現(xiàn)。

如果這一判斷成立，那么 Deep Think 所展示的部分能力，理論上并非只有平臺(tái)自身能夠?qū)崿F(xiàn)。外部開(kāi)發(fā)者只要愿意投入足夠高的推理費(fèi)用，也可能通過(guò)組合多次模型調(diào)用，構(gòu)建出類似的工作流。Deep Think 的作用，更多是將原本需要專業(yè)開(kāi)發(fā)能力的復(fù)雜推理流程，封裝成普通用戶也能便捷調(diào)用的產(chǎn)品形態(tài)。

因此，Brown 認(rèn)為，真正值得關(guān)注的問(wèn)題不是某一個(gè)產(chǎn)品是否單獨(dú)發(fā)布了系統(tǒng)卡，而是當(dāng)基礎(chǔ)模型最初發(fā)布時(shí)，研發(fā)機(jī)構(gòu)是否已經(jīng)充分測(cè)試了它在不同推理預(yù)算和不同腳手架策略下可能達(dá)到的能力水平。

高預(yù)算評(píng)測(cè)難以全面實(shí)施，但可以嘗試外推

理論上，一個(gè)資源充足的行為體可能為單一任務(wù)投入超過(guò) 1000 萬(wàn)美元的推理成本。但安全評(píng)估通常涉及成千上萬(wàn)甚至數(shù)百萬(wàn)次測(cè)試運(yùn)行。如果每一次運(yùn)行都使用極高預(yù)算，評(píng)測(cè)成本將迅速失去可行性。

Brown 提出，可以先在相對(duì)可控的推理預(yù)算范圍內(nèi)進(jìn)行測(cè)試，再根據(jù)模型能力隨計(jì)算量變化的趨勢(shì)，對(duì)更高預(yù)算條件下的表現(xiàn)進(jìn)行外推。同時(shí)，評(píng)測(cè)機(jī)構(gòu)應(yīng)明確標(biāo)注預(yù)測(cè)區(qū)間和不確定性，而不是將推算結(jié)果視為確定結(jié)論。

這種方法類似于通過(guò)局部數(shù)據(jù)估算更大規(guī)模系統(tǒng)的變化趨勢(shì)。它無(wú)法替代實(shí)際測(cè)試，但可以幫助研發(fā)機(jī)構(gòu)和監(jiān)管者理解：當(dāng)模型被賦予更多時(shí)間、更多工具和更多計(jì)算資源后，風(fēng)險(xiǎn)邊界可能發(fā)生怎樣的變化。

不過(guò)，Brown 也承認(rèn)，長(zhǎng)周期任務(wù)仍然可能帶來(lái)難以通過(guò)短期實(shí)驗(yàn)解決的問(wèn)題。

例如，如果研究者希望判斷一個(gè)自主智能體在持續(xù)運(yùn)行一年后是否會(huì)出現(xiàn)目標(biāo)偏移、策略欺騙或其他失配行為，那么最可靠的方法可能仍然是讓該智能體實(shí)際運(yùn)行足夠長(zhǎng)的時(shí)間。僅僅根據(jù)幾小時(shí)或幾天的實(shí)驗(yàn)結(jié)果進(jìn)行外推，未必能夠捕捉長(zhǎng)期行為中的關(guān)鍵變化。

這將產(chǎn)生一個(gè)新的現(xiàn)實(shí)矛盾：人工智能模型的開(kāi)發(fā)和發(fā)布周期可能只有數(shù)月，而智能體能夠持續(xù)運(yùn)行的任務(wù)周期卻可能越來(lái)越長(zhǎng)。未來(lái)，研發(fā)機(jī)構(gòu)或許會(huì)面臨一種特殊情況——新模型還沒(méi)有完成覆蓋其最大運(yùn)行周期的安全測(cè)試，下一代模型就已經(jīng)接近發(fā)布。

三項(xiàng)建議：讓推理預(yù)算成為模型評(píng)估的基礎(chǔ)變量

針對(duì)能力評(píng)測(cè)和安全治理中的上述問(wèn)題，Brown 提出了三項(xiàng)具體建議。

第一，人工智能研發(fā)機(jī)構(gòu)應(yīng)當(dāng)在發(fā)布新模型時(shí)，公布不同推理預(yù)算條件下的基準(zhǔn)測(cè)試表現(xiàn)。理想情況下，企業(yè)應(yīng)提供以 token 數(shù)量、成本或運(yùn)行時(shí)間為橫軸的性能曲線。至少，企業(yè)需要說(shuō)明取得某一單點(diǎn)成績(jī)時(shí)實(shí)際使用了多少推理資源。

第二，基準(zhǔn)測(cè)試排行榜應(yīng)當(dāng)記錄推理資源消耗，或者為參評(píng)模型設(shè)定統(tǒng)一的 token、費(fèi)用或時(shí)間上限。目前，已經(jīng)有部分評(píng)測(cè)開(kāi)始納入相關(guān)變量，但行業(yè)尚未形成標(biāo)準(zhǔn)做法。

第三，人工智能企業(yè)的準(zhǔn)備度框架（Preparedness Framework）和負(fù)責(zé)任擴(kuò)展政策（Responsible Scaling Policy，RSP）應(yīng)當(dāng)明確考慮推理階段的計(jì)算資源。當(dāng)機(jī)構(gòu)判斷模型是否跨越某一安全閾值時(shí)，不應(yīng)只考察單一配置下的表現(xiàn)，還應(yīng)評(píng)估多個(gè)推理預(yù)算水平，并對(duì)更高預(yù)算條件下的風(fēng)險(xiǎn)能力進(jìn)行帶有不確定性說(shuō)明的預(yù)測(cè)。

行業(yè)已認(rèn)識(shí)到問(wèn)題，但評(píng)測(cè)體系仍未完全跟上

推理階段增加計(jì)算資源可以提升模型表現(xiàn)，并不是一個(gè)全新的發(fā)現(xiàn)。

自 OpenAI 在 2024 年 9 月發(fā)布 o1 系列推理模型以來(lái)，行業(yè)已經(jīng)普遍意識(shí)到：模型在回答問(wèn)題時(shí)投入更多推理步驟，能夠在數(shù)學(xué)、代碼和復(fù)雜分析任務(wù)上取得更好的結(jié)果。圍繞「測(cè)試時(shí)計(jì)算擴(kuò)展」或「推理時(shí)計(jì)算擴(kuò)展」的研究，也逐漸成為大模型發(fā)展的重要方向。

但 Brown 認(rèn)為，在這一趨勢(shì)出現(xiàn)近兩年后，許多前沿模型發(fā)布仍然主要依靠單一基準(zhǔn)分?jǐn)?shù)進(jìn)行傳播和比較。部分安全機(jī)構(gòu)也可能在某個(gè)腳手架系統(tǒng)使用數(shù)十倍、甚至上百倍推理預(yù)算獲得更高成績(jī)后，才重新審視模型能力邊界。

隨著模型越來(lái)越擅長(zhǎng)利用長(zhǎng)時(shí)間運(yùn)行、多輪試錯(cuò)和大規(guī)模推理資源，傳統(tǒng)排行榜的解釋力可能繼續(xù)下降。同一個(gè)基礎(chǔ)模型，在低預(yù)算問(wèn)答、高預(yù)算深度研究、多智能體協(xié)作和自動(dòng)化工具調(diào)用等不同條件下，可能呈現(xiàn)出截然不同的能力水平。

Brown 的判斷是，未來(lái)衡量人工智能能力時(shí)，推理預(yù)算不應(yīng)再被視為測(cè)試過(guò)程中的附屬信息，而應(yīng)像模型規(guī)模、訓(xùn)練數(shù)據(jù)和上下文窗口一樣，成為評(píng)測(cè)報(bào)告中的核心參數(shù)。

從更廣泛的角度看，這也意味著，人工智能行業(yè)正在逐步告別「用一個(gè)數(shù)字定義一個(gè)模型」的階段。對(duì)于能力評(píng)估、產(chǎn)品比較和安全治理而言，真正重要的問(wèn)題可能不再只是模型能做什么，而是當(dāng)它獲得足夠多的時(shí)間、資金和計(jì)算資源后，究竟可以做到什么程度。

參考連接：https://x.com/polynoamial/status/2064210146558136827

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.