![]()
文:董指導(dǎo)
OpenAI 終于祭出了其籌備已久的重磅武器了:GPT-5.4 Thinking 與 GPT-5.4 Pro。
奧特曼(Sam Altman)照例地稱其為“迄今為止最強(qiáng)大的模型”。雖然這句話他每次都說(shuō)、幾乎每家公司也都會(huì)說(shuō),但這一次,指標(biāo)數(shù)據(jù)的跑分,確實(shí)有“資本”。
![]()
1、原生電腦操作能力,超過(guò)“人類基準(zhǔn)線”
最核心的突破在于 OSWorld-Verified 測(cè)試中拿到的75%這一高分。而人類在同一測(cè)試中的平均水平則是72.4%。
這個(gè)對(duì)人類的超越有什么意義呢?
OSWorld-Verified是公認(rèn)的“最硬核”的真實(shí)桌面環(huán)境測(cè)試。AI需要在這個(gè)環(huán)境中像人一樣,通過(guò)視覺(jué)(看截圖)和操作(移動(dòng)鼠標(biāo)、鍵盤(pán)輸入)來(lái)完成跨軟件的任務(wù)。
簡(jiǎn)單說(shuō),就是能否絲滑操作電腦。從只會(huì)動(dòng)嘴,到動(dòng)手。
這個(gè)能力對(duì)于Agent非常重要,尤其最近火爆的OpenClaw,也很需要相關(guān)能力。
OSWorld測(cè)試中有幾個(gè)挑戰(zhàn),比如:
視覺(jué)延遲(模型識(shí)別電腦屏幕、及時(shí)進(jìn)行操作)、
坐標(biāo)漂移(點(diǎn)不準(zhǔn),比如關(guān)閉、放大、縮小的緊密排列按鈕)、
長(zhǎng)鏈條推理(比如“在 Excel 里分析數(shù)據(jù),然后寫(xiě)進(jìn)郵件,根據(jù)回復(fù)附件改名”。只要中間有一步錯(cuò),任務(wù)就全毀了)等等。
這個(gè)指標(biāo)在過(guò)去兩年經(jīng)歷了快速迭代和大幅拉升。
![]()
之前的領(lǐng)先,一直是Claude,而GPT上一代才47%,根本不夠看的。國(guó)產(chǎn)之光Kimi也短暫沖榜第一。
Caude上一次得分,離72.4%仍差臨門(mén)一腳;結(jié)果,GPT 5.4直接加速?zèng)_刺、拔腳射門(mén)。OpenAI算是維護(hù)住了自己的“王者之風(fēng)”。
提升的途徑在于“視覺(jué)感知能力”更強(qiáng)。
雖然測(cè)試、跑分都是有一定的套路的,和真實(shí)世界的復(fù)雜性仍有差距;但,這個(gè)突破,對(duì)于智能體、對(duì)于OpenClaw的普及還是很有幫助的。
不得不說(shuō),OpenClaw之父加入OpenAI之后,是真有效果啊。人才果然是AI時(shí)代的核心要素。
2、幻覺(jué)率降低了33%,更專業(yè)
基準(zhǔn)測(cè)試只是面子,“不胡扯”才是里子。GPT-5.4事實(shí)陳述方面,將錯(cuò)誤率降低了33%。
一個(gè)出錯(cuò)率極低的模型,才能真正進(jìn)入銀行、醫(yī)療、法律等高容錯(cuò)要求的生產(chǎn)環(huán)境。
與之對(duì)應(yīng),在GDPval測(cè)試中,GPT-5.4在44種職業(yè)任務(wù)里,有83%的結(jié)果達(dá)到或超越專業(yè)人士水準(zhǔn),比上一代70.9%顯著提升。
3、100 萬(wàn) Token 上下文
搭載了百萬(wàn)級(jí)上下文窗口后,GPT-5.4 不再有“走神”的問(wèn)題。
能夠一次性記錄一家中型企業(yè)的年度所有周報(bào)和財(cái)務(wù)報(bào)表,并在此基礎(chǔ)上進(jìn)行關(guān)聯(lián)分析。
GPT-5.4的能力突破,全面開(kāi)花,幾乎沒(méi)有短板;除了“價(jià)格”:
輸入價(jià)格2.5美元/百萬(wàn)token,輸出價(jià)格15美元/百萬(wàn)token;Pro版本,輸入30美元/百萬(wàn)token,輸出180美元/百萬(wàn)token。
4、壓力與“追趕者”的陰影
盡管GPT-5.4表現(xiàn)強(qiáng)悍,但這次發(fā)布的背景則是被Claude的反超。
Claude 4.6 在代碼邏輯和長(zhǎng)文本一致性上長(zhǎng)期霸榜,甚至在部分開(kāi)發(fā)者社區(qū)中,使用 Claude 的比例已經(jīng)反超了 GPT。
OpenAI 迫切需要這場(chǎng)勝利來(lái)穩(wěn)住其企業(yè)客戶(B 端)的流失。
![]()
在追趕不停歇,指標(biāo)月月變的時(shí)代,確實(shí)要多思考、多關(guān)注。
---全文完,歡迎交流
理工/金融 復(fù)合背景
暢銷書(shū)《英偉達(dá)之道》譯者
百億私募/頭部自媒體 雙重經(jīng)歷
看清科技、商業(yè)本質(zhì),講出精彩故事
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.