![]()
3月6日凌晨,OpenAI發(fā)布了最新模型版本:GPT-5.4。如果在以往,也許這又是一次模型能力更高更快更強(qiáng)的更新而已,但如今,OpenClaw正在被“全民熱議”,在這個(gè)時(shí)間點(diǎn)上,GPT-5.4作為第一次擁有直接操作電腦能力的大模型,尤為值得關(guān)注。
緊跟小龍蝦,GPT也要把手伸進(jìn)你的電腦了
這次上新,ChatGPT最引人注目的是什么呢?顯然是它的原生電腦操控能力,這個(gè)版本的ChatGPT可以直接操作你的軟件和瀏覽器。
這和當(dāng)下爆火的OpenClaw剛好呼應(yīng),只不過,過去模型操作電腦要使用專門的Computer Use Agent,而GPT-5.4第一次讓這個(gè)功能直接融入通用模型。
看起來,大模型“伸手”操作你的電腦已經(jīng)是大勢所趨,相信很快會(huì)成為各家模型跟進(jìn)的焦點(diǎn)。順便說一句,據(jù)業(yè)內(nèi)人士透露,其實(shí)阿里半年前就在做屏幕捕捉和長期記憶,看來大模型未來很可能全面跳過小龍蝦,直接接管用戶的電腦。
不僅如此,GPT5.4操作電腦的能力可以說非常順滑,它的操作成功率居然超過了人類。
在OSWorld-Verified測試(用于驗(yàn)證大模型Agent在操作計(jì)算機(jī)方面能力)中,GPT?5.4通過截圖識(shí)別桌面界面并執(zhí)行鍵鼠操作的成功率達(dá)到75%,不僅遠(yuǎn)遠(yuǎn)超過了上一代模型GPT?5.2的47.3%,更是超過了人類平均水平72.4%。
同時(shí),GPT5.2可以直接靠一張截圖就理解圖中網(wǎng)頁的結(jié)構(gòu),從而順滑操作原網(wǎng)頁,根據(jù)通過截圖理解網(wǎng)頁結(jié)構(gòu)的Online-Mind2Web測試,成功率達(dá)到了92.8%,這讓它更接近人類使用電腦的邏輯。
![]()
基于截圖解析和坐標(biāo)來操控瀏覽器發(fā)郵件
因此,GPT-4.5在職業(yè)場景測試中也取得了好成績。
OpenAI使用GDPval基準(zhǔn)測試(要求模型完成完整職業(yè)任務(wù)),覆蓋美國GDP貢獻(xiàn)最大的九個(gè)行業(yè)和四十四種職業(yè)場景,包括制作銷售演示文稿、建立會(huì)計(jì)電子表格、安排醫(yī)院急診排班、繪制制造流程圖或生成短視頻內(nèi)容。
GPT?5.4在83%的任務(wù)中達(dá)到或超過行業(yè)專業(yè)人士水平。
另外,GPT-5.4還可以接入OpenAI同時(shí)推出的Excel插件,可以在Excel中直接調(diào)用模型,實(shí)現(xiàn)AI與傳統(tǒng)辦公軟件的無縫協(xié)作。
OpenAI特別關(guān)注GPT?5.4在電子表格、演示文稿和文檔創(chuàng)建及編輯能力上的提升。在一項(xiàng)內(nèi)部電子表格建模測試中,GPT?5.4的平均得分達(dá)到87.3%,經(jīng)測試,人類在68%的情況下更偏好GPT?5.4生成的內(nèi)容,認(rèn)為它視覺設(shè)計(jì)更成熟、結(jié)構(gòu)更清晰、視覺變化更豐富,圖像生成更有效。
![]()
多模態(tài)智能的全面躍升
在如今最受人關(guān)注的多模態(tài)方面,這次GPT-4.5也可圈可點(diǎn)。
無需外部工具輔助的情況下,GPT-5.4的視覺理解準(zhǔn)確率達(dá)到了81.2%。
值得一提的是,GPT-4.5對高分辨率和高密度圖像的處理能力也有所增強(qiáng),支持“原始圖像輸入細(xì)節(jié)”,可處理總量最高達(dá)1024萬像素或最大邊長6000像素的全保真圖像,“高細(xì)節(jié)”模式支持最高256萬像素或最大邊長2048像素。
與操作電腦的能力相結(jié)合,GPT-4.5已經(jīng)為大模型完成復(fù)雜工作打下了基礎(chǔ)。
GPT-5.4還具備很強(qiáng)的編程能力,與專注編程的前代模型GPT?5.3-Codex不分伯仲。
![]()
GPT-5.4與前代模型評(píng)分對比
更讓人驚喜的是,GPT-5.4還能自動(dòng)用瀏覽器測試自己編寫的web應(yīng)用。
利用此次發(fā)布的實(shí)驗(yàn)性Codex技能Playwright(交互版),只需要一句提示詞,GPT-5.4 就生成了一個(gè)類似過山車大亨的模擬經(jīng)營小游戲。游戲可以建造游樂設(shè)施、道路、門票系統(tǒng),游客可以自主游覽和排隊(duì)。
![]()
GPT-4.5制作的游戲截圖
Playwright Interactive 執(zhí)行了自動(dòng)化測試,驗(yàn)證路徑鋪設(shè)、攝像機(jī)導(dǎo)航、游客行為以及界面指標(biāo)的準(zhǔn)確性。
總體來看,GPT-5.4在Agent可用性的層面又進(jìn)了一大步。
![]()
更低的價(jià)格,更高的Token使用效率
最后,來看看價(jià)格。
GPT-5.4 Thinking(基礎(chǔ)版)的輸入價(jià)格為:2.5美元/百萬token,輸出:為15美元。
GPT-5.4 Pro(企業(yè)版)的輸入價(jià)格為:30美元/百萬token,輸出為:180美元(對標(biāo)專業(yè)級(jí)服務(wù))。
![]()
OpenAI官網(wǎng)顯示的Token價(jià)格
盡管單位Token價(jià)格比GPT-5.2略高,但GPT-5.4的又一個(gè)亮點(diǎn)就在這里。
GPT?5.4擁有“工具搜索”機(jī)制,允許模型按需查詢工具定義,大幅減少Token開銷。在過去,大量外部工具定義必須在每次請求時(shí)全量加載,占用大量Token并拖慢響應(yīng),也是的Token使用量偏高。
經(jīng)過測試,在36個(gè)MCP服務(wù)器的情況下,GPT-5.4的總Token使用量降低了47%。
![]()
“工具搜索”機(jī)制顯著降低了Token使用量
應(yīng)該說,在被稱為Agent元年的2026年,OpenAI交出了第一份令人滿意的答卷。
參考資料:
https://openai.com/index/introducing-gpt-5-4/
免責(zé)聲明:本內(nèi)容由Alpha說編輯團(tuán)隊(duì)基于公開信息整理,代表編輯團(tuán)隊(duì)觀點(diǎn),不構(gòu)成任何投資建議。如需引用,請注明出處。
Alpha說編輯團(tuán)隊(duì)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.