GPT-5.4上新，更懂你電腦的大模型

2026-03-09 17:40:35　來源: Alpha說

上海舉報(bào)

分享至

3月6日凌晨，OpenAI發(fā)布了最新模型版本：GPT-5.4。如果在以往，也許這又是一次模型能力更高更快更強(qiáng)的更新而已，但如今，OpenClaw正在被“全民熱議”，在這個(gè)時(shí)間點(diǎn)上，GPT-5.4作為第一次擁有直接操作電腦能力的大模型，尤為值得關(guān)注。

緊跟小龍蝦，GPT也要把手伸進(jìn)你的電腦了

這次上新，ChatGPT最引人注目的是什么呢？顯然是它的原生電腦操控能力，這個(gè)版本的ChatGPT可以直接操作你的軟件和瀏覽器。

這和當(dāng)下爆火的OpenClaw剛好呼應(yīng)，只不過，過去模型操作電腦要使用專門的Computer Use Agent，而GPT-5.4第一次讓這個(gè)功能直接融入通用模型。

看起來，大模型“伸手”操作你的電腦已經(jīng)是大勢所趨，相信很快會(huì)成為各家模型跟進(jìn)的焦點(diǎn)。順便說一句，據(jù)業(yè)內(nèi)人士透露，其實(shí)阿里半年前就在做屏幕捕捉和長期記憶，看來大模型未來很可能全面跳過小龍蝦，直接接管用戶的電腦。

不僅如此，GPT5.4操作電腦的能力可以說非常順滑，它的操作成功率居然超過了人類。

在OSWorld-Verified測試（用于驗(yàn)證大模型Agent在操作計(jì)算機(jī)方面能力）中，GPT?5.4通過截圖識(shí)別桌面界面并執(zhí)行鍵鼠操作的成功率達(dá)到75%，不僅遠(yuǎn)遠(yuǎn)超過了上一代模型GPT?5.2的47.3%，更是超過了人類平均水平72.4%。

同時(shí)，GPT5.2可以直接靠一張截圖就理解圖中網(wǎng)頁的結(jié)構(gòu)，從而順滑操作原網(wǎng)頁，根據(jù)通過截圖理解網(wǎng)頁結(jié)構(gòu)的Online-Mind2Web測試，成功率達(dá)到了92.8%，這讓它更接近人類使用電腦的邏輯。

基于截圖解析和坐標(biāo)來操控瀏覽器發(fā)郵件

因此，GPT-4.5在職業(yè)場景測試中也取得了好成績。

OpenAI使用GDPval基準(zhǔn)測試（要求模型完成完整職業(yè)任務(wù)），覆蓋美國GDP貢獻(xiàn)最大的九個(gè)行業(yè)和四十四種職業(yè)場景，包括制作銷售演示文稿、建立會(huì)計(jì)電子表格、安排醫(yī)院急診排班、繪制制造流程圖或生成短視頻內(nèi)容。

GPT?5.4在83%的任務(wù)中達(dá)到或超過行業(yè)專業(yè)人士水平。

另外，GPT-5.4還可以接入OpenAI同時(shí)推出的Excel插件，可以在Excel中直接調(diào)用模型，實(shí)現(xiàn)AI與傳統(tǒng)辦公軟件的無縫協(xié)作。

OpenAI特別關(guān)注GPT?5.4在電子表格、演示文稿和文檔創(chuàng)建及編輯能力上的提升。在一項(xiàng)內(nèi)部電子表格建模測試中，GPT?5.4的平均得分達(dá)到87.3%，經(jīng)測試，人類在68%的情況下更偏好GPT?5.4生成的內(nèi)容，認(rèn)為它視覺設(shè)計(jì)更成熟、結(jié)構(gòu)更清晰、視覺變化更豐富，圖像生成更有效。

多模態(tài)智能的全面躍升

在如今最受人關(guān)注的多模態(tài)方面，這次GPT-4.5也可圈可點(diǎn)。

無需外部工具輔助的情況下，GPT-5.4的視覺理解準(zhǔn)確率達(dá)到了81.2%。

值得一提的是，GPT-4.5對高分辨率和高密度圖像的處理能力也有所增強(qiáng)，支持“原始圖像輸入細(xì)節(jié)”，可處理總量最高達(dá)1024萬像素或最大邊長6000像素的全保真圖像，“高細(xì)節(jié)”模式支持最高256萬像素或最大邊長2048像素。

與操作電腦的能力相結(jié)合，GPT-4.5已經(jīng)為大模型完成復(fù)雜工作打下了基礎(chǔ)。

GPT-5.4還具備很強(qiáng)的編程能力，與專注編程的前代模型GPT?5.3-Codex不分伯仲。

GPT-5.4與前代模型評(píng)分對比

更讓人驚喜的是，GPT-5.4還能自動(dòng)用瀏覽器測試自己編寫的web應(yīng)用。

利用此次發(fā)布的實(shí)驗(yàn)性Codex技能Playwright（交互版），只需要一句提示詞，GPT-5.4 就生成了一個(gè)類似過山車大亨的模擬經(jīng)營小游戲。游戲可以建造游樂設(shè)施、道路、門票系統(tǒng)，游客可以自主游覽和排隊(duì)。

GPT-4.5制作的游戲截圖

Playwright Interactive 執(zhí)行了自動(dòng)化測試，驗(yàn)證路徑鋪設(shè)、攝像機(jī)導(dǎo)航、游客行為以及界面指標(biāo)的準(zhǔn)確性。

總體來看，GPT-5.4在Agent可用性的層面又進(jìn)了一大步。

更低的價(jià)格，更高的Token使用效率

最后，來看看價(jià)格。

GPT-5.4 Thinking（基礎(chǔ)版）的輸入價(jià)格為：2.5美元/百萬token，輸出：為15美元。

GPT-5.4 Pro（企業(yè)版）的輸入價(jià)格為：30美元/百萬token，輸出為：180美元（對標(biāo)專業(yè)級(jí)服務(wù)）。

OpenAI官網(wǎng)顯示的Token價(jià)格

盡管單位Token價(jià)格比GPT-5.2略高，但GPT-5.4的又一個(gè)亮點(diǎn)就在這里。

GPT?5.4擁有“工具搜索”機(jī)制，允許模型按需查詢工具定義，大幅減少Token開銷。在過去，大量外部工具定義必須在每次請求時(shí)全量加載，占用大量Token并拖慢響應(yīng)，也是的Token使用量偏高。

經(jīng)過測試，在36個(gè)MCP服務(wù)器的情況下，GPT-5.4的總Token使用量降低了47%。

“工具搜索”機(jī)制顯著降低了Token使用量

應(yīng)該說，在被稱為Agent元年的2026年，OpenAI交出了第一份令人滿意的答卷。

參考資料：

https://openai.com/index/introducing-gpt-5-4/

免責(zé)聲明：本內(nèi)容由Alpha說編輯團(tuán)隊(duì)基于公開信息整理，代表編輯團(tuán)隊(duì)觀點(diǎn)，不構(gòu)成任何投資建議。如需引用，請注明出處。

Alpha說編輯團(tuán)隊(duì)

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.