<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      世界還在為“龍蝦”狂歡,“AI操作系統”戰爭已悄然打響

      0
      分享至

      本文系基于公開資料撰寫,僅作為信息交流之用,不構成任何投資建議


      OpenAI明里暗里預熱了很久的GPT-5.4,終于在上周五正式亮相了。它的能力提升自不必說,但有意思的是,這次發布的新版本,和當下爆火的應用“龍蝦”(OpenClaw),有著剪不斷的關聯。而這一切的核心,就藏在OpenAI官方介紹中反復強調的一個關鍵能力上:“Computer-Use”(計算機使用)

      在展開之前,我們先亮出核心觀點,也是本文想要傳達的主旨:透過GPT-5.4,我們可以看到,OpenAI正在打造的,早已不是一個更聰明的聊天模型,而是一個全新的“AI操作系統”(AI OS)。

      從長上下文、工具調用到原生操控電腦,這一切都是在為這個“操作系統”鋪路。當世界還在為OpenClaw的爆火而歡呼,為Agent的概念而興奮時,OpenAI已經將Agent的核心能力(Computer-Use)內建于模型底層。

      世界或許還渾然不知,但我們正站在一個新時代的起點:AI即將從“產品應用”蛻變為“操作平臺”。

      01

      操作系統”的內核:推理+編碼+工作流

      相比Google的Gemini 精通于世界知識,OpenAI 的ChatGPT系列經常會被定義為“理科生”。

      雖然自升級到 GPT-5 以后,它給人提供情緒價值的能力略有減弱,但編程和數學能力仍然極為出色。

      這一次,為了讓能力溢出的 AI 能夠在 Agent 時代順利落地到具體應用上,GPT-5.4 實現了一項核心技術突破:

      將推理、編碼、智能體工作流三方面能力整合至單一模型架構之中 。

      簡單來說,GPT-5.4 更全能了,而且在特定領域的能力也更強了,它不再是一個單一功能的工具,而是一個具備通用能力的“操作系統內核”。

      在推理層面,為了更好地落實到應用層面、讓模型具備執行復雜任務的能力,OpenAI 特意強化了 GPT-5.4 的上下文理解能力。

      面對 100萬 token 量級的復雜任務(相當于可以一次性處理整套項目文檔或長時財務記錄),模型能夠整合海量的數據并正確進行信息去重 。對于單條事實聲稱的錯誤率相比 GPT-5.2 降低了 33%,在高專業度場景下的輸出更加可信。

      除此之外,GPT-5.4 已經可以在 CodeX 中設置支持 1M 的上下文窗口,不過需要用戶在 config.toml 中手動設置,否則默認仍為 256k。


      具體到知識工作,在面向 44 種職業的 GDPval 基準測試中,GPT-5.4 能夠在 83% 以上的場景中達到甚至超越行業專家水平 。

      相比于 GPT-5.2 的 70.9% 水平,這一提升幅度已經十分顯著。不過令人有些疑惑的是,GPT-5.4 的 Pro 版本模型反而表現略遜于 GPT-5.4。(官方解釋為 Pro 版本更側重于極端復雜任務的穩定性,而非通用場景的平均分)

      為了更好地讓 GPT-5.4 融入人們的實際工作場景,OpenAI 在官方介紹中直觀展現了新版本模型在電子表格、文檔和幻燈片三個場景的專業級表現:




      除此之外,GPT-5.4 取得的顯著進步,在金融和法律等高專業度領域也發揮了至關重要的作用。

      多家國際機構的反饋顯示,新模型在財務建模、合同分析、長周期任務執行中準確率提升的同時,用戶與 AI 的交互頻次也減少了很多,顯著縮短了任務完成時間


      針對最受開發者關注的編碼場景,GPT-5.4 保持了與 GPT-5.3-Codex 生成同等質量代碼的能力,沒有顯著的提升。不過,新增加的“/fast”模式能夠實現約 1.5倍 的token 生成速度

      智能體方面,工具調用能力是智能體完成任務的核心,新引入的“工具搜索 (Tool Search)”機制讓模型能夠在數萬個工具的大型生態中按需調用能力,在準確率保持不變的情況下token消耗量驚人地下降了47%

      這正是“操作系統”調度底層資源的方式,高效且精準。

      02

      原生計算機操作:從理解到執行,這就是“操作系統”的界面

      AI 的形態已經從大語言模型演進到了智能體,想要實現產品的商業化就必須讓 AI 能真正幫人們做事。

      于是,全球的AI企業不約而同地將目光放到了用戶PC的控制權上。

      但是,各種桌面端代理發布一段時間后,下載率和留存率其實都不理想。哪怕是對于 ChatGPT 的 9.56 億月活用戶而言,也有很多人不愿意單獨下載一個桌面端代理軟件 。

      大家早已習慣和 AI(大語言模型)聊天,卻還沒適應讓 AI(智能體代理)接管電腦。

      于是,OpenAI想出了一個天才般的點子:讓用戶每天都在用的大模型操控電腦,不用專門下載安裝。

      于是,GPT-5.4 順理成章地成為了第一個具備原生計算機操作能力的通用模型 。

      原理其實并不復雜,它能夠根據屏幕截圖發出鼠標鍵盤指令,也可以通過 Playwright 等庫編寫代碼來直接操作軟件系統 。

      相比于需要專門訓練才能使用的 PC 端代理助手不同,GPT-5.4 選擇將操控電腦的能力直接內建于通用架構之中,開發者在同一模型中即可無縫切換推理、編碼或執行任務。正如“操作系統”天然擁有底層硬件(鍵鼠、屏幕)的驅動一樣。

      一提到操控電腦,那安全問題就不可回避。

      GPT-5.4 的行為可通過開發者的輸入進行精細化調節,以此適應不同應用場景的需求 。

      為了確保安全,開發者可以配置自定義的安全確認策略,根據任務風險等級設置不同的操作確認機制

      數據查詢、代碼編寫等低風險任務設置成自動執行,資金操作、文件刪改則必須人工確認,既能保證系統安全,又能提升工作流的執行效率。


      在 OSWorld-Verified 基準測試中,GPT-5.4 實現了 75% 的成功率,超越人類基準(72.4%) 的同時,大幅領先于前代 GPT-5.2 的 47.3% 水平,足以證明新模型在 PC 端任務場景中的實用和可靠 。

      而在瀏覽器自動化方面,GPT-5.4 在 WebArena-Verified 和 Online-Mind2Web 測試中,依靠截圖為主的方法分別得到 67.3% 和 92.8% 的成功率。

      這就意味著,模型即便不訪問網頁底層架構,僅憑視覺信息即可完成復雜的網頁交互任務,這主要歸功于底層視覺感知能力的系統性提升。

      傳統多模態領域的提升相對較小,MMMU-Pro 視覺理解與推理測試中,模型的準確率從 79.5% 提升至 81.2%;但對于結構化信息的識別能力則顯著提升,模型在 OmniDocBench 文檔解析基準測試中的平均錯誤率從 0.140 降至 0.109 。

      也就是說,模型更善于處理復雜的 PDF、掃描文檔等工作環境中常見的文件類型,不會像以前一樣一遇到表格和插圖就束手無策。

      針對高密度的界面和精細操作的需求,GPT-5.4 新增的“original”圖像輸入級別支持最高 1024 萬像素的全保真感知。

      根據用戶反饋,模型在處理企業級 ERP 系統、財務報表或工程設計軟件等復雜界面時,高分辨率模式下的界面元素定位準確率和點擊操作成功率都有顯著提升。

      03

      實際測試:操作系統之戰,從一張昂貴入場券開始

      在這份官方介紹中,OpenAI 試圖用大量基準測試的跑分結果和知名機構的專業評價來證明模型能力之強大。

      盡管人們普遍不太信任基準測試的分數,但幾項實際測試的結果卻證明了 OpenAI 所言非虛。

      首先是 Artificial Analysis 的評測榜單,如預想一般,智能程度、編碼能力、代理能力同時登頂:




      如果這還不足夠具有說服力,那還可以看看 X 平臺上的一項綜合性測試:



      原視頻鏈接:
      https://x.com/angaisb_/status/2029635731585372598?s=46&t=E5aK_KpbsE6EAIfDJWZvzQ

      這是 X 平臺上用戶 @Angaisb_ 用 GPT-5.4 編寫的 Minecraft 游戲,無論是主視角的行動邏輯(奔跑、跳躍、搭建),還是游戲中方塊的材質和美觀程度,幾乎都無可挑剔。

      一個 demo 中展示出的內容,已經與 Minecraft 初期版本的質量相差無幾。

      由此可見,GPT-5.4 的功能是實打實的強大,也確實具備相當高的實際價值。

      但俗話說得好,一分錢一分貨,如此強大的功能自然意味著極其高昂的費用。


      相比 GPT-5.2,價格漲幅相當驚人,甚至有用戶在模型剛發布后的幾個小時內表示,僅僅是打了個招呼問了個問題,幾百美元就不翼而飛了 。

      如此強大的能力和高昂的定價,似乎與 OpenAI 官方定義的“能力溢出”有些自相矛盾。

      如今,OpenClaw 帶動了 token 成本極其低廉的國產大模型爆火,GPT 系列產品已經跌出使用量排行榜的前十,為何 OpenAI 還敢給 GPT-5.4 定下如此高的價格?

      算力資源的緊張自然不必多說,但更深層的答案或許藏在 OpenAI 近期商業化策略的微妙轉向之中。

      據悉,OpenAI 正在縮減 ChatGPT 應用內的直接購買方案,不再將聊天界面作為閉環交易的核心場景,而是優先支持外部應用處理購買行為 。

      這表明,OpenAI 正在從“直接面向消費者變現”轉向“通過生態環境間接獲利”。

      OpenAI 將 GPT-5.4 定位為專業的基礎設施,通過能力溢價篩選出高價值的客戶;而普通用戶的變現需求,則交給 Notion、Cursor 等集成 ChatGPT 能力的第三方生態來承接,無需直接承擔高昂的 API 成本即可通過合作伙伴的產品間接體驗模型能力 。

      而熟悉桌面智能代理的朋友可能會注意到,GPT-5.4 的原生計算機操作能力其實與 OpenClaw 的思路高度相似:AI 需要看懂界面、操作軟件、完成任務。

      不過,GPT-5.4 更進一步,讓用戶跳過下載安裝和配置底層大模型等無法省略的步驟,直接體驗“開箱即用”,試圖取代當下這款最潮流的智能代理產品 。

      但這并非易事。若要取代 OpenClaw,OpenAI 要么解決 Agent 代理快速消耗 token 的問題,要么降低 token 成本。而目前看來,前者的希望會更大一些。

      總體來看,OpenAI 的選擇已經十分清晰:用高定價篩選高價值客戶,用生態合作和無門檻產品覆蓋大眾市場,用效率優化證明“貴有貴的道理”。

      但對于普通用戶來說,最好的策略仍然是:保持關注、理性評估、按需選擇。不必急于直接購買高價 API,極致的性價比才是 Agent 時代的方向。

      然而,我們最不能忽視那個正在發生的、靜悄悄的革命:OpenAI正在打造的,是一個以“Computer-Use”為核心,整合了長上下文、工具調用、推理與編碼能力的“AI操作系統”。

      當這個“操作系統”逐漸成熟,今天關于價格和OpenClaw的討論,都將只是歷史的注腳。世界還在為某一款應用的爆火而狂歡,但真正的操作系統之戰,已經打響了。

      轉載開白 | 商務合作 | 內容交流
      請添加微信:jinduan008
      添加微信請備注姓名公司與來意


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      小米手機大跌!出貨量下滑19%,汽車業務是「罪魁禍首」?

      小米手機大跌!出貨量下滑19%,汽車業務是「罪魁禍首」?

      雷科技
      2026-05-06 21:29:31
      瓦倫丁直播再爆料:在老東家獎金拿12%,在張雪拿65%差距太大了

      瓦倫丁直播再爆料:在老東家獎金拿12%,在張雪拿65%差距太大了

      童叔不飆車
      2026-05-08 12:09:38
      火箭隊傳聞:凱文·杜蘭特交易可能性極低

      火箭隊傳聞:凱文·杜蘭特交易可能性極低

      好火子
      2026-05-09 03:54:11
      7800億軍購案通過背后,藍營一人背棄鄭麗文,趙少康發起挑戰

      7800億軍購案通過背后,藍營一人背棄鄭麗文,趙少康發起挑戰

      一家說
      2026-05-09 08:18:44
      CNN:種種跡象表明穆帥即將回歸皇馬;他本人已完全做好準備

      CNN:種種跡象表明穆帥即將回歸皇馬;他本人已完全做好準備

      懂球帝
      2026-05-09 00:16:12
      兩名被俘中國“俄軍”遭遺棄!他們怎樣被騙進戰壕?還能回國嗎?

      兩名被俘中國“俄軍”遭遺棄!他們怎樣被騙進戰壕?還能回國嗎?

      大江看潮
      2026-05-08 09:53:30
      iPhone 17 為何成了 2026 年一季度全球最暢銷手機

      iPhone 17 為何成了 2026 年一季度全球最暢銷手機

      雙語解析Hub
      2026-05-09 09:04:23
      4月只賣了5100輛,廣汽本田這是要退場了?日本設計是真不懂中國

      4月只賣了5100輛,廣汽本田這是要退場了?日本設計是真不懂中國

      軒逸阿II
      2026-05-09 09:28:35
      五一去了趟廣州,不吹牛的說:廣州的地鐵就是全國頂尖的存在

      五一去了趟廣州,不吹牛的說:廣州的地鐵就是全國頂尖的存在

      水泥土的搞笑
      2026-05-08 11:02:52
      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      李橑在北漂
      2026-04-02 10:22:26
      騎士0-2落后又遭傷病打擊!哈登左手受傷冰敷 米切爾扭傷腳踝

      騎士0-2落后又遭傷病打擊!哈登左手受傷冰敷 米切爾扭傷腳踝

      羅說NBA
      2026-05-09 06:09:45
      諾維茨基又揭湖人老底!罰球紅利吃慣了,突然被拿捏還真不適應

      諾維茨基又揭湖人老底!罰球紅利吃慣了,突然被拿捏還真不適應

      小徐講八卦
      2026-05-09 07:43:33
      分文不給外面的情人和私生子,全部留給被他辜負了四十年的女人

      分文不給外面的情人和私生子,全部留給被他辜負了四十年的女人

      陳意小可愛
      2026-05-09 09:26:27
      馬斯克表示:他絕對能建造出比中國任何公共交通系統都更好的系統

      馬斯克表示:他絕對能建造出比中國任何公共交通系統都更好的系統

      華史談
      2026-04-14 13:00:13
      AI相關投資貢獻美國Q1 GDP增長份額67%,創下歷史紀錄

      AI相關投資貢獻美國Q1 GDP增長份額67%,創下歷史紀錄

      風向觀察
      2026-05-08 15:05:55
      吳石犧牲后,主席很后悔:最大錯誤就是沒集中兩個野戰軍攻打臺灣

      吳石犧牲后,主席很后悔:最大錯誤就是沒集中兩個野戰軍攻打臺灣

      興趣知識
      2026-05-05 16:02:25
      俄羅斯賺翻了,想不到的是,錢卻用來換人民幣?

      俄羅斯賺翻了,想不到的是,錢卻用來換人民幣?

      新財迷
      2026-05-08 11:45:54
      澤州4.26刑案嫌犯落網!逃亡四天后在山腰被抓,知情人披露案因

      澤州4.26刑案嫌犯落網!逃亡四天后在山腰被抓,知情人披露案因

      Likepres
      2026-05-07 21:03:43
      世界杯經典傳統落幕!國際足聯主席確認:帕尼尼球星貼紙時代終結

      世界杯經典傳統落幕!國際足聯主席確認:帕尼尼球星貼紙時代終結

      夜白侃球
      2026-05-08 09:59:07
      難怪中方遲遲不表態,美媒道出扎心真相:原來中方早看不上我們了

      難怪中方遲遲不表態,美媒道出扎心真相:原來中方早看不上我們了

      十夏九漓
      2026-05-08 14:56:10
      2026-05-09 09:59:00
      錦緞研究院 incentive-icons
      錦緞研究院
      專注上市公司價值發現與傳播
      2513文章數 10829關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      媒體:沙特被美國激怒 海灣國家或將深化與中國關系

      頭條要聞

      媒體:沙特被美國激怒 海灣國家或將深化與中國關系

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      白宮:特朗普計劃5月14日至15日訪問中國

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態度原創

      旅游
      親子
      藝術
      教育
      數碼

      旅游要聞

      花香漫冰城

      親子要聞

      看完這個視頻,你真的會笑~ 把好運都藏在笑容里

      藝術要聞

      清風拂面,心曠神怡

      教育要聞

      這些專業持續火爆,底層邏輯是什么?

      數碼要聞

      ARCTIC推出P12 Pro LN系列風扇:低噪聲優化,支持低負載停轉

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产又色又爽无遮挡免费动态图| 亚洲午夜成人精品电影在线观看| 国产AV一二三区| 无码日韩av一区二区三区| 丁香五月婷激情综合第九色| 欧洲一区二区中文字幕| 在熟睡夫面前侵犯我在线播放| 一本色道久久综合亚洲精品图片| 亚洲精品国偷自产在线99正片| 爽爽午夜福利一区二区| 免费超爽大片黄| 国产色AV| 无码另类小说| 2025精品偷拍视频| 亚洲最大日韩精品一区| 97午夜理论电影影院| 亚洲精品久荜中文字幕| 天堂av在线播放免费| 欧洲无码AV| 午夜狼友| 国产精品麻豆欧美日韩ww | 中文字幕日韩精品一区| av诱惑一区二区三区| 香蕉久久国产精品免| 97超碰人人操| 日本久久二区三区四区五区| 91插插| 成人精品天堂一区二区三区| 中文字幕一区二区久久综合| 久久精品国产亚洲av麻豆四虎| 久久国模吧| 第一宅男AV导航| 人妻无码∧V一区二区| 美日韩在线视频一区二区三区| 日韩AV一区二区三区| 久久综合九色综合欧洲98| 亚洲AV一二区| 国产永久AV福利在线观看| 一本加勒比hezyo无码专区| 亚洲自拍偷拍一区二区三区| 亚洲视频中文字幕|