<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      真正的人工智能代理與實際的工作

      0
      分享至

      以人為本的工作模式與無限PPT之間的競爭

      作者:Ethan Mollick 2025年9月30日

      人工智能已悄然跨越一道門檻:如今它們能完成真正具有經濟價值的實際工作。

      此前,OpenAI發布了一項新的人工智能能力測試。與以往圍繞數學或常識構建的基準測試不同,此次測試中,OpenAI召集了平均擁有14年行業經驗的專家——他們的領域涵蓋金融、法律、零售等。這些專家設計了一系列貼近實際的任務,這些任務人類專家平均需要4到7個小時才能完成。隨后,OpenAI讓AI和人類專家分別完成這些任務。另有一組專家對結果進行評分,且他們并不知道哪些答案來自人工智能、哪些來自人類,每個問題的評分過程約耗時 1 小時。

      人類專家最終勝出,但優勢微弱,且不同行業的勝負差異也很大。不過,人工智能的進步速度極快,較新的人工智能模型得分遠高于舊模型。有趣的是,人工智能輸給人類的主要原因并非幻覺或錯誤,而是結果格式不規范、未嚴格遵循指令——而這些領域正是人工智能進步迅速的方向。若當前趨勢持續,下一代人工智能模型在該測試中平均得分有望超過人類專家。這是否意味著人工智能已準備好取代人類工作?

      答案是否定的(至少短期內不會),因為該測試衡量的是“任務”,而非“工作”。我們的工作由多項任務構成。以我作為教授的工作為例,它并非單一事項,而是涵蓋教學、研究、寫作、填寫年度報告、輔導學生、閱讀、行政事務等多個方面。人工智能完成其中一項或多項任務,并不會取代我整個工作,而是改變我的工作內容。只要人工智能的能力仍存在短板,無法替代人類互動中的所有復雜工作,它就難以整體取代人類的工作……

      一項極具價值的任務

      ……但即便如此,人工智能目前能完成的部分任務已具備極高價值。不妨以我工作中的關鍵環節為例:開展精準的研究工作。正如許多人所知,學術界存在 “可復現性危機”——部分重要研究成果,其他研究者無法復現。學術界在解決這一問題上已取得一定進展,如今許多研究者會公開數據,方便其他學者復現自己的研究。但問題在于,復現研究需耗費大量時間:研究者需深入閱讀并理解論文、分析數據、細致檢查錯誤 1,這一復雜過程此前只有人類能夠完成。

      而現在,情況已發生改變。

      我將一篇涉及多項實驗的復雜經濟學論文文本,以及完整的研究復現數據集,輸入新版 Claude Sonnet 4.5(我擁有該模型的提前使用權)。除了上傳文件并給出指令外,我未進行任何額外操作。指令內容為:“根據上傳的數據集復現該論文中的研究結果,需獨立完成;若無法完整復現,可盡力完成力所能及的部分”。由于論文涉及復雜統計分析,我還補充了要求:“能否盡可能完整復現所有統計過程?”

      在無需進一步指令的情況下,Claude完成了一系列操作:閱讀論文、打開數據集文件并整理、將統計代碼從一種語言(STATA)轉換為另一種語言(Python)、系統梳理所有研究結果,最終報告成功復現研究結論。我抽樣核查了結果,并讓另一款人工智能模型 GPT-5 Pro再次復現該研究,結果均無誤。我還在其他多篇論文上進行了嘗試,均取得了類似的良好效果,僅部分論文因文件大小限制或復現數據本身存在問題,未能成功復現。若手動完成這些工作,需耗費數小時。

      但這一過程的革命性意義,并非僅在于節省時間。更重要的是,曾震動多個學術領域的 “可復現性危機”,本可通過研究復現部分解決,但此前這需要人類投入大量細致且高昂的精力,難以大規模推進。如今,人工智能似乎可對大量已發表論文進行核查、復現研究結果,這將對整個科學研究領域產生深遠影響。盡管目前仍存在障礙——如準確性與公平性基準的建立,但大規模復現研究已成為現實可能。研究復現或許只是人工智能能完成的一項“任務”,而非“工作”,但它極有可能徹底改變人類的整個研究領域。是什么讓這一切成為可能?答案是:人工智能代理的能力已迅速大幅提升。

      核心在于智能體

      自初代ChatGPT問世以來,生成式人工智能已幫助人們完成了大量任務,但始終存在一個局限:需人類用戶主導。人工智能會犯錯,若沒有人類在每一步進行指導,就無法完成有價值的工作。人們曾認為,“自主人工智能智能體”的愿景遙不可及——這類智能體在接收任務后,能自主規劃、使用工具(如編程、網絡搜索)完成任務。畢竟,人工智能存在犯錯可能,而智能體完成任務需經歷一連串步驟,只要其中一步出錯,整體任務就會失敗。

      但實際情況并非如此,另一篇新論文解釋了背后的原因。事實證明,我們對人工智能智能體的多數假設都是錯誤的。即便人工智能的準確性僅小幅提升(而新模型的出錯概率已大幅降低),也會使其可完成的任務數量大幅增加。此外,最新、最先進的“具備思考能力”的模型,實際上能自我修正,不會因單次錯誤而停滯。這些因素共同作用,使得人工智能代理可完成的步驟遠超以往,且無需人類大量干預就能使用工具——基本上,只要是計算機能完成的操作,它都能借助工具實現。

      值得關注的是,在過去幾年涵蓋從GPT-3到GPT-5等全系列人工智能模型的能力衡量標準中,METR測試是少數之一。該測試要求人工智能的準確率至少達到 50%。過去五年間,從GPT-3到GPT-5,模型在該測試中的得分呈穩定指數級增長,這體現出智能體工作能力的持續提升。



      如何利用人工智能創造經濟價值

      然而,從人類對“能動性”的定義來看,人工智能代理并不具備真正的能動性。目前,我們仍需決定如何使用它們,而這一選擇將在很大程度上決定未來的工作形態。所有人關注的風險,是人工智能取代人類勞動力——不難預見,未來幾年這將成為核心問題,尤其對于那些缺乏創新、只關注成本削減,而非利用這些新能力拓展或變革工作模式的機構而言。但在工作場景中使用人工智能,還存在第二個極有可能出現的風險:不假思索地用代理完成更多現有任務。

      為預判這一潛在問題,我曾將一份公司備忘錄輸入Claude,要求它將其轉化為PPT,隨后又要求從不同角度再制作一份,接著再制作一份……

      最終,我得到了17份不同的PPT。顯然,這已經過多了。

      如果我們不深入思考“為何要開展這項工作”“理想的工作模式應是什么樣”,所有人都將被海量人工智能生成的內容淹沒。

      那么,替代方案是什么?OpenAI的論文提出:專家可與人工智能協作解決問題——先將任務委派給人工智能完成初步版本,再審核其成果。若成果不理想,可嘗試多次修正或提供更清晰的指令;若仍無改善,則由人類親自完成任務。論文估算,若專家遵循這一工作流程,完成工作的速度將提升40%,成本降低 60%,更重要的是,人類能始終掌控人工智能的工作方向。

      人工智能代理現已問世。它們能完成實際工作,盡管能力仍有限,但已具備價值且在不斷提升。然而,這款能在幾分鐘內復現學術論文的技術,也能生成17份無人需要的PPT。這兩種未來的差異,并非源于人工智能本身,而在于我們選擇如何使用它。通過理性判斷 “哪些工作值得做”,而非僅關注“哪些工作能做到”,我們才能確保這些工具提升的是我們的能力,而非僅僅是效率。

      1 在不同研究領域,“復現(replicating)” 與 “重現(reproducing)” 的定義存在差異:前者可能涉及收集新數據,后者則可能使用現有數據。本文未深入探討這些區別,但在此次實驗中,人工智能不僅使用了現有數據,還對這些數據應用了新的統計方法。

      本文編譯自substack,原文作者Ethan Mollick

      https://www.oneusefulthing.org/p/real-ai-agents-and-real-work

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普乘專機離京:自己走正門 隨行人員走后門

      特朗普乘專機離京:自己走正門 隨行人員走后門

      看看新聞Knews
      2026-05-15 16:40:08
      中紀委再標紅線!公職人員下班后吃飯,這5種行為將被嚴肅處理!

      中紀委再標紅線!公職人員下班后吃飯,這5種行為將被嚴肅處理!

      細說職場
      2026-05-14 16:44:30
      為190元榴蓮“僅退款”千里討公道,商家“程大叔”公布行政處罰結果:女子偽造變霉圖片被行拘7日;對于是否提起訴訟,要看對方的認錯態度

      為190元榴蓮“僅退款”千里討公道,商家“程大叔”公布行政處罰結果:女子偽造變霉圖片被行拘7日;對于是否提起訴訟,要看對方的認錯態度

      大風新聞
      2026-05-15 13:32:13
      普京急眼了

      普京急眼了

      求實處
      2026-05-14 21:52:11
      諾蘭新作《奧德賽》最美女人海倫由黑人女星扮演

      諾蘭新作《奧德賽》最美女人海倫由黑人女星扮演

      3DM游戲
      2026-05-15 06:28:12
      半島聚焦丨中成藥迎“最嚴清退”!7月起超4萬種中成藥可能停產,健胃消食片等明星產品將淘汰?

      半島聚焦丨中成藥迎“最嚴清退”!7月起超4萬種中成藥可能停產,健胃消食片等明星產品將淘汰?

      半島官網
      2026-05-14 16:52:07
      重磅! 禁止PR領取澳洲17項福利, 只有公民能領! 還要大砍40%移民

      重磅! 禁止PR領取澳洲17項福利, 只有公民能領! 還要大砍40%移民

      澳微Daily
      2026-05-15 16:03:07
      消費者在神州租車平臺租車,因提前還車1分鐘被多收20元違約金;租車平臺:提前還車致優惠券不能使用,系統問題導致

      消費者在神州租車平臺租車,因提前還車1分鐘被多收20元違約金;租車平臺:提前還車致優惠券不能使用,系統問題導致

      山西經濟日報
      2026-05-15 11:16:53
      賣不動了,日系車集體退守中國

      賣不動了,日系車集體退守中國

      21世紀經濟報道
      2026-05-13 23:28:25
      血糖正在悄悄恢復正常?出現這5個跡象,恭喜你控糖成功在望

      血糖正在悄悄恢復正常?出現這5個跡象,恭喜你控糖成功在望

      汪醫生健康百科
      2026-05-13 17:26:48
      炸穿臺灣政壇!蔣友松強行遷走兩蔣懸棺,半世紀漂泊終要歸鄉

      炸穿臺灣政壇!蔣友松強行遷走兩蔣懸棺,半世紀漂泊終要歸鄉

      陳漎侃故事
      2026-04-14 17:28:18
      俄羅斯超大艦隊進入東海

      俄羅斯超大艦隊進入東海

      烽火觀天下
      2026-05-14 10:58:42
      全球接到消息,高官會在即,高市內閣搶先發聲,想要中方給個席位

      全球接到消息,高官會在即,高市內閣搶先發聲,想要中方給個席位

      滄海一書客
      2026-05-15 17:43:24
      巔峰時期的QQ有多“狂”?2008年,騰訊竟打算用Q幣給員工發工資

      巔峰時期的QQ有多“狂”?2008年,騰訊竟打算用Q幣給員工發工資

      荊楚寰宇文樞
      2026-05-14 23:20:07
      馬斯克現任美女伴侶:顏值逆天超驚艷,目前是他身邊最穩固的伴侶

      馬斯克現任美女伴侶:顏值逆天超驚艷,目前是他身邊最穩固的伴侶

      鄉野小珥
      2026-05-15 17:57:06
      馬斯克兒子“小X”為什么可以隨行?他為什么受馬斯克寵愛?

      馬斯克兒子“小X”為什么可以隨行?他為什么受馬斯克寵愛?

      楠楠自語
      2026-05-15 14:48:33
      帶女兒排3小時隊都玩不上,男子發飆質疑插隊特權!迪士尼最新回應,網友吵翻了……

      帶女兒排3小時隊都玩不上,男子發飆質疑插隊特權!迪士尼最新回應,網友吵翻了……

      19樓
      2026-05-14 15:24:10
      大數據下,拉什福德最適配下家出爐:不是巴薩、曼聯,也不是巴黎

      大數據下,拉什福德最適配下家出爐:不是巴薩、曼聯,也不是巴黎

      夜白侃球
      2026-05-15 10:09:49
      南審研究生案后續,同學再曝惡行,比偷拍更惡心,落此下場不冤!

      南審研究生案后續,同學再曝惡行,比偷拍更惡心,落此下場不冤!

      奇思妙想草葉君
      2026-05-14 13:32:44
      泰晤士:小貝首次以億萬富豪身份登英國富豪榜,身家13.62億歐

      泰晤士:小貝首次以億萬富豪身份登英國富豪榜,身家13.62億歐

      懂球帝
      2026-05-15 16:57:22
      2026-05-15 19:19:00
      Trend求索
      Trend求索
      大趨勢深刻求索
      86文章數 16關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      媒體:中美元首會晤"刷屏" 特朗普用3個詞談中美關系

      頭條要聞

      媒體:中美元首會晤"刷屏" 特朗普用3個詞談中美關系

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      本地
      手機
      藝術
      時尚
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      手機要聞

      蘋果618全系降價 iPhone 17 Pro系列直降1000

      藝術要聞

      敦煌挖出王羲之書法!全卷2000字清晰如新!

      56歲逆風翻盤,她怎么從全網群嘲變成了大家的天才女友?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品无码翘臀在线看纯欲| 日韩精品人妻中文字幕不卡乱码| 国产精品有码无码AV在线播放| 亚洲精品熟女| 激情综合色综合啪啪五月| 午夜美女裸体福利视频| 推油少妇久久99久久99久久 | 极品91在线嫩模| 欧美国产在线精品17p| 性久久久久久| 蜜臀av在线一区二区三区| 国产精品久久久久三级| 鄂尔多斯市| 伊人久久大香线蕉网av| 日韩精品一区二区亚洲专区| 亚洲中文字幕国产综合| 亚洲精品乱码久久久久久金桔影视| 国产91丝袜在线观看| 亚洲另类丝袜综合网| 成人一区二区三区激情视频 | www.天仙tv| 青青草免费在线播放视频五月天| 人妻少妇邻居少妇好多水在线 | 久久中文字幕一区二区| 狼人青草久久网伊人| 国产欧美日韩综合一区在线播放| 亚洲综合精品一区二区三区| 9久9久热精品视频在线观看| 香蕉av777xxx色综合一区| 亚洲国产成人资源在线桃色 | 亚洲国精产品| AV无码中文字幕不卡一二三区| 国产首页一区二区不卡| 亚洲一区亚洲二区| 久久人妻无码AⅤ毛片A| 成人黄色av播放免费| 日本污视频在线观看| 亚洲欧美综合一区二区三区| 无套内内射视频网站| 美国性爱视频| 免费国产一区二区不卡|