<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      大模型刷爆所有考試,卻離AGI更遠了:這篇論文拆穿了什么?

      大模型刷爆所有考試卻離AGI更遠了

      0
      分享至


      如果有人告訴你,AGI(通用人工智能)已經(jīng)實現(xiàn)了,你怎么判斷他是在說真話,還是在吹牛?

      在OpenAI與微軟曝光的秘密協(xié)議里,這把尺子是財務(wù)報表——開發(fā)出能產(chǎn)生至少1000億美元利潤的AI系統(tǒng)就算AGI。而在黃仁勛嘴里,這把尺子是時間——五年內(nèi)必現(xiàn);馬斯克更是屢次放出“明年達成”的預(yù)言。

      行業(yè)大佬們各說各話,根源不在于誰在說謊,而在于AGI這個概念本身,根本就沒有一把公認的尺子。正如AGI研究領(lǐng)域中一位有獨立思考的研究者Bennett在論文中所說,AGI已被炒作和猜測還原成了“羅夏墨跡測試”——每個人看到的只是自己心里的想象,而非客觀事實;而圣塔菲研究所科學家Melanie Mitchell也認為,這場辯論只能通過長期的科學研究來厘清。(附論文地址:https://arxiv.org/pdf/2503.23923)

      這是AI行業(yè)當下最荒誕的困境:我們正在全速狂奔,去追逐一個連終點線都沒畫清楚的目標。

      2025,誰在重畫AGI的起跑線?

      面對這種定義真空,學術(shù)界在2025年開始密集“補位”。Bengio等學者強調(diào)“多功能性”和“熟練度”;DeepMind提出“分布式AGI”,試圖打破單體全能的迷思。

      但澳大利亞國立大學的研究員Michael Timothy Bennett,在3月底提交到arXiv的一篇論文中,給出了一個極具挑釁性卻也最切中肯綮的答案。

      他指出,前人的定義繞來繞去,依然在跟“受過教育的成年人”較勁。Bennett采納了學者Pei Wang對智能的定義——將智能視為有限資源下的適應(yīng)能力——從根本上跳出了“像人”的框架,并將AGI定義為一種“人工科學家”。

      他提出,真正的AGI應(yīng)當是一個能在計算、記憶和能量等現(xiàn)實約束下,像人類科學家一樣廣泛、高效且科學地適應(yīng)新環(huán)境和任務(wù)的系統(tǒng)。

      這句話的潛臺詞是:評判AGI的標準,不該是它模仿人類有多像,而是它“發(fā)現(xiàn)新知”的能力有多強。

      為什么急需一把新尺子?因為舊尺子——圖靈測試和人類基準測試——已經(jīng)被大模型刷爆了,但我們卻離真正的通用智能越來越遠。

      2025年,如果你問一個頂尖大模型“9.11和9.9哪個大”,它依然可能信誓旦旦地告訴你9.11大,因為11大于9。在解決復(fù)雜的數(shù)學不等式證明時,大模型即便蒙對了答案,推理過程也往往是邏輯崩潰的。

      Bennett一針見血地指出了病因:當前的大模型走的是“規(guī)模最大化的近似”路線——用海量數(shù)據(jù)和算力,把各種任務(wù)的近似答案提前存在網(wǎng)絡(luò)權(quán)重里。一旦遇到?jīng)]見過的分布外問題,就立刻露餡。

      更致命的是,大模型沒有“主動能力”。它無法主動做實驗驗證猜想,無法自主構(gòu)建因果鏈條,更無法在“繼續(xù)探索”與“利用已知”之間做權(quán)衡。

      回到9.11和9.9的比較——大模型不是不會算術(shù),而是它根本沒有建立關(guān)于數(shù)字比較的因果模型。它只是在用概率去猜那個它見過的、最接近的文本片段。

      “模仿能力”與“適應(yīng)能力”之間的鴻溝,正是新AGI標準想要測量的核心。

      智能的新刻度:拆解“人工科學家”

      Bennett的這套標準之所以值得重視,是因為他把AGI從一個模糊的哲學命題,降維成了可量化的工程問題。

      在他看來,一個真正的AGI,其行為模式應(yīng)該完美對齊人類科學家的研究范式:

      第一,從“提線木偶”到“主動實驗者”。

      今天的AI是徹頭徹尾的被動學習者,只能“看”人類喂給它的數(shù)據(jù)。但科學家不是,如果一個科學家被鎖在一個陌生房間里,他絕不會站在原地等信息,而是會去推門、拉把手、檢查窗戶——這就是“主動實驗”。真正的AGI,必須能自主規(guī)劃實驗,通過主動交互獲取關(guān)鍵信息。

      第二,從“知其然”到“知其所以然”。

      這是當前AI最大的短板。大模型是極端的“相關(guān)性學習器”,它知道“下雨”常伴隨“地濕”,但不知道是誰導(dǎo)致了誰。只有理解了因果,才懂得在晴空萬里但地面濕潤時,推斷出是灑水車經(jīng)過而非即將下雨。沒有因果理解,AI永遠只能在訓練數(shù)據(jù)的分布內(nèi)打轉(zhuǎn),這與“通用”毫不相干。

      第三,在“探索”與“利用”之間走鋼絲。

      如果只探索不利用,掌握再多知識也解決不了眼前問題;如果只利用不探索,環(huán)境一變就束手無策。AGI必須在資源受限下動態(tài)平衡這對矛盾——知道自己不知道什么,并據(jù)此分配算力。

      此外,Bennett還加入了一個極具現(xiàn)實感的維度:能量限制。把“能量”寫進定義,意味著他劃清了一條底線:真正的智能不是擁有無限資源,而是在有限資源下優(yōu)雅地適應(yīng)。需要消耗一座核電站才能解決新問題的AI,只是昂貴的計算器,不是AGI。

      通向AGI的路線重置:告別單一Scaling Law

      基于上述框架,Bennett把當前構(gòu)建智能系統(tǒng)的元方法拆解為三類:

      Scale-maxing(規(guī)模最大化):當前主流的大模型路線,拼命堆參數(shù)、數(shù)據(jù)和算力。但瓶頸已經(jīng)顯現(xiàn):樣本和能量效率極低。

      Simp-maxing(簡單性最大化):追求模型結(jié)構(gòu)的極致簡潔,信奉奧卡姆剃刀。但簡單性是形式的屬性而非功能的屬性——不同圖靈機下的“最簡”可能完全不同,使其難以擺脫主觀性陷阱。

      W-maxing(約束弱化最大化):盡可能弱化功能約束,讓系統(tǒng)自行尋找最優(yōu)解。實驗表明,僅W-maxing就能在特定任務(wù)上實現(xiàn)110%-500%的泛化率提升,但它需要搜索無限的硬件形態(tài)空間,優(yōu)化難度極高。

      Bennett的結(jié)論極其清晰:盡管Scale-maxing目前占據(jù)絕對主導(dǎo),但AGI絕不是靠單一路線的暴力美學能達成的,它必然是多種元方法的融合。

      如果“人工科學家”的定義被廣泛接受,AI行業(yè)將迎來一次深層的范式轉(zhuǎn)移。

      評判標準將徹底改變。我們不再需要看大模型在人類考試排行榜上又超了多少分,而是建立一套“適應(yīng)性基準”:把AI扔進一個從未見過的物理環(huán)境,看它能否在有限交互內(nèi)發(fā)現(xiàn)規(guī)律;給它一個新游戲,看它能否比人類更快理解規(guī)則;甚至讓它去解決真實的科學問題,看它能否自主提出假說并設(shè)計實驗驗證。核心不再是“你知道多少”,而是“你能發(fā)現(xiàn)多少”。

      技術(shù)路線也將隨之轉(zhuǎn)向。單純的Scaling Law很快會觸頂,因為被動接收的數(shù)據(jù)喂不出因果性。搜索與近似、規(guī)模最大化與約束弱化——AGI的達成必然是多種工具和元方法的融合,而非單一路線的延伸。

      Bennett的論文之所以重要,不是因為他給出了AGI的終極答案,而是他把這面名為“智能”的模糊鏡子擦干凈了一角。他讓我們看到,AGI的實現(xiàn)不是大模型的線性迭代,而是一次路線重置。

      AGI到底該是什么樣?答案不在那些越來越像人的對話,而在那些能夠主動追問“為什么”、并親手去驗證答案的能力中。當AI真正走出“羅夏墨跡測試”的迷霧,它將不再只是模仿人類的樣子,而是擁有科學家的精神。(本文首發(fā)鈦媒體APP,作者 | 硅谷tech news,編輯 | 趙虹宇)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      歐盟27國抱團卡中國脖子,中方公告一出,法國空客的百億大單懸了

      歐盟27國抱團卡中國脖子,中方公告一出,法國空客的百億大單懸了

      今日搞笑分享
      2026-05-28 00:07:38
      央企會大批量疏解到雄安嗎?知乎網(wǎng)友:有央企“雄安總部”只有邊緣部門

      央企會大批量疏解到雄安嗎?知乎網(wǎng)友:有央企“雄安總部”只有邊緣部門

      六子吃涼粉
      2026-05-27 17:19:22
      工廠罷工情緒嚴重,公司鼓勵員工離職,網(wǎng)友:再鬧螺絲都沒得打!

      工廠罷工情緒嚴重,公司鼓勵員工離職,網(wǎng)友:再鬧螺絲都沒得打!

      燈錦年
      2026-05-28 13:08:17
      NBA票選歷史第一人:科比得票率6.8%,詹姆斯排名暴漲

      NBA票選歷史第一人:科比得票率6.8%,詹姆斯排名暴漲

      錢說體育
      2026-05-28 12:45:04
      71歲張國立喜訊剛至,43歲巨嬰兒子惹新事

      71歲張國立喜訊剛至,43歲巨嬰兒子惹新事

      夢在深巷qw
      2026-05-28 09:28:02
      10年前,在自家挖出魚泉的李常權(quán),靠賣魚發(fā)家致富,如今怎么樣了

      10年前,在自家挖出魚泉的李常權(quán),靠賣魚發(fā)家致富,如今怎么樣了

      蕭竹輕語
      2025-01-11 17:14:16
      豬大腸被關(guān)注!研究發(fā)現(xiàn):糖尿病患者常吃豬大腸,或有5種變化

      豬大腸被關(guān)注!研究發(fā)現(xiàn):糖尿病患者常吃豬大腸,或有5種變化

      芹姐說生活
      2026-05-01 14:34:43
      大瓜!廣發(fā)百億基金經(jīng)理遭實名舉報,網(wǎng)友:張雪峰的話含金量上升

      大瓜!廣發(fā)百億基金經(jīng)理遭實名舉報,網(wǎng)友:張雪峰的話含金量上升

      火山詩話
      2026-05-27 14:48:31
      景甜代孕和我們理解的“借腹生子”完全不是一回事。

      景甜代孕和我們理解的“借腹生子”完全不是一回事。

      歲月有情1314
      2026-05-25 16:18:34
      中國工程院撤銷張堯?qū)W院士稱號

      中國工程院撤銷張堯?qū)W院士稱號

      界面新聞
      2026-05-25 21:36:51
      抗戰(zhàn)時有干部不滿意毛主席每天能有一個肉菜,陳云如何給他解釋?

      抗戰(zhàn)時有干部不滿意毛主席每天能有一個肉菜,陳云如何給他解釋?

      阿器談史
      2026-05-28 11:03:11
      35死40傷!以色列發(fā)起斬首行動,美軍連夜開火,普京:伊朗或上當

      35死40傷!以色列發(fā)起斬首行動,美軍連夜開火,普京:伊朗或上當

      共工之錨
      2026-05-28 12:20:29
      歐協(xié)聯(lián)+歐聯(lián)杯已到手,阿森納若奪歐冠,英超將稱霸歐洲足壇

      歐協(xié)聯(lián)+歐聯(lián)杯已到手,阿森納若奪歐冠,英超將稱霸歐洲足壇

      呀古銅
      2026-05-28 12:45:20
      愛比胭脂薄!封瀟瀟死的那晚,楚嘉禾忙著用身體換“楚主任”頭銜

      愛比胭脂薄!封瀟瀟死的那晚,楚嘉禾忙著用身體換“楚主任”頭銜

      阿握聊事
      2026-05-21 17:28:44
      承諾“不限次數(shù)”,就該接住顧客的“天天來”

      承諾“不限次數(shù)”,就該接住顧客的“天天來”

      南風不及你溫柔
      2026-05-16 01:02:57
      不擊沉就是生窩囊氣?荷蘭軍艦闖西沙根本不是孤狼行為

      不擊沉就是生窩囊氣?荷蘭軍艦闖西沙根本不是孤狼行為

      阿龍聊軍事
      2026-05-28 10:32:40
      原版身材就是頂!伊芙體模親自下場cos

      原版身材就是頂!伊芙體模親自下場cos

      奶兇的小霸王
      2026-05-26 15:47:03
      4類肥皂被列入致癌黑名單,長期用或有致癌風險?告訴你真相

      4類肥皂被列入致癌黑名單,長期用或有致癌風險?告訴你真相

      敘說醫(yī)療健康
      2026-05-28 10:00:24
      在西藏遇到白色帳篷,為啥要躲著?老牧民直言:進去誰也幫不了你

      在西藏遇到白色帳篷,為啥要躲著?老牧民直言:進去誰也幫不了你

      抽象派大師
      2026-05-07 00:28:27
      《阿嬤》票房破10億只是開始,吳京、沈騰、謝霆鋒要掀起新高潮了

      《阿嬤》票房破10億只是開始,吳京、沈騰、謝霆鋒要掀起新高潮了

      皮皮電影
      2026-05-27 14:00:19
      2026-05-28 13:44:50
      鈦媒體APP incentive-icons
      鈦媒體APP
      獨立財經(jīng)科技媒體
      134237文章數(shù) 862197關(guān)注度
      往期回顧 全部

      科技要聞

      臺積電3納米下半年漲價15% 明年或再漲10%

      頭條要聞

      民進黨發(fā)言人稱受不了國臺辦 陳斌華回應(yīng)時戰(zhàn)術(shù)性喝水

      頭條要聞

      民進黨發(fā)言人稱受不了國臺辦 陳斌華回應(yīng)時戰(zhàn)術(shù)性喝水

      體育要聞

      如果雷霆拼圖是這水平 馬刺確實打不過

      娛樂要聞

      曝大嫂冒充七七同學,林俊杰刪掉合照

      財經(jīng)要聞

      長鑫科技IPO過會,市值會到幾萬億?

      汽車要聞

      限時補貼價9.28-10.98萬 MG 4X正式上市

      態(tài)度原創(chuàng)

      旅游
      數(shù)碼
      房產(chǎn)
      游戲
      軍事航空

      旅游要聞

      博主“硬剛”稻城亞丁:景區(qū)截斷38公里省道 必須交120元坐觀光車進入 當?shù)囟嗖块T已介入調(diào)查

      數(shù)碼要聞

      三星Galaxy Watch 9與Ultra 2泄漏匯總 或支持無創(chuàng)血糖監(jiān)測

      房產(chǎn)要聞

      突發(fā)重磅!三亞新機場公司正式成立!

      V社官宣掌機漲價1千6!黑心商人割韭菜還是心里苦?

      軍事要聞

      美鎖定伊朗打擊新目標 考慮重啟軍事行動

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 国产熟女掹操| 无码专区人妻系列日韩视频| 年轻女教师hd中字3| 国产精品片AV片在线观看| 亚洲无码一| 4hc44四虎在线永久地址| 午夜DY888国产精品影院| 97人人干| 国产麻豆成人传媒免费观看| 日韩A级片| 老司机夜间福利| 玩两个丰满老熟女久久网| 亚洲精品在线中文字幕| 周至县| 少妇人妻88久久中文字幕| 最近最好的2019中文| 日韩高清亚洲日韩精品一区二区 | 亚洲这里只有久热精品伊人| 欧美一级aaa| 亚洲中文日韩天天嗨| 日本高清色WWW网站色噜噜噜| 国产高清在线不卡一区| 久久综合2025| 久久99精品国产麻豆婷婷| 国产有码一区二区三区| 国产综合精品一区二区三区| 四虎在线永久免费看精品| 偷拍精品一区二区三区| 在线成人H网| 男的吃女的下面gif动态图| 九九在线精品国产| 3P在线看| 人人爽亚洲aⅴ人人爽av人人片| 久久精品国产99久久3d动漫| 亚洲综合色成在线播放| 欧美成人午夜性视频| 欧美激情a∨在线视频播放| 911国产自产精品a| 九九天堂| 日韩精品 在线 国产 丝袜| 精东A片成人影视|