<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      有人只用API就猜出了GPT、Claude、Gemini的參數(shù)量?社區(qū)吵翻了

      0
      分享至



      機(jī)器之心編輯部

      最近,研究人員李博杰在 arXiv 發(fā)布論文,提出一個名為「不可壓縮知識探針」的評測框架,嘗試僅通過黑盒 API 調(diào)用,來逆向估算任意 LLM 的參數(shù)規(guī)模。



      • 論文標(biāo)題:Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity
      • 論文地址:https://arxiv.org/pdf/2604.24827

      該研究的靈感源于一項(xiàng)持續(xù)三年的非正式測試。據(jù)李博杰介紹,其團(tuán)隊(duì)成員長期向各代主流大模型提出同一個冷門問題:「你了解中科大 Hackergame 嗎?」(一項(xiàng) CTF 網(wǎng)絡(luò)安全競賽)。



      跨越多個版本的觀察結(jié)果,直觀展示了模型對世界知識認(rèn)知的發(fā)展:2024 年 5 月,GPT-4o 對該賽事題目存在明顯的「幻覺」與編造;至 2025 年 2 月,Claude 3.7 Sonnet 已能準(zhǔn)確列出 2023 年賽季的 19 道題目;而到了 2026 年 4 月,多個前沿模型已能精確回憶起連續(xù)多屆賽事的具體細(xì)節(jié)。

      受此啟發(fā),在 DeepSeek-V4 發(fā)布后,研究團(tuán)隊(duì)利用 AI Agent 歷時四天自主構(gòu)建了完整的 IKP 正式數(shù)據(jù)集。該數(shù)據(jù)集包含 1400 個問題,按信息的稀缺程度劃分為 7 個層級,并在涵蓋 27 家廠商的 188 個模型上進(jìn)行了全面測試。

      研究的核心假設(shè)在于:模型的邏輯推理能力可以通過訓(xùn)練技巧被壓縮或蒸餾,但對冷門「事實(shí)性知識」的記憶容量則無法大幅壓縮,其主要取決于模型的物理參數(shù)規(guī)模。

      基于此,研究者在 89 個參數(shù)量已知的開源模型(規(guī)模從 1.35 億到 1.6 萬億參數(shù))上擬合出事實(shí)準(zhǔn)確率與參數(shù)量的對數(shù)線性關(guān)系,擬合優(yōu)度 R2 = 0.917,并據(jù)此對閉源模型進(jìn)行參數(shù)估算。

      根據(jù)該方法,論文給出的估算數(shù)字(90% 置信區(qū)間約為 0.3 至 3 倍)如下:

      • GPT-5.5:約 9 萬億參數(shù)
      • Claude Opus 4.7:約 4 萬億參數(shù)
      • GPT-5.4:約 2.2 萬億參數(shù)
      • Claude Sonnet 4.6:約 1.7 萬億參數(shù)
      • Gemini 2.5 Pro:約 1.2 萬億參數(shù)

      論文同時指出另外兩項(xiàng)發(fā)現(xiàn):

      一是引用數(shù)量和 h 指數(shù)并不能有效預(yù)測研究者是否被模型記住,模型更傾向于記住那些產(chǎn)生了領(lǐng)域性影響的工作,而非高產(chǎn)但影響相對分散的學(xué)者;

      二是跨越三年的 96 個開源模型數(shù)據(jù)顯示,事實(shí)記憶容量的時間系數(shù)在統(tǒng)計(jì)上接近于零,這與此前「Densing Law」所預(yù)測的效率隨時間提升的規(guī)律相悖,研究者據(jù)此認(rèn)為推理能力基準(zhǔn)趨于飽和,而事實(shí)容量仍主要受制于參數(shù)規(guī)模。

      這組直觀的數(shù)據(jù)迅速在技術(shù)社區(qū)傳播并引發(fā)廣泛討論,但也伴隨著巨大的爭議。



      有博主基于這組估算數(shù)據(jù),結(jié)合近期 Claude Opus 4.7 在部分長文本任務(wù)中的主觀體驗(yàn)波動,推演出一套完整的邏輯:Anthropic 因算力儲備不足(僅為 OpenAI 的四分之一),在訓(xùn)練 Mythos 模型后資源見底,被迫將 Opus 4.7 的參數(shù)量從上一代的 5.3T 「反向升級」閹割至 4T;而 OpenAI 則憑借充足的算力將 GPT-5.5 堆到了 9T,從而實(shí)現(xiàn)了體驗(yàn)上的反轉(zhuǎn)。



      也有多位研究者和從業(yè)者對估算數(shù)字及方法論提出了不同程度的質(zhì)疑。

      對于 GPT-5.5 約 9 萬億參數(shù)的估算,部分用戶認(rèn)為與實(shí)際服務(wù)能力不符,指出若規(guī)模真達(dá)到這一量級,OpenAI 現(xiàn)有基礎(chǔ)設(shè)施難以支撐此前的推出方式,且 GPT-5.4 到 GPT-5.5 的性能提升幅度與 10 倍參數(shù)差距并不匹配。有人認(rèn)為兩者規(guī)模比約在 2 倍左右更為合理。



      同時,定向引入「合成數(shù)據(jù)」進(jìn)行微調(diào),同樣能顯著提升模型對冷門知識的掌握度,這會直接干擾「事實(shí)知識不可壓縮」的核心前提。



      根據(jù)該方法估算,Gemini 2.5 Pro 和 Claude Sonnet 的規(guī)模約 1.7T,而行業(yè)已知國內(nèi)模型 Kimi k2.6 和 GLM 5.1 約為 800B。若參數(shù)差距僅在兩倍左右,單純的數(shù)據(jù)差異極難解釋目前兩者間的巨大性能鴻溝。



      此外,業(yè)內(nèi)長期流傳的 GPT-4 規(guī)模約 1.7T,這與論文估算的結(jié)果出入極大。



      發(fā)起討論的另一位 X 博主也補(bǔ)充說明:「這些數(shù)字不應(yīng)被視為事實(shí),置信區(qū)間非常大,我私下收到的反饋表明某些模型的估算可能相差甚遠(yuǎn)?!?/p>



      當(dāng)然,在爭議與質(zhì)疑之外,技術(shù)社區(qū)中也涌現(xiàn)出了許多極具建設(shè)性的正向探討。

      例如,有用戶認(rèn)為 MoE 架構(gòu)和稠密模型在知識壓縮效率上可能存在本質(zhì)不同(MoE 的事實(shí)可能被分散在不同專家中),建議將這兩類模型分開統(tǒng)計(jì)以觀察趨勢。







      對這組數(shù)據(jù)你怎么看?

      https://x.com/deedydas/status/2049523583517634862

      https://x.com/bojie_li/status/2049314403208896521

      https://www.zhihu.com/pin/2032769685012361774

      https://x.com/yiran2037840/status/2049827667034439821

      https://x.com/Yampeleg/status/2049573913399607711

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      第一集就全裸出鏡,女神新劇破格出演了

      第一集就全裸出鏡,女神新劇破格出演了

      來看美劇
      2026-04-27 16:21:10
      “窮人炫富,難掩心酸!”男大學(xué)生炫耀坐高鐵一等座,因長相被嘲

      “窮人炫富,難掩心酸!”男大學(xué)生炫耀坐高鐵一等座,因長相被嘲

      妍妍教育日記
      2026-04-24 09:05:03
      趙又廷一家三口五一出游,46歲高圓圓體態(tài)真好,散步都像在走臺步

      趙又廷一家三口五一出游,46歲高圓圓體態(tài)真好,散步都像在走臺步

      八怪娛
      2026-05-02 14:14:03
      一個收入不高的人,可以偽精致到什么程度?網(wǎng)友:天天為賬單發(fā)愁

      一個收入不高的人,可以偽精致到什么程度?網(wǎng)友:天天為賬單發(fā)愁

      另子維愛讀史
      2026-04-20 09:36:56
      我被上司開除,他不知我爸是董事長,我冷聲道:把你們董事長叫來

      我被上司開除,他不知我爸是董事長,我冷聲道:把你們董事長叫來

      千秋文化
      2026-04-30 18:51:16
      錢再多沒用!60歲企業(yè)家李建宏離世,死因曝光,朋友圈定格3天前

      錢再多沒用!60歲企業(yè)家李建宏離世,死因曝光,朋友圈定格3天前

      小蜜情感說
      2026-05-02 01:04:45
      恩愛24年逃不過現(xiàn)實(shí)!74歲梁錦松明顯衰老,48歲伏明霞依舊貌美

      恩愛24年逃不過現(xiàn)實(shí)!74歲梁錦松明顯衰老,48歲伏明霞依舊貌美

      拳擊時空
      2026-05-02 07:52:57
      穿南京球衣,《天龍八部》鳩摩智扮演者李國麟觀戰(zhàn)南京vs常州

      穿南京球衣,《天龍八部》鳩摩智扮演者李國麟觀戰(zhàn)南京vs常州

      懂球帝
      2026-05-02 20:27:18
      陳濤:浙江隊(duì)表現(xiàn)更好,我們防守問題比較大

      陳濤:浙江隊(duì)表現(xiàn)更好,我們防守問題比較大

      懂球帝
      2026-05-02 22:04:17
      都在盯中東!沒人發(fā)現(xiàn)中國這一鄰國已變天,給中方送上大禮?

      都在盯中東!沒人發(fā)現(xiàn)中國這一鄰國已變天,給中方送上大禮?

      小蘭聊歷史
      2026-05-01 16:07:43
      沙特聯(lián)提議球童穿未來夢想職業(yè)的服裝入場,結(jié)果22人僅1人夢想成為球員

      沙特聯(lián)提議球童穿未來夢想職業(yè)的服裝入場,結(jié)果22人僅1人夢想成為球員

      懂球帝
      2026-05-02 14:39:06
      上人民日報了:父母不懂英語,外商壓價,12歲女兒,全英語反殺!

      上人民日報了:父母不懂英語,外商壓價,12歲女兒,全英語反殺!

      川渝視覺
      2026-04-26 22:58:13
      真不靠譜,特朗普將戰(zhàn)爭不能結(jié)束歸咎于烏克蘭獲得3500億美元援助

      真不靠譜,特朗普將戰(zhàn)爭不能結(jié)束歸咎于烏克蘭獲得3500億美元援助

      山河路口
      2026-05-01 19:35:20
      回國后我才敢說:印尼是我去過的所有東南亞國家中,最被低估的

      回國后我才敢說:印尼是我去過的所有東南亞國家中,最被低估的

      千秋文化
      2026-04-28 20:20:16
      五一的莫氏雞煲現(xiàn)場爆滿:上午客人沒吃完,下午客人又開始排隊(duì),還有人花80元買號

      五一的莫氏雞煲現(xiàn)場爆滿:上午客人沒吃完,下午客人又開始排隊(duì),還有人花80元買號

      極目新聞
      2026-05-01 18:33:42
      最后時刻反超絕殺對手,“張雪機(jī)車”又奪冠了;其熱門車型正在參加湖南車展,“五一”假期可去打卡

      最后時刻反超絕殺對手,“張雪機(jī)車”又奪冠了;其熱門車型正在參加湖南車展,“五一”假期可去打卡

      三湘都市報
      2026-05-02 21:15:04
      馬筱梅攤牌了!正式與玥兒和箖箖姐弟切割!撕掉經(jīng)營多年后媽人設(shè)

      馬筱梅攤牌了!正式與玥兒和箖箖姐弟切割!撕掉經(jīng)營多年后媽人設(shè)

      一盅情懷
      2026-04-24 09:39:57
      廣東男子“硬核滅鼠”,在樓梯鋪滿100張粘鼠板:半年前用過這招,一次黏住了28只

      廣東男子“硬核滅鼠”,在樓梯鋪滿100張粘鼠板:半年前用過這招,一次黏住了28只

      臺州交通廣播
      2026-05-02 11:46:46
      首個退群北約的國家來了:已走程序,退意已決!

      首個退群北約的國家來了:已走程序,退意已決!

      福建睿平
      2026-04-27 11:46:08
      演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

      演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

      大眼妹妹
      2025-12-15 10:39:19
      2026-05-02 22:48:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12902文章數(shù) 142639關(guān)注度
      往期回顧 全部

      科技要聞

      AI熱潮耗盡庫存,Mac Mini起售調(diào)高200美元

      頭條要聞

      美媒:伊朗放寬與美國恢復(fù)和談的條件 暗示會做出妥協(xié)

      頭條要聞

      美媒:伊朗放寬與美國恢復(fù)和談的條件 暗示會做出妥協(xié)

      體育要聞

      休賽期總冠軍,輪到休斯頓火箭

      娛樂要聞

      高圓圓趙又廷游三亞 牽手逛街好甜蜜

      財(cái)經(jīng)要聞

      雷軍很努力 小米還是跌破了30港元大關(guān)

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態(tài)度原創(chuàng)

      教育
      藝術(shù)
      房產(chǎn)
      時尚
      軍事航空

      教育要聞

      如何幫助孩子恢復(fù)社交?一定要告訴他這個821定律!

      藝術(shù)要聞

      色塊與筆觸的激情之旅!

      房產(chǎn)要聞

      五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

      連衣裙還得是“法式”,性感嫵媚卻不輕浮

      軍事要聞

      特朗普:對伊戰(zhàn)事結(jié)束 無限期延長?;?/h3>

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 欧洲精品色在线观看| 欧美喷潮最猛视频| 亚洲网站一区| 欧美成人一区二区三区不卡| 国产亚洲精品福利在线无卡一| 天天综合成人| 欧美成人WWW在线观看| 丝袜美腿视频一区二区三区| 无码粉嫩虎白一线天在线观看 | 亚洲一卡二卡精久久| 国产高清视频一区三区| 国产av一区二区亚洲精品| 无码国内精品人妻少妇| 国产免费高清无需播放器| 推特国产午夜福利在线观看| 天天色欲综合| 日韩极品视频在线观看| 91国内精品久久精品一本| 東北老熟女黃色A片| 青春草一区二区在线| 亚洲中文字幕在线看| 日本三级理论久久人妻电影 | 污污网站18禁在线永久免费观看| 国产九九在线| AV成人电影一区| 毛片资源精品在线观看| 亚洲精品一二三伦理中文| 巨人精品福利官方导航| 免费精品美女久久久久久久久久| 国产一区在线播放av| 欧洲无码视频| 人妻精品视频| 日韩 欧美 在线高清| 午夜亚洲天堂| 一本色道精品久久一区二区三区| 亚洲精品美女久久777777| 深夜免费av在线观看| 国产成人AV男人的天堂| 中文字幕手机在线看片不卡| 亚洲综合无码一区二区| 久久亚洲精品11p|