<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      Google與康奈爾用1726篇論文測試大模型理解科學的極限

      0
      分享至



      編輯丨&

      在過去幾年里,大語言模型已經在寫作、編程和知識問答上展示出驚人的能力。它們可以總結論文、解釋概念,甚至提出科研假設。

      但一個關鍵問題始終存在:

      當面對真正的科學研究問題時,這些模型是否真的「理解」科學?

      為了回答這個問題,Google Research 與康奈爾大學的一組物理學家設計了一場不同尋常的實驗: 不是用考試題,也不是用標準 AI benchmark,而是直接把真實的科學研究問題交給大語言模型。

      他們選擇的測試領域是高溫超導。這個研究方向擁有幾十年的理論爭論、復雜的實驗結果以及大量彼此矛盾的解釋,被認為是凝聚態物理中最難理解的問題之一。如果一個 AI 模型真的能夠理解科學文獻,那么它應該能在這樣的領域中給出接近專家水平的回答。

      于是,一場前所未有的測試開始了。

      這些研究內容以「Expert evaluation of LLM world models: A high-T(c) superconductivity case study」為題,于 2026 年 3 月 10 日發布在《Proceedings of the National Academy of Sciences》。



      論文鏈接:https://www.pnas.org/doi/10.1073/pnas.2533676123

      專家級科學考試

      高溫超導是自 1987 年諾貝爾獎發現以來的一個開放研究領域。本次研究案例中的銅酸鹽便是已知的相關材料之一。它可在遠高于傳統超導材料的溫度下導電零電阻的電子(即使最高溫度閾值仍為 -140℃),理解這種行為背后的機制,可能有助于發現更多具有類似性質的化合物,甚至可能在更高溫度下,并為更多應用鋪平道路。

      研究團隊邀請了共計六個大型語言模型,包括四個完全訪問網絡的模型與兩個封閉系統。他們首先構建了一套高度專業化的知識基礎,整理了1,726 篇關于銅氧化物高溫超導體(cuprates)的研究論文,覆蓋這一領域幾十年的實驗和理論成果,并在此基礎上設計了一組67 個專家級研究問題



      圖示:封閉系統的創建。

      這些問題將在六個指標上對模型進行評判:

      • 平衡視角:是否考慮了不同的科學觀點。
      • 全面性:事實深度且不遺漏相關實驗。
      • :提供簡明明快的答案。
      • 證據:有證據支持,并附有來源鏈接。
      • 視覺相關性:任何提供圖像的質量(適用于持續包含圖像的兩個大型語言模型)。
      • 定性反饋:開放式專家評論。



      圖示:文獻數據庫的組成。

      AI 能讀懂論文,但不一定理解科學

      實驗結果呈現出一個耐人尋味的圖景。

      在某些問題上,大語言模型確實表現出令人印象深刻的能力。它們能夠快速總結多篇論文的結果,提取關鍵實驗結論,并組織出結構清晰的回答。尤其是在使用檢索增強系統(RAG)的情況下,一些模型的表現甚至超過了傳統閉源模型,在多個指標上取得更高評分。



      圖示:六名大型語言模型在回答專家提出的問題時的平均得分。

      不過,盡管 RAG 系統表現更優,但專家們在評估中指出了所有模型的共同且嚴重的局限性,揭示了它們與「真正理解」的差距:模型常能找到包含相同關鍵詞的論文,卻無法建立概念上的聯系;模型會不加區分地引用早期和近期的文獻,無法識別出某些早期結論已被后續研究修正。

      最后,所有模型都有一個顯著的短板:雖然自定義 RAG 系統能返回相關圖片,但它無法像人類專家那樣,從圖像的坐標軸、刻度、標尺、圖注和曲線趨勢中定量地提取信息并進行推理

      通向可信 AI 科學助手的漫漫長路

      盡管當前模型仍存在局限,這項研究并不意味著 AI 在科學研究中沒有價值。

      事實上,AI 可以協助瀏覽大量文獻,總結實驗結果。在材料科學等領域,一些研究已經開始利用 LLM 從論文中自動提取實驗數據,并構建新的材料數據庫。這些工作表明,AI 可能成為科學發現流程中的一種新工具,但真正的科學推理仍然需要人類專家的參與。

      https://research.google/blog/testing-llms-on-superconductivity-research-questions/

      聲明:包含AI生成內容

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      日本91歲退役老兵放言:若有機會要繼續侵略中國,說出三個原因

      日本91歲退役老兵放言:若有機會要繼續侵略中國,說出三個原因

      抽象派大師
      2026-05-20 01:33:40
      影后視后都在追《主角》!柯藍夸孫浩該得金獎,觀眾入戲集集飆淚

      影后視后都在追《主角》!柯藍夸孫浩該得金獎,觀眾入戲集集飆淚

      露珠聊影視
      2026-05-21 18:59:50
      連續19天,太陽異乎尋常地向宇宙輸出了一個強烈信號

      連續19天,太陽異乎尋常地向宇宙輸出了一個強烈信號

      星空天文
      2026-05-20 08:00:57
      建國后,被問當年為何沒殺掉毛主席,趙恒惕苦笑:他的能量太大了

      建國后,被問當年為何沒殺掉毛主席,趙恒惕苦笑:他的能量太大了

      談古論今歷史有道
      2026-05-21 08:10:03
      新華網評多位知名教授被舉報論文造假:領軍者失守一寸,跟隨者便可能潰退一丈

      新華網評多位知名教授被舉報論文造假:領軍者失守一寸,跟隨者便可能潰退一丈

      澎湃新聞
      2026-05-21 19:36:18
      WNBA:李月汝末節稱霸,全場最高+18,戰勝舊主

      WNBA:李月汝末節稱霸,全場最高+18,戰勝舊主

      體娛荒原
      2026-05-21 12:14:25
      “日本民航將不能過境中國”?誰在給日本民粹右翼遞彈藥

      “日本民航將不能過境中國”?誰在給日本民粹右翼遞彈藥

      觀察者網
      2026-05-21 16:49:06
      洛杉磯最大懸念揭曉!不是樊振東回不回歸,這兩個人正式上位了

      洛杉磯最大懸念揭曉!不是樊振東回不回歸,這兩個人正式上位了

      酷侃體壇
      2026-05-21 09:53:10
      最新慈銘北京百萬人群健康體檢數據出爐,肺結節檢出率居首

      最新慈銘北京百萬人群健康體檢數據出爐,肺結節檢出率居首

      新京報
      2026-05-21 11:40:53
      歐盟要對中國動手?商務部靈魂拷問:你們的商品哪個不是產能過剩

      歐盟要對中國動手?商務部靈魂拷問:你們的商品哪個不是產能過剩

      菁菁子衿
      2026-05-21 19:58:19
      數十名防汛救災人員忙到晚上10點半到餐館吃飯 即將打烊的店主夫妻叫來活魚、蔬菜熱情招待

      數十名防汛救災人員忙到晚上10點半到餐館吃飯 即將打烊的店主夫妻叫來活魚、蔬菜熱情招待

      閃電新聞
      2026-05-21 21:18:49
      《主角》張嘉益哭到哽咽,劉浩存全程眼神呆滯,老戲骨都帶不動

      《主角》張嘉益哭到哽咽,劉浩存全程眼神呆滯,老戲骨都帶不動

      一娛三分地
      2026-05-20 14:20:51
      特朗普要搞大動作,突破47年對臺禁令?

      特朗普要搞大動作,突破47年對臺禁令?

      經點星娛
      2026-05-21 15:06:56
      騎士、尼克斯更新明日傷病;哈登不如布倫森!騎士勝率僅20%!

      騎士、尼克斯更新明日傷病;哈登不如布倫森!騎士勝率僅20%!

      郝小小看體育
      2026-05-21 19:06:03
      深蹲,被嚴重低估了!研究提示:每天堅持5分鐘,能預防6種疾病

      深蹲,被嚴重低估了!研究提示:每天堅持5分鐘,能預防6種疾病

      增肌減脂
      2026-04-30 19:15:09
      小米YU7 GT正式發布,售價38.99萬元

      小米YU7 GT正式發布,售價38.99萬元

      界面新聞
      2026-05-21 20:22:32
      換機無數才敢說真話:iPhone 14 Pro Max,才是蘋果無可替代的巔峰

      換機無數才敢說真話:iPhone 14 Pro Max,才是蘋果無可替代的巔峰

      叮當當科技
      2026-05-10 15:22:07
      深圳大外援14分15板6帽化身定海神針 末節拼到抽筋燃盡一戰

      深圳大外援14分15板6帽化身定海神針 末節拼到抽筋燃盡一戰

      狼叔評論
      2026-05-21 22:06:05
      北京協和專家:2塊錢的維生素B12,是失眠的頂尖藥,便宜又管用!

      北京協和專家:2塊錢的維生素B12,是失眠的頂尖藥,便宜又管用!

      健康科普365
      2026-05-19 09:25:22
      自盡前,她跪請丈夫:一定將孩子撫養成人!自盡時,丈夫躺床裝睡

      自盡前,她跪請丈夫:一定將孩子撫養成人!自盡時,丈夫躺床裝睡

      興趣知識
      2026-05-20 00:41:43
      2026-05-21 23:39:00
      ScienceAI incentive-icons
      ScienceAI
      關注人工智能與其他前沿技術
      1307文章數 227關注度
      往期回顧 全部

      科技要聞

      小米YU7 GT正式發布:售價38.99萬元

      頭條要聞

      叔侄倆將溺亡男子送回家離開 3天后男子被發現已腐爛

      頭條要聞

      叔侄倆將溺亡男子送回家離開 3天后男子被發現已腐爛

      體育要聞

      常住人口7000的小鎮,擁有了一支德甲球隊

      娛樂要聞

      反轉!金秀賢與金賽綸未成年時交往不實

      財經要聞

      潮水退去,裸泳的一定不止五糧液

      汽車要聞

      后驅+閃充+激光雷達 第三代元PLUS上市售11.99萬元起

      態度原創

      游戲
      家居
      手機
      公開課
      軍事航空

      封神!被T1粉絲嫌棄的天才AD,達成LOL歷史成就,尺帝gala被超越

      家居要聞

      風格碰撞 個性與藝術

      手機要聞

      AYANEO Pocket AIR Mini安卓掌機Arcade Home聯名款發布,739元起

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗警告:任何新襲擊將促使戰場擴大到中東以外

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 美女国产爆浆精品视频| 人人天天久久| 妺妺窝人体色www聚色窝| 女人张开腿让男人桶爽| 99re国产| 正宁县| 久久精品国产亚洲7777| 国产精品男女午夜福利片| 欧美黑吊大战白妞| 久久国内精品自在自线观看| 国产精品久久久久久久久久| 亚洲综合成人一区二区三区| 跪求黄色网址| 狼友视频国产精品首页| 四川丰满少妇无套内谢| 国产56页| 日本激情网址| 熟妇在线| 欧美日韩中文字幕视频不卡一二区| 亚洲伊人久久精品酒店| 国产性生大片免费观看性| 91成人视频在线观看| 谷城县| 亚洲色欲色欲www在线看| 97久久精品无码一区二区| 多人乱p视频在线免费观看| 天天干天天日三级| 国产 在线播放无码不卡| 亚洲男人天堂2021| 亚洲偷自拍国综合| 久久久久国产一区二区三区| 国产精品一久久香蕉国产线看| 最近免费中文字幕大全免费版视频| av天堂亚洲天堂亚洲天堂| 无码人妻一区| 亚洲人jizz日本jiz人| 被窝影院午夜无码国产| 亚洲精品区二区三区蜜桃| 一区二区三区人妻av| 国产短视频精品区第一页| 亚洲精品mv免费网站|