<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      中科大、科大訊飛開發ChemEval:化學大模型多維度能力評估新基準

      0
      分享至



      作者丨論文團隊

      編輯丨ScienceAI

      近年來,大語言模型在文本理解、知識問答和通用推理任務中展現出驚人的能力,也逐漸被引入到化學文獻分析、反應預測和分子設計等科學場景中。然而,一個關鍵問題長期被忽視:

      模型「看起來會化學」,是否真的具備化學研究所需的能力?

      現有主流評測基準(如 MMLU、SciEval 等)大多以通用學科或淺層科學問答為主,難以刻畫化學研究中高度專業、層次分明且跨模態的能力需求。即便是已有的化學評測工作,也往往局限于少量任務或單一能力維度,難以反映模型在真實科研場景中的綜合表現。

      針對這一核心缺口,認知智能全國重點實驗室聯合研究團隊 —— 中國科學技術大學陳恩紅教授團隊與科大訊飛研究院 AI for Science 團隊,在人工智能領域頂級國際會議 ICLR 2026 發表最新研究成果,論文提出了多層級、細粒度的化學能力評測框架 ChemEval,并系統性揭示了大語言模型在化學領域的真實能力邊界。

      該工作為 AI for Science 方向中「如何科學地評估大模型是否真正理解化學」這一核心問題,提供了完整、可復現且具有學術深度的答案。



      論文地址:https://openreview.net/forum?id=JrqjSkEPrX

      論文的主要作者為中國科學技術大學博士生黃育慶、張榮楊,所屬認知智能全國重點實驗室陳恩紅教授團隊,其他作者包括科大訊飛 AI 研究院執行院長王士進、副院長李鑫、研究員徐飛揚、梁華東等人。團隊在 AI4Chemistry 領域開展深入研究,具體包括化學推理大模型 post-training、化工大模型 DeepReasearch、化學大模型智能體、化學領域大模型評測等。

      ChemEval —— 從化學研究者視角出發的評測體系

      ChemEval 并非簡單堆疊題目,而是圍繞化學研究的認知過程,構建了一套四層遞進式評測結構:

      • 基礎與進階化學知識問答:考察模型對核心化學概念、定量計算與理論知識的掌握;
      • 化學文獻理解與信息抽取:評估模型從論文、表格和圖像中提取關鍵信息并進行歸納生成的能力;
      • 分子層級理解:覆蓋分子命名、結構轉換、性質預測與描述等核心分子認知任務;
      • 科學推理與化學推斷:包括逆合成分析、反應條件推薦、產物預測與機理分析等高階任務。

      整個評測體系共包含 13 個能力維度、62 項具體任務,既涵蓋文本任務,也系統引入分子結構圖、光譜圖等多模態輸入,貼近真實化學研究流程。

      更重要的是,ChemEval 的數據并非簡單復用已有公開數據,而是結合開源數據集與化學領域專家人工構建的數據,通過嚴格的三階段標注與審校流程,確保科學性與評測可靠性。



      ChemEval 概覽圖與測試數據示例

      通用大模型 vs. 化學專用模型,誰更「懂化學」?

      基于 ChemEval,研究團隊對主流通用大語言模型與化學專用模型進行了系統評測,得到了一系列具有啟發性的結論:

      • 通用大模型在化學文獻理解、指令遵循和部分推理任務中表現突出,但在涉及分子結構、反應機理等深度化學知識時明顯乏力;
      • 化學專用模型在術語理解、分子性質等專業任務上具備優勢,但往往犧牲了通用語言理解能力,存在「災難性遺忘」和指令不穩定問題;
      • 單純增加模型規模或引入「思考鏈」并不足以解決復雜化學任務,瓶頸并不在推理長度,而在領域知識建模與表示能力本身;
      • 在多模態化學任務中,當前模型在簡單結構識別上尚可,但在綜合結構識別 + 機理推斷的任務中普遍存在顯著困難。

      這些結果以系統性、量化方式揭示了當前大模型在化學研究中的真實能力邊界,也為后續模型設計與訓練方向提供了明確指引。



      通用大模型與化學專用模型的評估結果

      為 AI for Science 提供「標尺」,而不只是排行榜

      不同于「刷榜型」評測工作,ChemEval 更強調診斷價值:

      • 它能夠精確定位模型在化學研究流程中「卡在哪一層能力」;
      • 揭示通用能力與領域能力之間的結構性矛盾;
      • 為化學大模型的訓練策略、數據構建和工具增強提供可操作的參考依據。

      研究團隊認為,真正推動 AI for Science 的關鍵,不是讓模型在單一任務上表現更好,而是讓模型在完整科學認知鏈條中更可靠、更可解釋。ChemEval 正是朝這一目標邁出的重要一步。

      實驗室持續推進 AI × Chemistry 深度融合

      該工作是認知智能全國重點實驗室與科大訊飛 AI for Science 團隊在科學智能與化學大模型評測方向的重要進展之一。近年來,團隊圍繞「模型是否真正理解科學」這一核心問題,持續在科學推理、多模態理解和領域評測體系建設方面開展系統研究。

      未來,團隊將進一步探索化學大模型與專業仿真工具、實驗數據和多模態信息的深度融合,推動 AI 從「輔助理解」走向「參與發現」,為化學研究范式變革提供堅實的智能基礎。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      日本91歲退役老兵放言:若有機會要繼續侵略中國,說出三個原因

      日本91歲退役老兵放言:若有機會要繼續侵略中國,說出三個原因

      抽象派大師
      2026-05-20 01:33:40
      影后視后都在追《主角》!柯藍夸孫浩該得金獎,觀眾入戲集集飆淚

      影后視后都在追《主角》!柯藍夸孫浩該得金獎,觀眾入戲集集飆淚

      露珠聊影視
      2026-05-21 18:59:50
      連續19天,太陽異乎尋常地向宇宙輸出了一個強烈信號

      連續19天,太陽異乎尋常地向宇宙輸出了一個強烈信號

      星空天文
      2026-05-20 08:00:57
      建國后,被問當年為何沒殺掉毛主席,趙恒惕苦笑:他的能量太大了

      建國后,被問當年為何沒殺掉毛主席,趙恒惕苦笑:他的能量太大了

      談古論今歷史有道
      2026-05-21 08:10:03
      新華網評多位知名教授被舉報論文造假:領軍者失守一寸,跟隨者便可能潰退一丈

      新華網評多位知名教授被舉報論文造假:領軍者失守一寸,跟隨者便可能潰退一丈

      澎湃新聞
      2026-05-21 19:36:18
      WNBA:李月汝末節稱霸,全場最高+18,戰勝舊主

      WNBA:李月汝末節稱霸,全場最高+18,戰勝舊主

      體娛荒原
      2026-05-21 12:14:25
      “日本民航將不能過境中國”?誰在給日本民粹右翼遞彈藥

      “日本民航將不能過境中國”?誰在給日本民粹右翼遞彈藥

      觀察者網
      2026-05-21 16:49:06
      洛杉磯最大懸念揭曉!不是樊振東回不回歸,這兩個人正式上位了

      洛杉磯最大懸念揭曉!不是樊振東回不回歸,這兩個人正式上位了

      酷侃體壇
      2026-05-21 09:53:10
      最新慈銘北京百萬人群健康體檢數據出爐,肺結節檢出率居首

      最新慈銘北京百萬人群健康體檢數據出爐,肺結節檢出率居首

      新京報
      2026-05-21 11:40:53
      歐盟要對中國動手?商務部靈魂拷問:你們的商品哪個不是產能過剩

      歐盟要對中國動手?商務部靈魂拷問:你們的商品哪個不是產能過剩

      菁菁子衿
      2026-05-21 19:58:19
      數十名防汛救災人員忙到晚上10點半到餐館吃飯 即將打烊的店主夫妻叫來活魚、蔬菜熱情招待

      數十名防汛救災人員忙到晚上10點半到餐館吃飯 即將打烊的店主夫妻叫來活魚、蔬菜熱情招待

      閃電新聞
      2026-05-21 21:18:49
      《主角》張嘉益哭到哽咽,劉浩存全程眼神呆滯,老戲骨都帶不動

      《主角》張嘉益哭到哽咽,劉浩存全程眼神呆滯,老戲骨都帶不動

      一娛三分地
      2026-05-20 14:20:51
      特朗普要搞大動作,突破47年對臺禁令?

      特朗普要搞大動作,突破47年對臺禁令?

      經點星娛
      2026-05-21 15:06:56
      騎士、尼克斯更新明日傷病;哈登不如布倫森!騎士勝率僅20%!

      騎士、尼克斯更新明日傷病;哈登不如布倫森!騎士勝率僅20%!

      郝小小看體育
      2026-05-21 19:06:03
      深蹲,被嚴重低估了!研究提示:每天堅持5分鐘,能預防6種疾病

      深蹲,被嚴重低估了!研究提示:每天堅持5分鐘,能預防6種疾病

      增肌減脂
      2026-04-30 19:15:09
      小米YU7 GT正式發布,售價38.99萬元

      小米YU7 GT正式發布,售價38.99萬元

      界面新聞
      2026-05-21 20:22:32
      換機無數才敢說真話:iPhone 14 Pro Max,才是蘋果無可替代的巔峰

      換機無數才敢說真話:iPhone 14 Pro Max,才是蘋果無可替代的巔峰

      叮當當科技
      2026-05-10 15:22:07
      深圳大外援14分15板6帽化身定海神針 末節拼到抽筋燃盡一戰

      深圳大外援14分15板6帽化身定海神針 末節拼到抽筋燃盡一戰

      狼叔評論
      2026-05-21 22:06:05
      北京協和專家:2塊錢的維生素B12,是失眠的頂尖藥,便宜又管用!

      北京協和專家:2塊錢的維生素B12,是失眠的頂尖藥,便宜又管用!

      健康科普365
      2026-05-19 09:25:22
      自盡前,她跪請丈夫:一定將孩子撫養成人!自盡時,丈夫躺床裝睡

      自盡前,她跪請丈夫:一定將孩子撫養成人!自盡時,丈夫躺床裝睡

      興趣知識
      2026-05-20 00:41:43
      2026-05-21 23:39:00
      ScienceAI incentive-icons
      ScienceAI
      關注人工智能與其他前沿技術
      1307文章數 227關注度
      往期回顧 全部

      科技要聞

      小米YU7 GT正式發布:售價38.99萬元

      頭條要聞

      叔侄倆將溺亡男子送回家離開 3天后男子被發現已腐爛

      頭條要聞

      叔侄倆將溺亡男子送回家離開 3天后男子被發現已腐爛

      體育要聞

      常住人口7000的小鎮,擁有了一支德甲球隊

      娛樂要聞

      反轉!金秀賢與金賽綸未成年時交往不實

      財經要聞

      潮水退去,裸泳的一定不止五糧液

      汽車要聞

      后驅+閃充+激光雷達 第三代元PLUS上市售11.99萬元起

      態度原創

      數碼
      游戲
      時尚
      藝術
      教育

      數碼要聞

      4799 小米17 Max發布 耳機手環全家桶亮相!

      封神!被T1粉絲嫌棄的天才AD,達成LOL歷史成就,尺帝gala被超越

      今年夏天最流行的4組搭配,誰穿誰好看!

      藝術要聞

      崔雪冬 2026年油畫新作

      教育要聞

      一個方法讓孩子擁有解決問題能力

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 91丨国产丨精品丨丝袜| 日本成人| 国产福利姬喷水福利在线观看 | 成人av亚洲精品| 日本不卡在线一区二区三区视频 | 亚洲最大天堂在线看视频| 亚洲欧洲av| 久久久受www免费人成| 国产aⅴ无码专区亚洲av综合网| 亚洲欧美日韩久久一区二区| 亚洲人成人影院在线观看| 成人黃色A片免费看三更小说| 蜜臀国产在线视频| 久久精品国产亚洲综合av| 99久久6| 国产区444| 久久精品一偷一偷国产| 亚洲不卡一区三区三区四| 91手机在线视频| 亚洲制服人妻| 色色福利| 国产亚洲精品VA片在线播放| 久久精品国产亚洲av麻豆长发| 国产精品久久久久久无毒不卡| 欧美成人午夜精品一区二区 | 午夜福利看片在线观看| 无码人妻aⅴ| 亚洲高清中文字幕在线看不卡| 国产99久久无码精品| 69人妻精品中文字幕| 少妇99页| 色色99| 免费午夜福利一区二区| 亚洲香蕉伊综合在人在线观看| 国产精品亚洲二区在线播放| 天天爽夜夜爽人人爽曰| www香蕉成人片com| 色噜噜AV亚洲色一区二区| 国内情侣在线高清国语自产拍| 五月天婷婷社区| 亚洲成人网在线观看|