<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      8B模型做生物實驗:實驗步驟順序不亂、劑量無幻覺|ICLR 2026

      0
      分享至

      Thoth團隊 投稿量子位 | 公眾號 QbitAI

      人類研究員做實驗,從來不是把幾句步驟隨手拼起來。

      一份真正可復現的實驗protocol,需要明確每一步做什么、對什么對象操作、用什么參數,以及步驟之間的先后依賴。

      一旦順序錯了、劑量錯了、對象錯了,表面上看起來流暢的文本,也可能在實驗臺上直接失效。

      然而,當前大模型雖然已經能回答大量生物醫學問題,在真正生成實驗方案時仍然容易出現問題:

      步驟缺失、順序混亂、操作冗余、參數幻覺,甚至把不能直接執行的建議包裝成一段“看起來很專業”的說明。

      更關鍵的是,傳統文本指標如BLEU、ROUGE、BERTScore主要看詞面相似度,難以判斷一個protocol是否真的邏輯正確、語義忠實、可在實驗中執行。

      LLM-as-a-Judge雖然更接近人類偏好,但用于強化學習訓練時代價過高,也不夠穩定。

      針對這一問題,上海人工智能實驗室、復旦大學、上海交通大學團隊提出了Thoth:一個面向生物實驗protocol生成的科學推理模型。



      相關論文《Unleashing Scientific Reasoning for Bio-Experimental Protocol Generation via Structured Component-Based Reward Mechanism》已在ICLR2026正式發表。

      一句話概括:Thoth不是讓模型“寫得像protocol”,而是讓模型按照實驗邏輯,生成可解析、可評估、可執行的protocol。

      現有LLM會寫,但不一定能做

      在生命科學研究中,protocol并不是普通說明文,而是實驗執行藍圖

      它需要同時滿足三類要求:

      粒度合適:步驟不能過粗導致關鍵信息丟失,也不能過細造成冗余;

      順序正確:前置處理、加入試劑、孵育、離心、檢測等操作必須符合實驗依賴;

      語義準確:每個動作都要綁定正確的對象和參數。

      舉個簡單例子:如果原protocol要求將5mL凝膠預混液與25μL 10% APS、2.5μL TEMED混合,那么縮放到1mL時,APS應為5μL,TEMED應為0.5μL。

      在論文展示的案例中,Thoth能給出簡潔且順序正確的結構化步驟;而對比模型雖然語言流暢,卻把TEMED劑量寫成了5μL,出現了執行層面的事實錯誤。

      劑量縮放任務中的定性案例



      這類錯誤很難被普通文本相似度指標懲罰,因為模型可能“說得很像”,但實驗上并不可靠。

      因此,團隊認為,要讓AI真正輔助實驗復現,需要把protocol生成從自由文本生成,推進到結構化科學推理。

      從12K真實protocol構建SciRecipe

      為了解決數據基礎不足的問題,團隊首先構建了SciRecipe。

      該數據集來源于Nature Protocols、Bio-protocol、Protocols.io等標準化實驗流程平臺。

      團隊從超過23K份原始protocol中進行清洗、去重、結構化處理和質量控制,最終保留約12K條高質量數據,覆蓋神經科學、分子生物學、癌癥生物學等27個生物學子領域。

      SciRecipe不僅包含傳統的protocol理解任務,還進一步覆蓋真實實驗工作流中的問題解決場景,包括:

      • overview:總結整體實驗流程;
      • specific:分析局部實驗步驟;
      • retrieval:檢索所需實驗信息;
      • planning:規劃實驗方案;
      • troubleshooting:處理實驗異常;
      • constraint:滿足約束條件;
      • scaling:進行劑量縮放;
      • safety:識別安全注意事項。

      也就是說,SciRecipe不是只讓模型“讀懂protocol”,而是讓模型在理解、規劃、糾錯、縮放、安全等環節形成完整的“理解—應用”閉環。

      SciRecipe數據構建流程



      核心方法:先打草稿,再填成可讀步驟

      Thoth的第一個關鍵設計,是Sketch-and-Fill推理范式。

      這個范式把protocol生成拆成三個階段:

      首先是think,模型先分析任務目標、實驗依賴和步驟必要性;

      然后是key,模型把實驗方案抽象成機器可讀的原子步驟,每一步都包含action、objects、parameters三個核心字段;

      最后是orc,模型再把這些結構化步驟改寫成自然語言protocol,保證人類研究員能夠直接閱讀和執行。

      可以把它理解為:先讓模型寫“實驗骨架”,再把骨架填充成完整操作說明。

      這一設計的好處是,實驗步驟不再是一整段難以檢查的自由文本,而被拆解為可解析的結構單元。

      每一步做什么、作用于什么對象、在什么條件下完成,都可以被自動檢查。

      更重要的是,key和orc之間要求一一對應。

      結構化步驟里出現的動作、對象和參數,必須在最終自然語言protocol中體現出來。這避免了模型只給出一個“空心框架”,卻漏掉關鍵實驗細節。

      SCORE:不用LLM當裁判,也能判斷protocol能不能執行

      Thoth的第二個關鍵設計,是Structured COmponent-based REward,簡稱SCORE。

      傳統評估指標往往只看生成文本和參考答案像不像。SCORE則直接從實驗可執行性的角度出發,評估三個維度:

      第一是Step Scale,判斷步驟數量和粒度是否合理。步驟太少,可能漏掉關鍵操作;步驟太多,則可能引入冗余和噪聲。

      第二是Action Order,判斷動作順序是否符合實驗邏輯。對于實驗來說,有些步驟即使都出現了,只要順序錯了,protocol仍然不可執行。

      第三是Semantic Fidelity,判斷動作、對象和參數是否匹配。例如“add”是否加到了正確試劑上,溫度、濃度、時間等參數是否綁定到了正確對象。

      Sketch-and-Fill推理范式與SCORE獎勵機制示意圖



      SCORE還加入了兩個門控機制:格式門控檢查模型是否按照think、key、orc、note順序輸出;一致性門控檢查key中的動作、對象、參數是否被orc充分覆蓋。

      只有通過這些基礎檢查的protocol,才會進入后續獎勵計算。

      這樣一來,模型優化目標就從“寫得像參考答案”,變成了“生成結構合理、順序正確、語義忠實、實驗上更可執行的protocol”。

      三階段訓練:從知識到行動

      在訓練層面,Thoth采用Knowledge-to-Action學習策略,讓模型逐步從“掌握實驗知識”過渡到“生成可執行實驗方案”。

      第一階段是預訓練,模型從大規模protocol文本中學習實驗語言、材料、設備和流程邏輯。

      第二階段是監督微調,模型在Sketch-and-Fill格式數據上學習如何按照結構化范式組織輸出,并完成參數填充、步驟排序、錯誤修正等任務。

      第三階段是強化學習,團隊使用GRPO算法,并以SCORE作為獎勵信號,引導模型在實驗可執行性上繼續優化。

      這種訓練路徑與人類研究員的學習過程相似:先積累知識,再學習規范操作,最后通過反饋不斷改進決策。

      實驗結果:小模型也超過一批大模型

      實驗中,團隊在SciRecipe-Eval上評估了Thoth,并與閉源模型、開源模型、推理模型和科學大模型進行對比。

      結果顯示,Thoth在所有主要指標上取得SOTA表現。

      相比基座模型Qwen3-8B,Thoth平均性能提升17.78%;Thoth-mini平均性能提升22.01%。

      即使面對更大規模的閉源模型,Thoth仍然表現突出,平均分超過ChatGPT-4o 3.69%。

      在與最強開源模型DeepSeek-V3的對比中,Thoth在Semantic-Alignment、Order-S和Step-MATCH上分別提升4.88%、4.06%和11.29%,說明其優勢主要體現在實驗步驟對齊、邏輯順序和動作保真上。

      SciRecipe-Eval主結果



      不僅如此,在HLE、LAB-Bench、PubMedQA等更廣泛的科學基準上,Thoth同樣能泛化到protocol生成之外的生物醫學推理任務,相比同基座模型取得明顯提升。

      更廣泛科學基準上的泛化結果



      消融實驗進一步證明,Sketch-and-Fill、SCORE和Knowledge-to-Action三階段訓練都不是“錦上添花”。

      三階段Knowledge-to-Action訓練策略消融



      其中,去掉步驟粒度獎勵后,模型的順序嚴格匹配和步驟匹配大幅下降;去掉動作順序約束后,模型更容易生成順序混亂的方案;如果用普通語義相似度獎勵替代SCORE,雖然部分詞面指標可能變好,但protocol可執行性明顯下降。

      這說明,對于科學實驗生成來說,真正重要的不是“文本像不像”,而是“能不能照著做”。

      讓AI從“會答題”走向“會做實驗”

      這項工作將生物實驗protocol生成從普通文本生成,推進到面向實驗執行的結構化科學推理。

      通過SciRecipe,團隊構建了覆蓋27個生物學子領域、包含理解與問題解決任務的大規模數據基礎;通過Sketch-and-Fill,模型學會先組織實驗骨架,再生成自然語言步驟。

      通過SCORE,訓練和評估都直接對齊步驟粒度、動作順序和語義保真。

      通過Knowledge-to-Action訓練,Thoth進一步從實驗知識走向可執行方案生成。

      從更長遠看,Thoth代表了一類新的科學AI助手方向:它不只是回答“實驗怎么做”,而是嘗試把科學知識轉化成可檢查、可復現、可執行的實驗行動。

      對于生命科學研究來說,這意味著AI有機會從文獻問答工具,進一步走向實驗復現助手、protocol規劃助手,乃至未來自動化實驗系統中的核心推理模塊。

      論文鏈接:https://arxiv.org/abs/2510.15600
      代碼鏈接:https://github.com/InternScience/Thoth
      Thoth模型API:https://scphub.intern-ai.org.cn/detail/19

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “童顏巨乳”小姐姐來襲!

      “童顏巨乳”小姐姐來襲!

      文刀萬
      2026-05-17 17:06:53
      金飾價格一夜大跌,跌回去了

      金飾價格一夜大跌,跌回去了

      魯中晨報
      2026-05-17 19:30:03
      福建楊梅泡藥水事件持續發酵,浙江商販改口本地楊梅

      福建楊梅泡藥水事件持續發酵,浙江商販改口本地楊梅

      奇思妙想生活家
      2026-05-18 16:27:51
      原來如此!樊振東決賽兩敗勒布倫兄弟后,國乒長盛不衰原因曝光

      原來如此!樊振東決賽兩敗勒布倫兄弟后,國乒長盛不衰原因曝光

      林雁飛
      2026-05-18 14:20:00
      發現一個現象:中產返貧三件套,已經升級為六件套了!

      發現一個現象:中產返貧三件套,已經升級為六件套了!

      番外行
      2026-05-18 10:25:35
      集體悶殺!巨力索具、沃格光電、金螳螂、衢州發展大封單一字跌停

      集體悶殺!巨力索具、沃格光電、金螳螂、衢州發展大封單一字跌停

      丁丁鯉史紀
      2026-05-18 11:05:45
      《主角》:張黑娃下線!易青娥拋棄青梅竹馬封瀟瀟,嫁劉紅兵真相

      《主角》:張黑娃下線!易青娥拋棄青梅竹馬封瀟瀟,嫁劉紅兵真相

      慢半拍sir
      2026-05-18 15:49:13
      35歲格列茲曼在主場告別儀式上低情商表態引熱議,球迷:白眼狼

      35歲格列茲曼在主場告別儀式上低情商表態引熱議,球迷:白眼狼

      側身凌空斬
      2026-05-18 06:06:21
      請假3天去相親,老板:不批!隔天他兒子來電,一開口老板傻眼了

      請假3天去相親,老板:不批!隔天他兒子來電,一開口老板傻眼了

      呆子的故事
      2025-09-16 18:19:35
      為何啤酒廠從不禁止員工偷喝?老板揭秘:再貪嘴,最多撐一周

      為何啤酒廠從不禁止員工偷喝?老板揭秘:再貪嘴,最多撐一周

      老特有話說
      2026-05-16 17:52:16
      韓國股市巨震:跌停熔斷→翻紅!

      韓國股市巨震:跌停熔斷→翻紅!

      證券時報
      2026-05-18 11:04:05
      大手筆,亞歷山大當選MVP后送全隊AP手表+Burberry風衣

      大手筆,亞歷山大當選MVP后送全隊AP手表+Burberry風衣

      懂球帝
      2026-05-18 09:37:54
      80萬歐決絕離境!心寒出走,張本智和全家投奔樊振東藏心酸

      80萬歐決絕離境!心寒出走,張本智和全家投奔樊振東藏心酸

      林子說事
      2026-05-18 15:44:42
      慘敗北京后!上海補強方案曝光,與廣東隊交易,籌碼是李弘權?

      慘敗北京后!上海補強方案曝光,與廣東隊交易,籌碼是李弘權?

      緋雨兒
      2026-05-18 09:32:36
      知道不好騙了,索性開始向老年人下手了

      知道不好騙了,索性開始向老年人下手了

      胖胖說他不胖
      2026-05-18 11:58:24
      3-2!3-1!英超瘋狂一夜!曼聯鎖定第3,熱刺笑翻了,積分榜出爐

      3-2!3-1!英超瘋狂一夜!曼聯鎖定第3,熱刺笑翻了,積分榜出爐

      董老師看競技
      2026-05-18 06:18:22
      4-3!騎士晉級東決,賽后3個好消息和一個壞消息,哈登絕不能拉胯

      4-3!騎士晉級東決,賽后3個好消息和一個壞消息,哈登絕不能拉胯

      阿纂看事
      2026-05-18 18:29:55
      柳州為何發生5.2級地震?專家:震中距最近斷層不到5公里,為近百年來柳州最大地震

      柳州為何發生5.2級地震?專家:震中距最近斷層不到5公里,為近百年來柳州最大地震

      新浪財經
      2026-05-18 15:43:21
      日本預測,未來20年亞洲最發達的“四座城市”,我國幾座榜上有名

      日本預測,未來20年亞洲最發達的“四座城市”,我國幾座榜上有名

      牛牛叨史
      2024-07-19 23:32:16
      NBA官宣亞歷山大當選MVP!現役第5位實現連莊 多項數據領跑聯盟

      NBA官宣亞歷山大當選MVP!現役第5位實現連莊 多項數據領跑聯盟

      羅說NBA
      2026-05-18 07:41:56
      2026-05-18 19:20:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12648文章數 176464關注度
      往期回顧 全部

      科技要聞

      同一公司,有人獎金是6年工資,我卻只有半年

      頭條要聞

      失業男子在車里住7天無奈向交警求助 如今找到新工作

      頭條要聞

      失業男子在車里住7天無奈向交警求助 如今找到新工作

      體育要聞

      41歲,他還想第5次踢世界杯

      娛樂要聞

      票房會破14億!口碑第一電影出現了

      財經要聞

      前4月工業生產較快增長 失業率5.3%

      汽車要聞

      二排座椅能躺能轉/三排座椅能收納 零跑D99座艙玩法多樣

      態度原創

      本地
      健康
      旅游
      數碼
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      專家揭秘干細胞回輸的安全風險

      旅游要聞

      廣元:空氣清新環境宜人,目之所及全是美景,太漂亮了!

      數碼要聞

      大疆ROMO P2評測:變態越障+恐怖吸力,無人機技術“降維”到地面

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久黄色精品网站| 日本一区二区三区免费播放 | av一区二区三区| 99久久亚洲综合精品成人网 | 无码福利写真片视频在线播放| 超碰福利导航| 东台市| 亚洲深夜精品在线观看| 日本高清一区免费中文视频| 欧美黑人欧美精品刺激| 日韩一区二区超清视频 | 国产精品一区中文字幕| 亚洲自拍偷拍激情视频| 18禁高潮出水呻吟娇喘蜜芽 | 日韩99在线a| 久久中文字幕无码一区二区| 少妇人妻偷人精品视蜜桃| 亚洲日韩欧美一区久久久久我| 午夜成人无码福利免费视频| 亚洲乱码中文字幕小综合| 一区二区三区A片| 成人福利视频| 一个色的导航| 中国XXXX色视频| 性饥渴人妻| 免费国偷自产拍精品视频| 久久日韩在线观看视频| 亚洲欧洲av一区二区久久| 国产真实露脸乱子伦原著| 亚洲欧洲日韩综合色天使不卡| 熟女性饥渴一区二区三区| 一个色综合国产色综合| 亚洲熟妇无码另类久久久| 久久精品日韩欧美国产| 97国产视频| 真人无码作爱免费视频| 久久久精品妇女99| 亚洲a∨国产av综合av下载| 欧美黑人又粗又大| 波多野结衣在线精品视频| 99精品国产一区二区青青性色 |