網易首頁 > 網易號 > 正文申請入駐

8B模型做生物實驗：實驗步驟順序不亂、劑量無幻覺｜ICLR 2026

2026-05-18 14:47:23　來源: 量子位

北京舉報

分享至

Thoth團隊投稿量子位 | 公眾號 QbitAI

人類研究員做實驗，從來不是把幾句步驟隨手拼起來。

一份真正可復現的實驗protocol，需要明確每一步做什么、對什么對象操作、用什么參數，以及步驟之間的先后依賴。

一旦順序錯了、劑量錯了、對象錯了，表面上看起來流暢的文本，也可能在實驗臺上直接失效。

然而，當前大模型雖然已經能回答大量生物醫學問題，在真正生成實驗方案時仍然容易出現問題：

步驟缺失、順序混亂、操作冗余、參數幻覺，甚至把不能直接執行的建議包裝成一段“看起來很專業”的說明。

更關鍵的是，傳統文本指標如BLEU、ROUGE、BERTScore主要看詞面相似度，難以判斷一個protocol是否真的邏輯正確、語義忠實、可在實驗中執行。

LLM-as-a-Judge雖然更接近人類偏好，但用于強化學習訓練時代價過高，也不夠穩定。

針對這一問題，上海人工智能實驗室、復旦大學、上海交通大學團隊提出了Thoth：一個面向生物實驗protocol生成的科學推理模型。

相關論文《Unleashing Scientific Reasoning for Bio-Experimental Protocol Generation via Structured Component-Based Reward Mechanism》已在ICLR2026正式發表。

一句話概括：Thoth不是讓模型“寫得像protocol”，而是讓模型按照實驗邏輯，生成可解析、可評估、可執行的protocol。

現有LLM會寫，但不一定能做

在生命科學研究中，protocol并不是普通說明文，而是實驗執行藍圖

它需要同時滿足三類要求：

粒度合適：步驟不能過粗導致關鍵信息丟失，也不能過細造成冗余；

順序正確：前置處理、加入試劑、孵育、離心、檢測等操作必須符合實驗依賴；

語義準確：每個動作都要綁定正確的對象和參數。

舉個簡單例子：如果原protocol要求將5mL凝膠預混液與25μL 10% APS、2.5μL TEMED混合，那么縮放到1mL時，APS應為5μL，TEMED應為0.5μL。

在論文展示的案例中，Thoth能給出簡潔且順序正確的結構化步驟；而對比模型雖然語言流暢，卻把TEMED劑量寫成了5μL，出現了執行層面的事實錯誤。

劑量縮放任務中的定性案例

這類錯誤很難被普通文本相似度指標懲罰，因為模型可能“說得很像”，但實驗上并不可靠。

因此，團隊認為，要讓AI真正輔助實驗復現，需要把protocol生成從自由文本生成，推進到結構化科學推理。

從12K真實protocol構建SciRecipe

為了解決數據基礎不足的問題，團隊首先構建了SciRecipe。

該數據集來源于Nature Protocols、Bio-protocol、Protocols.io等標準化實驗流程平臺。

團隊從超過23K份原始protocol中進行清洗、去重、結構化處理和質量控制，最終保留約12K條高質量數據，覆蓋神經科學、分子生物學、癌癥生物學等27個生物學子領域。

SciRecipe不僅包含傳統的protocol理解任務，還進一步覆蓋真實實驗工作流中的問題解決場景，包括：

overview：總結整體實驗流程；
specific：分析局部實驗步驟；
retrieval：檢索所需實驗信息；
planning：規劃實驗方案；
troubleshooting：處理實驗異常；
constraint：滿足約束條件；
scaling：進行劑量縮放；
safety：識別安全注意事項。

也就是說，SciRecipe不是只讓模型“讀懂protocol”，而是讓模型在理解、規劃、糾錯、縮放、安全等環節形成完整的“理解—應用”閉環。

SciRecipe數據構建流程

核心方法：先打草稿，再填成可讀步驟

Thoth的第一個關鍵設計，是Sketch-and-Fill推理范式。

這個范式把protocol生成拆成三個階段：

首先是think，模型先分析任務目標、實驗依賴和步驟必要性；

然后是key，模型把實驗方案抽象成機器可讀的原子步驟，每一步都包含action、objects、parameters三個核心字段；

最后是orc，模型再把這些結構化步驟改寫成自然語言protocol，保證人類研究員能夠直接閱讀和執行。

可以把它理解為：先讓模型寫“實驗骨架”，再把骨架填充成完整操作說明。

這一設計的好處是，實驗步驟不再是一整段難以檢查的自由文本，而被拆解為可解析的結構單元。

每一步做什么、作用于什么對象、在什么條件下完成，都可以被自動檢查。

更重要的是，key和orc之間要求一一對應。

結構化步驟里出現的動作、對象和參數，必須在最終自然語言protocol中體現出來。這避免了模型只給出一個“空心框架”，卻漏掉關鍵實驗細節。

SCORE：不用LLM當裁判，也能判斷protocol能不能執行

Thoth的第二個關鍵設計，是Structured COmponent-based REward，簡稱SCORE。

傳統評估指標往往只看生成文本和參考答案像不像。SCORE則直接從實驗可執行性的角度出發，評估三個維度：

第一是Step Scale，判斷步驟數量和粒度是否合理。步驟太少，可能漏掉關鍵操作；步驟太多，則可能引入冗余和噪聲。

第二是Action Order，判斷動作順序是否符合實驗邏輯。對于實驗來說，有些步驟即使都出現了，只要順序錯了，protocol仍然不可執行。

第三是Semantic Fidelity，判斷動作、對象和參數是否匹配。例如“add”是否加到了正確試劑上，溫度、濃度、時間等參數是否綁定到了正確對象。

Sketch-and-Fill推理范式與SCORE獎勵機制示意圖

SCORE還加入了兩個門控機制：格式門控檢查模型是否按照think、key、orc、note順序輸出；一致性門控檢查key中的動作、對象、參數是否被orc充分覆蓋。

只有通過這些基礎檢查的protocol，才會進入后續獎勵計算。

這樣一來，模型優化目標就從“寫得像參考答案”，變成了“生成結構合理、順序正確、語義忠實、實驗上更可執行的protocol”。

三階段訓練：從知識到行動

在訓練層面，Thoth采用Knowledge-to-Action學習策略，讓模型逐步從“掌握實驗知識”過渡到“生成可執行實驗方案”。

第一階段是預訓練，模型從大規模protocol文本中學習實驗語言、材料、設備和流程邏輯。

第二階段是監督微調，模型在Sketch-and-Fill格式數據上學習如何按照結構化范式組織輸出，并完成參數填充、步驟排序、錯誤修正等任務。

第三階段是強化學習，團隊使用GRPO算法，并以SCORE作為獎勵信號，引導模型在實驗可執行性上繼續優化。

這種訓練路徑與人類研究員的學習過程相似：先積累知識，再學習規范操作，最后通過反饋不斷改進決策。

實驗結果：小模型也超過一批大模型

實驗中，團隊在SciRecipe-Eval上評估了Thoth，并與閉源模型、開源模型、推理模型和科學大模型進行對比。

結果顯示，Thoth在所有主要指標上取得SOTA表現。

相比基座模型Qwen3-8B，Thoth平均性能提升17.78%；Thoth-mini平均性能提升22.01%。

即使面對更大規模的閉源模型，Thoth仍然表現突出，平均分超過ChatGPT-4o 3.69%。

在與最強開源模型DeepSeek-V3的對比中，Thoth在Semantic-Alignment、Order-S和Step-MATCH上分別提升4.88%、4.06%和11.29%，說明其優勢主要體現在實驗步驟對齊、邏輯順序和動作保真上。

SciRecipe-Eval主結果

不僅如此，在HLE、LAB-Bench、PubMedQA等更廣泛的科學基準上，Thoth同樣能泛化到protocol生成之外的生物醫學推理任務，相比同基座模型取得明顯提升。

更廣泛科學基準上的泛化結果

消融實驗進一步證明，Sketch-and-Fill、SCORE和Knowledge-to-Action三階段訓練都不是“錦上添花”。

三階段Knowledge-to-Action訓練策略消融

其中，去掉步驟粒度獎勵后，模型的順序嚴格匹配和步驟匹配大幅下降；去掉動作順序約束后，模型更容易生成順序混亂的方案；如果用普通語義相似度獎勵替代SCORE，雖然部分詞面指標可能變好，但protocol可執行性明顯下降。

這說明，對于科學實驗生成來說，真正重要的不是“文本像不像”，而是“能不能照著做”。

讓AI從“會答題”走向“會做實驗”

這項工作將生物實驗protocol生成從普通文本生成，推進到面向實驗執行的結構化科學推理。

通過SciRecipe，團隊構建了覆蓋27個生物學子領域、包含理解與問題解決任務的大規模數據基礎；通過Sketch-and-Fill，模型學會先組織實驗骨架，再生成自然語言步驟。

通過SCORE，訓練和評估都直接對齊步驟粒度、動作順序和語義保真。

通過Knowledge-to-Action訓練，Thoth進一步從實驗知識走向可執行方案生成。

從更長遠看，Thoth代表了一類新的科學AI助手方向：它不只是回答“實驗怎么做”，而是嘗試把科學知識轉化成可檢查、可復現、可執行的實驗行動。

對于生命科學研究來說，這意味著AI有機會從文獻問答工具，進一步走向實驗復現助手、protocol規劃助手，乃至未來自動化實驗系統中的核心推理模塊。

論文鏈接：https://arxiv.org/abs/2510.15600
代碼鏈接：https://github.com/InternScience/Thoth
Thoth模型API：https://scphub.intern-ai.org.cn/detail/19

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

信通院&清華提出FedRE：用「糾纏」搞定聯邦學習三難困境|CVPR 26

量子位 2026-05-18 14:45:09
0 跟貼 0
消費級具身智能跨越式新品:算力提1000倍,對標英偉達Jetson Thor

機器之心Pro 2026-05-18 14:15:12
0 跟貼 0

清華+阿里發布ViT3：解鎖視覺TTT，突破Transformer復雜度瓶頸

機器之心Pro 2026-05-18 12:03:35
0 跟貼 0

網友燒烤子彈打西瓜，一聲爆響瓜沒事

裝甲鏟史官 2026-05-13 11:24:03
334 跟貼 334
揭秘炭火小技巧：撒鹽控溫

處處世界觀 2026-05-16 11:24:03
16 跟貼 16

14 歲進清華、不到 30 歲拿普林斯頓終身教職，她造了個 AI 讓實驗室新手一周變專家

生物學霸 2026-03-19 18:06:41
0 跟貼 0

現在的小學題真難，和以前的算法不一樣！

娛糖主 2026-05-17 19:36:32
1 跟貼 1
世界模型的門檻，谷歌可能邁過去了

鈦媒體APP 2026-05-18 15:14:36
0 跟貼 0

斷崖第一！深度機智Z-WM再奪WorldArena冠軍

機器之心Pro 2026-05-18 14:52:58
0 跟貼 0
華為GTS提出AI訓練數據新方法，Amazon/Google作者團隊光速跟進

機器之心Pro 2026-05-18 14:09:40
0 跟貼 0
嘴饞小貓就算被拴著繩子，也要爬到餐桌上吃飯

南陽日報 2026-05-17 20:07:30
160 跟貼 160
把發電站搬上天，98年小伙震撼世界

華商韜略 2026-03-04 18:53:46
0 跟貼 0
ICML 2026 | 只用少量Thinking Tokens，大模型依然能深度思考

機器之心Pro 2026-05-18 18:13:02
0 跟貼 0
天壇竟是古代宇宙模型？建筑里藏著千年哲學密碼

開著車去流浪 2026-05-17 00:36:37
7 跟貼 7
7172元拿下iPhone17 Pro！數百人擠進杭州Costco瘋搶降價蘋果手機，門店客服：17系列已賣空，正待補貨

極目新聞 2026-05-17 19:05:00
10124 跟貼 10124
讓大模型邊想邊說：這篇文章把「何時開口」變成可學習策略

機器之心Pro 2026-05-18 14:49:11
0 跟貼 0
緩解“AI數據荒”！一家出行平臺居然有具身智能的“黃金數據礦”

新智元 2026-05-18 15:10:36
0 跟貼 0
收到工資1002415.13元，愛你華為！！！

算法與數學之美 2026-05-18 17:22:10
0 跟貼 0
巴雷特能打碎多少塊瓷磚

國際風云錄 2026-05-18 11:08:37
0 跟貼 0
記憶合金做的輪胎有什么優點？

Max無限創意 2026-05-17 00:11:26
0 跟貼 0
王云鶴眼中的Harness：復雜優化問題，AGI靈魂爭奪之戰

機器之心Pro 2026-05-18 18:15:52
0 跟貼 0
為了逃避考試，他發明了最好的壓縮算法，zip的歷史可謂一波三折

量子位 2026-04-29 06:41:21
0 跟貼 0
用炮仗震濾芯上的灰塵，能快速達到理想效果，邪修從沒讓人失望過

爆笑漁翁 2026-05-15 13:30:15
1 跟貼 1
80瓦便攜激光器，隔著玻璃門點爆氣球

裝甲鏟史官 2026-05-09 11:09:29
22 跟貼 22
2026年具身賽道平均薪酬如何？哪些大牛最搶手？未來人才去哪找？

藍鯨新聞 2026-05-18 16:17:39
0 跟貼 0
國外小哥自制的火箭，正好擊中地上的男子，下幕根本不敢看！

白熊愛搞笑 2026-05-14 15:24:25
1 跟貼 1
從30分鐘到30秒：DoIP并行刷寫如何“暴力破解”車載ECU海量數據升級困局

新能源自動駕駛 2026-05-16 00:09:31
0 跟貼 0
20秒認識共振現象，前后夾擊揍他，打不過就加入唄！

諾維斯旅行 2026-05-14 09:48:33
30 跟貼 30
攝影師化身超能戰士，外骨骼強化長槍短炮

裝甲鏟史官 2026-05-13 11:23:57
0 跟貼 0
這樣真的可以補漏嘛？

大牛說笑 2026-05-17 09:52:44
1 跟貼 1
索尼PSN新規上線：自動監控+密鑰登錄，封號能申訴了

晚星歸航2 2026-05-18 18:02:48
0 跟貼 0
這通過性也不行啊

菜雞阿新 2026-05-15 09:03:04
4 跟貼 4
松枝燃燒的速度

陽光小筑Sunny 2026-05-17 02:41:28
0 跟貼 0
賽博套利時代：AI黃牛的灰色生意經

鈦媒體APP 2026-05-18 13:28:36
0 跟貼 0
真空有多可怕？將一條魚放入真空中，場面瞬間失去控制！

探地球密碼館 2026-05-15 17:37:44
4 跟貼 4
一直在挑釁，真當我沒脾氣啊再一再二還想再三吶

時負相知 2026-05-15 04:44:22
1 跟貼 1
這種雪能吃嗎

小木屋動漫 2026-05-18 10:54:19
1 跟貼 1
這樣也能行啊

奇觀趣聞 2026-05-17 07:45:44
1 跟貼 1
意大利開發仿真假肢，完美模擬人類足部動作

裝甲鏟史官 2026-05-18 11:26:44
0 跟貼 0
外媒：中國電動汽車即將登陸加拿大經銷商等不及了

澎湃新聞 2026-05-18 07:30:49
5001 跟貼 5001

量子位

追蹤人工智能動態

12648文章數 176464關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

健康

旅游

數碼

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

8B模型做生物實驗：實驗步驟順序不亂、劑量無幻覺｜ICLR 2026

Thoth團隊 投稿量子位 | 公眾號 QbitAI

同一公司,有人獎金是6年工資,我卻只有半年

失業男子在車里住7天無奈向交警求助 如今找到新工作

失業男子在車里住7天無奈向交警求助 如今找到新工作

41歲，他還想第5次踢世界杯

票房會破14億！口碑第一電影出現了

前4月工業生產較快增長 失業率5.3%

二排座椅能躺能轉/三排座椅能收納 零跑D99座艙玩法多樣

態度原創

用蘇繡的方式，打開江西婺源

專家揭秘干細胞回輸的安全風險

廣元：空氣清新環境宜人，目之所及全是美景，太漂亮了！

大疆ROMO P2評測：變態越障+恐怖吸力，無人機技術“降維”到地面

Thoth團隊投稿量子位 | 公眾號 QbitAI

失業男子在車里住7天無奈向交警求助如今找到新工作

失業男子在車里住7天無奈向交警求助如今找到新工作

前4月工業生產較快增長失業率5.3%

二排座椅能躺能轉/三排座椅能收納零跑D99座艙玩法多樣