PRODUCT
今天,OpenAI 發(fā)布了 GPT-Rosalind,定位是面向生物學(xué)、藥物發(fā)現(xiàn)和轉(zhuǎn)化醫(yī)學(xué)的前沿推理模型
這是 OpenAI 推出的第一個(gè)生命科學(xué)方向?qū)S媚P停秩∽杂瘜W(xué)家 Rosalind Franklin,她當(dāng)年的 X 射線衍射圖像是 DNA 雙螺旋結(jié)構(gòu)被發(fā)現(xiàn)的關(guān)鍵證據(jù)
Codex 里的 GPT-Rosalind,模型選擇器在右下
GPT-Rosalind 現(xiàn)在以 research preview 形式開放,需要走 OpenAI 的 trusted access 流程,目前只對(duì)美國境內(nèi)合規(guī)的 Enterprise 客戶開放。模型同時(shí)進(jìn) ChatGPT、Codex 和 API 三個(gè)入口
OpenAI 同步發(fā)了一個(gè) Life Sciences 研究插件,免費(fèi)給所有人用,能連超過 50 個(gè)科學(xué)工具和數(shù)據(jù)庫。這個(gè)插件不需要走 trusted access,普通的 GPT 主線模型也能調(diào)用
OpenAI 在通用大模型路徑之外,開了一條領(lǐng)域?qū)>P偷漠a(chǎn)品線,GPT-Rosalind 是第一站
這個(gè)模型在做什么
GPT-Rosalind 不走通用對(duì)話模型微調(diào)的路子,OpenAI 把它定義為「生命科學(xué)系列」的第一個(gè)模型。強(qiáng)項(xiàng)集中在四類工作
→ 跨分子、蛋白、基因、通路和疾病相關(guān)生物學(xué)的推理
→ 多步驟的科研工作流,比如文獻(xiàn)綜述、序列到功能解釋、實(shí)驗(yàn)規(guī)劃、數(shù)據(jù)分析
→ 調(diào)用專業(yè)數(shù)據(jù)庫和計(jì)算工具
→ 綜合外部信息,提出后續(xù)實(shí)驗(yàn)設(shè)計(jì)
這些能力對(duì)應(yīng)的是科研人員日常最耗時(shí)的一段,在大量文獻(xiàn)、數(shù)據(jù)庫、實(shí)驗(yàn)數(shù)據(jù)和不斷迭代的假設(shè)之間反復(fù)切換。OpenAI 給出的判斷是,目前一款新藥從靶點(diǎn)發(fā)現(xiàn)到上市平均要 10 到 15 年,前期工作的效率每改善一點(diǎn),整個(gè)鏈條都會(huì)受益
模型給出靶點(diǎn)取舍建議后,接著設(shè)計(jì) 96 孔板驗(yàn)證實(shí)驗(yàn)
Benchmark 怎么打的
OpenAI 公布了幾個(gè)公開 benchmark 上的成績
BixBench 是面向生物信息學(xué)和數(shù)據(jù)分析真實(shí)任務(wù)的 benchmark,GPT-Rosalind 拿了 0.751 的通過率,在已發(fā)布成績的模型里領(lǐng)先
LABBench2 覆蓋文獻(xiàn)檢索、數(shù)據(jù)庫訪問、序列處理、實(shí)驗(yàn)方案設(shè)計(jì)等研究任務(wù)。GPT-Rosalind 在 11 項(xiàng)里有 6 項(xiàng)超過 GPT-5.4,提升最大的是 CloningQA,要求端到端設(shè)計(jì)分子克隆所需的 DNA 和酶試劑
跟 Dyno Therapeutics 的合作評(píng)估是這次最值得看的一組數(shù)。Dyno 是做 AI 設(shè)計(jì)基因療法的公司,他們用未發(fā)表、未污染的 RNA 序列測試模型在「序列到功能預(yù)測」和「序列生成」上的表現(xiàn),對(duì)照的是 57 位 AI-bio 領(lǐng)域人類專家的歷史成績
模型在 Codex 應(yīng)用里跑,best-of-ten 提交結(jié)果
→ 預(yù)測任務(wù)排名超過人類專家的 第 95 百分位
→ 序列生成任務(wù)排名約人類專家的 第 84 百分位
未發(fā)表數(shù)據(jù)這條很關(guān)鍵,它排除了模型背誦訓(xùn)練集的可能
那個(gè)免費(fèi)插件
Life Sciences 研究插件已經(jīng)放在 GitHub 上,今天就能用
![]()
Life Sciences 研究插件,六個(gè)研究方向 + 50 多個(gè)工具源
插件是一組模塊化的 skill,覆蓋人類遺傳學(xué)、功能基因組學(xué)、蛋白結(jié)構(gòu)、生物化學(xué)、臨床證據(jù)和公開數(shù)據(jù)集六個(gè)常見研究方向。背后接的是超過 50 個(gè)公開的多組學(xué)數(shù)據(jù)庫、文獻(xiàn)源和生物學(xué)工具,給科研人員一個(gè)可重復(fù)使用的起點(diǎn),蛋白結(jié)構(gòu)查詢、序列搜索、文獻(xiàn)綜述、公開數(shù)據(jù)集發(fā)現(xiàn)這些動(dòng)作不用每次重新搭
不在 trusted access 里的用戶也能用這個(gè)插件,只是后端會(huì)走 OpenAI 主線模型,不是 Rosalind。Enterprise 用戶走 Rosalind,可以拿到更深的生物學(xué)推理
誰在用
OpenAI 列出的合作客戶跨制藥、生物技術(shù)、研究機(jī)構(gòu)和基礎(chǔ)設(shè)施供應(yīng)商
Amgen、Novo Nordisk、Moderna、Thermo Fisher Scientific、Oracle Health and Life Sciences、NVIDIA、Allen Institute、Benchling、UCSF School of Pharmacy
幾個(gè)高管在公告里給了表態(tài)
Amgen 的 AI 與數(shù)據(jù)高級(jí)副總裁 Sean Bruich 說這次合作能讓公司用更先進(jìn)的能力去加速藥物送達(dá)患者的速度
Moderna CEO Stéphane Bancel 強(qiáng)調(diào)模型能在復(fù)雜生物證據(jù)之間做推理,把洞見轉(zhuǎn)化成實(shí)驗(yàn)流程
NVIDIA 醫(yī)療與生命科學(xué)副總裁 Kimberly Powell 把這件事描述為「領(lǐng)域推理 + 加速計(jì)算」的合流
Allen Institute 的 CTO Andy Hickl 說 Rosalind 讓數(shù)據(jù)查找和對(duì)齊這些手工步驟,在 agentic workflow 里更一致、更可重復(fù)
Los Alamos National Laboratory 也在聯(lián)合 OpenAI 在做 AI 引導(dǎo)的蛋白和催化劑設(shè)計(jì),包括讓 AI 系統(tǒng)在保留或改進(jìn)關(guān)鍵功能的前提下修改生物結(jié)構(gòu)
為什么是 trusted access
這是這次發(fā)布里另一條值得停下來看的線
OpenAI 沒有把 GPT-Rosalind 放到 ChatGPT Plus 或 API 公開層。trusted access 流程要求申請(qǐng)機(jī)構(gòu)滿足三條,從事有清晰公共健康收益的合法科研、維持治理與防濫用控制、把訪問權(quán)限收斂在受控的合規(guī)環(huán)境里。模型本身也加了 enterprise-grade 的安全和訪問管理控制,OpenAI 可以在 onboarding 或后續(xù)階段額外索取信息
OpenAI Life Sciences 產(chǎn)品負(fù)責(zé)人 Yunyun Wang 在媒體簡報(bào)里給的解釋是,限制訪問是為了在最大化使用價(jià)值的同時(shí)把誤用風(fēng)險(xiǎn)壓住
研究方向負(fù)責(zé)人 Joy Jiao 強(qiáng)調(diào)這套模型不用來替代科學(xué)家,目標(biāo)是幫研究人員加速最耗時(shí)和分析密集的環(huán)節(jié),最終的判斷和驗(yàn)證仍然要科學(xué)家來做
幾條結(jié)構(gòu)性的事
講完產(chǎn)品本身,幾個(gè)值得單獨(dú)標(biāo)記的點(diǎn)
OpenAI 把 GPT-Rosalind 定義成「生命科學(xué)系列」的第一個(gè),后續(xù)會(huì)有一條序列化的模型線展開。從架構(gòu)上看,行業(yè)正在從「越大越通用」往「按領(lǐng)域做專門 reasoning 模型」走。OpenAI 之前在代碼、視覺上做過類似的事,這次輪到生物
研究 preview 階段使用 Rosalind 不消耗已有的 credits 和 token,OpenAI 說后續(xù)會(huì)公布定價(jià)和擴(kuò)大可用范圍的細(xì)節(jié)
普通用戶和 VC 當(dāng)下能立即上手的是那個(gè)免費(fèi)插件。Rosalind 模型本身要有合規(guī)的科研使命才能拿到
參考材料
OpenAI 官方公告
https://openai.com/index/introducing-gpt-rosalind/
Life Sciences 研究插件 GitHub
https://github.com/openai/plugins/tree/main/plugins/life-science-research
trusted access 申請(qǐng)入口
https://openai.com/form/life-sciences-access
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.