![]()
AI究竟是藥物研發(fā)的顛覆者,還是僅僅是個高級的“加速器”?
作者丨岑峰
過去幾年,無論是AlphaFold家族的驚艷迭代,還是各類生成式AI在分子設(shè)計上的“狂飆”,都給外界營造出一種錯覺:AI似乎即將徹底顛覆制藥行業(yè),甚至有人開始倒數(shù)“全AI設(shè)計新藥"上市的日期。
然而,真實情況卻是:那些在硅基世界里被打分極高、看似完美的分子,卻在進入真實的碳基人體后屢屢折戟。在真實的臨床二、三期試驗中,AI制藥的失敗率依然居高不下。
在AI算力呈指數(shù)級暴漲的今天,為何藥物研發(fā)卻陷入了“反摩爾定律”——技術(shù)越來越先進,投入的資金越來越龐大,但新藥產(chǎn)出率卻在持續(xù)下降?
在這場算力與生命科學的碰撞中,AI究竟是顛覆者,還是僅僅是個高級的“加速器”?
近日,雷峰網(wǎng)及AI科技評論組織了一場主題為“后AlphaFold時代AI制藥的破與立”線上圓桌,南佛羅里達大學教授許東、同濟大學生命科學與技術(shù)學院教授劉琦、香港大學數(shù)據(jù)科學與藥學系副教授張清鵬,三位橫跨計算科學、生物信息學與復(fù)雜系統(tǒng)科學的頂尖學者,展開了一場兩小時的深度對談。
對于沒有時間觀看直播的讀者,我們提煉了本次圓桌的四大核心洞察:
洞察一:算力無法顛覆生命法則,重回“系統(tǒng)科學”與“機理模型”
當前AI制藥最大的誤區(qū)在于還原論的線性思維-將藥物研發(fā)簡化為“一把鑰匙開一把鎖”的游戲,過度追求分子與單一靶點的高親和力。
然而,人體絕不是一臺可以被簡單拆解的機器,而是一個會自適應(yīng)、會代償、與環(huán)境動態(tài)交互的復(fù)雜生態(tài)系統(tǒng)。如張清鵬教授指出,藥物進入人體后,面臨的是吸收、分布、代謝、排泄等極其復(fù)雜的動力學過程。在細胞系中起作用的分子,未必能被有效遞送,更未必能引發(fā)期待的宏觀藥理反應(yīng)。
劉琦教授則點出了問題的本質(zhì):AI技術(shù)目前只能做到“降本增效”,它無法顛覆制藥本身的生物學與化學邏輯。
一個引人深思的案例是輝瑞的新冠藥物Paxlovid。在其大獲成功的背后,居功至偉的是基于常微分方程(ODE)的PKPD數(shù)學模型分析,而非時下最“時髦”的深度學習黑盒模型。遺憾的是,這類偏機理、能提供清晰生物學追溯路徑的模型,在學術(shù)界的關(guān)注度遠不如那些“刷榜”的AI大模型。
未來的破局點在于“灰盒化”:”將基于物理與機制的(Physics/Mechanism-driven)模型與強大的數(shù)據(jù)驅(qū)動(Data-driven)表征學習相結(jié)合。只有讓AI真正理解藥物在體內(nèi)的作用機制,而不僅僅是“暴力猜解",AI制藥才能真正走向臨床。
洞察二:跨越“盲人摸象”的數(shù)據(jù)鴻溝,干濕閉環(huán)是唯一解
為何AI在自然語言處理和圖像識別領(lǐng)域能所向披靡,在生命科學領(lǐng)域卻常常泛化能力極差?答案在于數(shù)據(jù)的“完備性"與“干凈度”。
不同于擁有海量且標準標簽的ImageNet,生命科學領(lǐng)域的數(shù)據(jù)面臨著三大先天缺陷:
?維度不完備:我們當前對靶點和生命體的描述特征(如氨基酸序列、SMILES表達式)相比于圖像像素而言太少,用單一模態(tài)的數(shù)據(jù)去訓練模型,宛如“盲人摸象”。
?負樣本缺失:制藥公司出于商業(yè)機密,極少公開失敗的實驗數(shù)據(jù),導(dǎo)致AI模型只能在“幸存者偏差"中學習,極易過擬合。
?長尾分布下的邊緣案例:許東教授提到,以AlphaFold為代表的模型基于進化中的負選擇能很好地預(yù)測常見蛋白,但在面臨BCR/抗體等處于主動進化的邊緣案例時,效果要差的多。
數(shù)據(jù)鴻溝的存在,注定了現(xiàn)階段的純計算模型無法獨立完成新藥發(fā)現(xiàn)。三位學者一致認為,“干濕實驗結(jié)合”是現(xiàn)階段唯一可行的路徑。
不再追求AI一次性給出一個完美的分子,而是利用貝葉斯優(yōu)化、主動學習等方法,讓AI生成數(shù)十個候選者,通過高通量、自動化的濕實驗快速測試,并將結(jié)果(尤其是負反饋)實時反哺給Al。通過24小時不間斷的快速迭代,在有限的數(shù)據(jù)樣本下逼近最優(yōu)解。
洞察三:尋找高價值賽道:免疫療法、老藥新用與數(shù)字細胞
在具體的制藥賽道選擇上,嘉賓們描繪了一幅清晰的價值地圖:
?老藥新用:老藥的安全性已得到驗證,直接繞過了最致命的毒副作用風險。結(jié)合系統(tǒng)生物學,利用AI尋找多靶點的“藥物組合”,是控制復(fù)雜系統(tǒng)網(wǎng)絡(luò)失衡的高效路徑。然而,其商業(yè)化挑戰(zhàn)在于如何突破現(xiàn)有專利封鎖,這也催生了AI在專利規(guī)避設(shè)計上的新應(yīng)用。
?從小分子到多肽/抗體的演進:相比于合成困難、成本高昂的小分子去從頭設(shè)計,多肽和蛋白藥物的可合成性極高(大腸桿菌表達等技術(shù)使得成本大幅降低)。它們的挑戰(zhàn)轉(zhuǎn)移到了“如何保持穩(wěn)定"以及“如何避免強烈的免疫副作用”"。
?免疫療法:免疫療法(如針對癌癥、阿爾茨海默癥等)被視為當今制藥界的“頂流”。然而,由于免疫系統(tǒng)極其復(fù)雜,目前AI在免疫領(lǐng)域的滲透依然較淺。這片尚未被充分開墾的處女地,正是年輕學者和創(chuàng)新企業(yè)大有可為的“好領(lǐng)域”。
?RNA遞送與虛擬細胞:隨著mRNA技術(shù)的成熟,制藥的核心難點之一變成了“遞送”(如LNP納米脂質(zhì)體在不同器官的分布)。同時,從分子層面的AIDD向細胞層面的“數(shù)字細胞"演進正在發(fā)生。利用單細胞測序、擾動測序構(gòu)建細胞的“世界模型",在虛擬環(huán)境中模擬藥物干預(yù)效果,有望大幅縮減動物實驗的時間與成本。
洞察四:AI Agent入駐實驗室,從SaaS向RaaS(結(jié)果即服務(wù))躍遷
大語言模型與AIAgent的狂飆,正在重塑科研的生產(chǎn)關(guān)系。
在過去,生物學家需要學習復(fù)雜的代碼和軟件去處理數(shù)據(jù)。而如今,諸如OpenAI Swarm模式或BioAutoMATE等智能體的出現(xiàn),正在將制藥軟件從SaaS(軟件即服務(wù))向RaaS(Results asaService,結(jié)果即服務(wù))躍遷。研究人員只需用自然語言提出需求,Agent就能自動完成文獻檢索、假設(shè)生成、工具調(diào)用和流程自動化。
張清鵬教授形容,這就像每個研究員都配備了十幾個24小時不知疲倦的“超級實習生”。
盡管目前的Agent更多是在做“降本增效”的流程自動化,尚無法觸及突破底層制藥邏輯的“無人區(qū)",但其對研發(fā)速度的提升是實實在在的,其效率提升可達數(shù)倍。在未來,隨著具身智能與自動化實驗室的結(jié)合,藥企的研發(fā)成本結(jié)構(gòu)將被徹底重寫。
在圓桌的最后,三位嘉賓還對AI制藥的未來進行了展望:在AI制藥這條長坡厚雪的賽道上,中國展現(xiàn)出了得天獨厚的優(yōu)勢。極高的AI人才密度、完備的上下游產(chǎn)業(yè)鏈、顯著的成本優(yōu)勢,以及龐大的臨床數(shù)據(jù)資源,共同促成了近年來越來越多的中國Biotech公司向海外藥企高價“出海(License-out)"的繁榮景象。
盡管我們?nèi)悦媾R著醫(yī)療數(shù)據(jù)分散、"數(shù)據(jù)孤島”林立的現(xiàn)實挑戰(zhàn),但正如許東教授所言,在特斯拉自動駕駛的演進史中,正是源源不斷的數(shù)據(jù)積累最終促成了智能的“頓悟"。隨著中國產(chǎn)學研各界在干濕閉環(huán)上的發(fā)力,AI制藥跨越“死亡之谷"的奇點,或許已在醞釀之中。
以下是本次圓桌的實錄,限于篇幅,AI科技評論進行了不改原意的編輯:
![]()
主持人: 許東(南佛羅里達大學教授)
嘉賓: 劉琦(同濟大學生命科學與技術(shù)學院教授)、張清鵬(香港大學數(shù)據(jù)科學與藥學系副教授)
01
摒棄“鑰匙開鎖”的線性思維,
敬畏復(fù)雜系統(tǒng)
許東:今天討論的主題是"后AlphaFold時代AI制藥的破與立"。AI制藥近年非常活躍,大量文章和創(chuàng)新公司涌現(xiàn),AI在制藥各環(huán)節(jié)都起了很大作用,也出現(xiàn)不少令人鼓舞的亮點。但另一方面,AI在制藥方面仍面臨很多挑戰(zhàn),無論是新藥發(fā)現(xiàn)還是臨床轉(zhuǎn)化,效率和最早預(yù)期仍有差距。我們今天希望就這些問題展開深入討論。
劉琦:感謝雷峰網(wǎng)組織這次活動。需要說明,我們團隊并不直接做AI制藥,而是偏技術(shù)層面。我個人對AI制藥最大的觀點是:AI技術(shù)本身并不能顛覆制藥的邏輯,它能夠加速研發(fā)過程、增效降本,但無法完全顛覆制藥本身。
這個領(lǐng)域確實太重要了——無論從生命健康、工業(yè)界還是商業(yè)角度,但凡能做到一點加速或降本,貢獻都是巨大的。這也解釋了為什么AI制藥這么熱,有大量工作和初創(chuàng)公司。但嚴格來說,目前尚無完全通過AI技術(shù)設(shè)計或發(fā)現(xiàn)、并走到臨床實驗?zāi)┒说乃幬铩_@是領(lǐng)域需要解決的問題。
張清鵬:我的觀點與劉老師吻合。我們往往過度關(guān)注高親和力分子,多少還是以"一把鑰匙開一把鎖"的線性思維。即便技術(shù)不進步,過幾年也會有完全AI設(shè)計的藥物上市,這肯定會發(fā)生。
發(fā)現(xiàn)靶點、設(shè)計小分子就能搞定一切嗎?我做復(fù)雜系統(tǒng)出身,人體不是可簡單拆解的機器。人體是會自適應(yīng)、學習、與環(huán)境動態(tài)交互、會代償?shù)膹?fù)雜生態(tài)系統(tǒng)。必須從系統(tǒng)科學角度,從優(yōu)化分子(binding affinity等分數(shù))轉(zhuǎn)向從系統(tǒng)層面優(yōu)化整個動態(tài)生物網(wǎng)絡(luò)的調(diào)控。
目前與臨床整合的數(shù)據(jù)相對匱乏、成本較高,很多研究計算層面挺好,實際臨床應(yīng)用還有門檻。我在藥學系發(fā)現(xiàn),藥學里藥代動力學(PKPD)等復(fù)雜動力學特征非常關(guān)鍵——藥物進人體內(nèi),不是cell line里直接起作用,能否很好遞送?能否經(jīng)過人體互動產(chǎn)生期待的藥理效果?每一步都很復(fù)雜。
輝瑞新冠藥物Paxlovid的例子很說明問題:臨床實驗前,他們用相當復(fù)雜的ODE模型做了PKPD分析,預(yù)估臨床效果很好。但這個"幕后英雄"式的數(shù)學模型發(fā)在一般雜志,引用僅30多個。這種偏機理、偏系統(tǒng)的建模,能給臨床和后續(xù)研發(fā)提供解釋性依據(jù),追溯清晰生物學路徑,會使AI在藥物研發(fā)全流程中得到更好促進。
許東:我非常同意張老師觀點。人體復(fù)雜,藥物與人體作用也復(fù)雜。我想補充:現(xiàn)在計算方法離真正落地應(yīng)用還差得非常遠。現(xiàn)階段比較有效的路徑是整合計算和實驗。
我早年做蛋白結(jié)構(gòu)預(yù)測,幾次在CASP比賽名列前茅,后來有人做得更好,加上AlphaFold出現(xiàn),很多人覺得蛋白結(jié)構(gòu)賽道沒啥可做了。我反而覺得AlphaFold帶來了很多機會,這些年回到結(jié)構(gòu)上做免疫問題。
免疫問題分兩大類:一是TCR與peptide-HLA的線性表位識別,二是BCR/antibody與抗原的構(gòu)象表位識別。第一類有不少工具,第二類基本沒有靠譜工具。大家用AlphaFold做interaction prediction,但機器學習真正廣泛復(fù)現(xiàn)很難——小數(shù)據(jù)能復(fù)現(xiàn),到real world就難,到edge cases幾乎沒工具能用。
AlphaFold這類工具在BCR/antibody場景就屬于edge cases——它基于進化中的negative selection profile,而BCR是active evolution,profile很不一樣,效果并不好。這是機器學習的普遍問題:文章結(jié)果漂亮,落地好的相當少,到edge cases幾乎沒工具可用。
這些年美國衛(wèi)生部和高分雜志非常在乎工具的reproducibility。我給劉琦老師最近一篇Nature Machine Intelligence文章做reproducibility report,非常欣賞他的工作——很多生信工作經(jīng)不起深度可重復(fù)性測試,劉琦的工作經(jīng)得起。他用meta learning方法做PanPep,我們做了非常細的測試:原始數(shù)據(jù)、新數(shù)據(jù)、fine tuning、擴展到其他case,分easy/medium/hard三種難度。
但即使這樣,目前最好的工具離實際應(yīng)用還差得遠。 比如拿一個peptide到幾千萬TCR庫里找,前100、1000甚至10000個幾乎都不靠譜。我們現(xiàn)在做蛋白多肽設(shè)計,緊密結(jié)合實驗:用貝葉斯優(yōu)化產(chǎn)生一二十個序列,實測后反饋,再產(chǎn)生新序列,一般三五輪結(jié)果就非常好。
舉個農(nóng)藥的例子:用多肽殺農(nóng)作物真菌,合作者通過phage display找到初步多肽,我們用AI貝葉斯優(yōu)化,只做了幾十個多肽,最終產(chǎn)生約100倍提高——最早的多肽稀釋100倍后仍能達到殺傷效果。這些結(jié)果已在大田驗證并被商業(yè)化,說明AI有潛力,但工具還有很大空間,現(xiàn)階段緊密結(jié)合實驗是較好路徑。
02
跨越“盲人摸象”的數(shù)據(jù)鴻溝
許東:接下來討論:AI制藥這幾年發(fā)展中,最成功的是哪些點?最失敗的又是哪些?
劉琦:就著剛才的討論延伸。為什么說AI制藥還有鴻溝未逾越?最大成功停留在早期藥物發(fā)現(xiàn)和篩選階段,即靶點發(fā)現(xiàn)、分子生成和優(yōu)化。但最大失敗也在這里:很多AI篩選的分子到臨床二期、三期就fail掉,臨床轉(zhuǎn)化率相對較低。
為什么?核心問題是數(shù)據(jù)局限性。 早期篩選多在in vitro甚至model animal數(shù)據(jù)上,與人體in vivo環(huán)境有巨大gap,這是domain差異。AI模型在有限數(shù)據(jù)環(huán)境建模,學到的規(guī)律在人體復(fù)雜環(huán)境下泛化能力不足,導(dǎo)致后期失敗率高。
再呼應(yīng)張老師觀點:當前AI技術(shù)發(fā)展(foundation model、深度學習驅(qū)動的representation learning)對機制可解釋性、模型白盒化能力較差,多是black box learning。 早期PKPD模擬可用動力學、physics-driven模型,這些優(yōu)勢隨著高階AI技術(shù)發(fā)展反而顯得不fashion。大家過于追求data-driven、deep learning-based black box模型,對藥物在人體內(nèi)如何體現(xiàn)作用的mechanism-based東西反而不清楚了。
未來方向:將mechanics-based方法與深度學習強大的representation-based方法結(jié)合, 形成“灰盒化”表征。既能高效預(yù)測篩選,又能很好體現(xiàn)藥物機制,這可能是AI制藥技術(shù)發(fā)展的重要方向。
張清鵬:成功方面:一是大幅縮減了分子篩選周期;二是老藥新用出現(xiàn)了不少好成果。 我們自己的老藥新用算法與合作臨床醫(yī)生在給無藥可用病人使用,積累了一些實際成功案例。去年《新英格蘭醫(yī)學雜志》發(fā)表了一篇關(guān)于卡斯爾曼病(罕見病)的文章,通過AI計算老藥新用,經(jīng)人工和濕實驗篩選后很快給病人用上,且有效果。這不見得那么fancy,但把分析做好、從已有藥物里選,節(jié)奏會挺快。港大也有同事通過不同方式發(fā)現(xiàn)有趣成藥點,有的是中醫(yī),有的是現(xiàn)代醫(yī)學藥物,很多都可以轉(zhuǎn)化。
失敗方面, 劉老師提到的轉(zhuǎn)化率相對不高確實存在。我舉個例子:與華中科大同濟醫(yī)學院合作時,他們講過一個故事,有位腫瘤病人腦部轉(zhuǎn)移耐藥去世,開顱后直接把藥撒到大腦里有效果,但遞送不進去。我們發(fā)現(xiàn)了鑰匙,但怎么費盡千辛萬苦插到鎖上?這中間是非常復(fù)雜的過程。 mRNA最終得諾貝爾獎,關(guān)鍵就是納米脂質(zhì)粒的發(fā)現(xiàn)能很好遞送。我們團隊最初也想設(shè)計mRNA語言模型,但最后發(fā)現(xiàn)最有趣的是如何設(shè)計納米脂質(zhì)粒,使其針對不同病人、不同器官更好遞送。生成各種target或promising molecule之外,與生物結(jié)合更多一些,這是未來最有潛力、也最有興趣投入的點。
許東:兩位老師說得非常好。AI展現(xiàn)的最大成功就是早期篩選的效率提升:以前做assay可能成千上萬,現(xiàn)在能真正下一個數(shù)量級,這毋庸置疑。但剛才也講到,它在整個制藥鏈上占的研發(fā)成本比例還是比較小,并沒有撬動整體AI制藥的范式,還有很長的路要走。
當然,人體太復(fù)雜、藥物與人體作用太復(fù)雜。張教授講到的老藥新用,某種程度上能繞開一些問題。老藥基本被臨床驗證過,至少副作用不用擔心,正作用有多大雖不確定,但風險可控。比如我在CureMatch做過advisory board,他們用藥物組合(兩個、三個藥聯(lián)用)做老藥新用,效果還不錯。AI在這方面也能起很大作用。
劉琦:老藥新用確實是非常快速可以切入的賽道。就像許老師說的,老藥的毒性、安全性已被研究得比較透徹,如果能快速找到新適應(yīng)癥,是相對穩(wěn)妥、快捷的方式。
但從商業(yè)角度,它也有問題:很多藥廠在做藥時會盡量自己擴大適應(yīng)癥,或用專利保護起來。要很好突破專利、找到新indication,并不容易;但一旦能做到,是非常好的事情。
另一個觀察:早期計算機輔助藥物設(shè)計叫CADD,現(xiàn)在叫AIDD,但早期AI范式更多停留在molecular層面。drug target明確的蛋白放在那,去找相互作用的分子。但藥物研發(fā)是非常長的鏈條,越往后越不是簡單molecular層面的問題,會上升到cellular、tissue層面,最終是human body層面的問題。
這也要求AIDD研究范式要有創(chuàng)新。像GeneTech他們推的,以及許老師說的protein design例子,就是大家認為需要做lab in a loop,用實驗數(shù)據(jù)快速反饋,形成閉環(huán),快速迭代方法。 無論是molecular層面、cellular層面還是tissue/organ層面的模型,都需要實驗反饋來校正算法。不能完全依賴AI算法本身的能力,要放到更大閉環(huán)上看這個問題。
張清鵬:順著劉老師補充兩點。第一,老藥新用中,如果找到好藥物、有一定新適應(yīng)癥潛力,就從設(shè)計全新molecule變成優(yōu)化現(xiàn)有molecule、改進它。 通過改進突破現(xiàn)有專利封鎖,同時使新適應(yīng)癥效果更好。從純建模角度應(yīng)該能辦到,現(xiàn)實化學里是不是可行,我不是特別清楚,但覺得應(yīng)該是可以的。
第二,許老師說的老藥新用里的combination(藥物組合)。我做復(fù)雜系統(tǒng)出身,最開始做藥物研究就是做這個。就像研究社會網(wǎng)絡(luò),想控制系統(tǒng)往往不是一個靶點能控制的——疾病本身可能不是某個通路或蛋白決定,而是整個系統(tǒng)穩(wěn)態(tài)失衡。系統(tǒng)性疾病或aging往往是很多基因、蛋白、通路共同的狀態(tài)轉(zhuǎn)移。找到合適用藥方案,往往需要多個靶點,這就涉及藥物連用問題。
連用問題變成復(fù)雜系統(tǒng)/網(wǎng)絡(luò)里多靶點最優(yōu)化的問題,有很多算法優(yōu)化空間。可以一股腦扔給AI做,但這么多年組合優(yōu)化、甚至量子計算方法,都可能在這里產(chǎn)生很好應(yīng)用。
許東:剛才兩位都談到突破專利的問題。現(xiàn)在一些團隊和公司就做這事,尤其在多肽抗體方面,有專利的抗體或多肽,用AI在周邊尋找類似的,不一定是序列類似,而是binding confirmation類似。
這條賽道也面臨挑戰(zhàn):現(xiàn)在專利把claim做得非常廣,突破專利不容易。這也有些爭議:用AI專門攻克現(xiàn)有專利,某種程度上是不是降低了專利保護的范疇? 但另一方面也可能增加可能性。大家對這個問題怎么看?
劉琦:感覺現(xiàn)在特別是Agent技術(shù)、大語言模型驅(qū)動的Agent技術(shù)發(fā)展,對專利信息收集整理能力相對于之前有巨大提升。 最近很多公司在做類似的事,通過智能體技術(shù)對文獻、專利信息整理、總結(jié)、梳理,甚至做自動化知識提取,幫助指導(dǎo)從頭設(shè)計新序列或抗體突破專利。整個事情可能通過智能體、像OpenClaw這種技術(shù)快速迭代完成。
未來這確實是雙刃劍: 一方面大家能快速在藥物研發(fā)中獲取更多信息、快速迭代;另一方面對制藥公司本身也提出很大挑戰(zhàn),怎么在未來更好保護自己的產(chǎn)品。雙方都會有非常多技術(shù)突破的地方。
許東:這個問題確實是雙刃劍。一方面增加可能性,另一方面整個藥物研發(fā)從pharmaceutical到biotech company,在美國已面臨很大壓力。美國過去醫(yī)保賣藥利潤豐厚,能拿很多資源回來開發(fā);但現(xiàn)在慢慢學其他國家,特別是Medicare用國家式采購,對定價權(quán)要求很高,制藥公司面臨資源越來越少。biotech投資也變得風險比較大。
如果大家都攻克專利,說白了就是靶點已知、路走通了、antibody work了,我們改一改sequence也能work,這當然也是一種方式;但找到新靶點、解決新病的壓力就大了。 兩方面要有個均衡。
確實全球范圍內(nèi),真正novel的drug development在放緩。即使AI所謂助力,整體藥物開發(fā)看FDA approve的新藥也是越來越少。當然另一方面,剩下的病也越來越難攻克,都有這方面因素。這個問題可能沒有明確結(jié)論,但確實值得思考。
劉琦:許老師說的讓我想到藥物研發(fā)里的"反摩爾定律"(Eroom's Law)。大家都知道摩爾定律是技術(shù)快速迭代、計算成本快速降低;但藥物研發(fā)的反摩爾定律是:技術(shù)發(fā)展快、投入錢多,但真正產(chǎn)出率反而降低。 為什么是這樣?我現(xiàn)在也沒有很好答案,但這是需要大家關(guān)注的問題。
許東:很大程度上是因為剩下的問題越來越多的是硬骨頭,低垂的果實已被摘完,剩下來的是更難做的靶點、更難成藥的靶點。
我們可以就計算本身討論。剛才講了整個制藥鏈,單說計算這一塊,我個人認為也有比較大挑戰(zhàn)。PPT里展示了,真正工具用到實際數(shù)據(jù),和文章結(jié)果差得相當遠。 很多問題看似解決,其實沒有解決。
比如預(yù)測多肽能不能通過腦血屏障,很多方法文章結(jié)果都很好,但真正去預(yù)測真的不行。這些事還得通過昂貴實驗去做。所以藥物預(yù)測的泛化能力好像是個很大問題,和其他AI領(lǐng)域不太一樣。自然語言或圖像泛化能力可能還比較好,但藥物除了人體太復(fù)雜,還跟Alpha chain、Beta chain、HLA allele type、環(huán)境、怎么測的數(shù)據(jù)都有關(guān),問題特別復(fù)雜。
另外,feature也非常少。小分子可以用SMILE、structure表示,但feature就這么點,和一張照片比少得多;氨基酸feature更少,蛋白或多肽就是20種氨基酸的組合。能用的feature少,我認為也是造成泛化能力差的原因。
所以想問:AI制藥這些工具,今后有沒有可能真正有更好的思路和方法提高泛化能力?至少讓這些工具不只存在于高分文章中,而是真正藥物開發(fā)的給力工具?
劉琦:我很同意許老師的說法。可以這樣想:AI最早的應(yīng)用場景是text和image,為什么AI在AI for science或AI制藥領(lǐng)域泛化不那么容易?不像圖像識別有ImageNet,深度學習技術(shù)出來后就能做得很好。
我覺得一個原因是:我們對藥物、靶點、生命體的研究描述還是不夠完備,需要更多信息描述研究對象。 換句話說,當前使用的特征或信息描述有點像"盲人摸象":只是拿到完備描述空間中某一部分。做組學分析時經(jīng)常能看到:描述一個細胞或生命系統(tǒng),不是一個簡單模態(tài)就能描述完備的。這導(dǎo)致在不完備描述空間設(shè)計AI算法,泛化能力會受到限制。
第二個最大問題是:可用來訓練的標注信息、監(jiān)督信息相對不容易獲取或缺失。 不像image或text,訓練模型時監(jiān)督信息相對容易獲取,比如image標簽是貓還是狗很容易知道。但藥物領(lǐng)域很多標注信息缺失。比如許老師說的epitope問題、免疫的epitope和TCR包括跟HLA結(jié)合的問題,這是非常典型的小樣本學習問題。HLA有很多亞型,很多deposition數(shù)據(jù)只在特定常見亞型上,要把模型泛化到?jīng)]見過的HLA亞型,標注信息就不足。
再比如預(yù)測HLA抗原復(fù)合物和TCR結(jié)合,同樣是這個道理。本身就是long tail、長尾分布問題。這樣的問題在藥物研發(fā)里非常常見:針對某蛋白家族做篩選,大量訓練樣本只在某類特定蛋白上見過,要泛化到?jīng)]見過的蛋白,必定遇到問題。
這也是為什么AlphaFold做得比較好。它有相對干凈、噪音小的ground truth data,可以把protein folding做好;但放到其他領(lǐng)域,不一定有這么干凈、好的ground truth data讓你訓練模型。 再加上生命體系本身非常復(fù)雜,不像text、image信息就放在那。各方面原因?qū)е铝诉@些問題。
張清鵬:劉老師回答已經(jīng)很到位了,我完全echo"盲人摸象"這個點。從AI角度,AI本質(zhì)上還是在"猜",猜哪個equilibrium state對應(yīng)什么樣的memory或state。 如果只是盲人摸象的片面數(shù)據(jù),確實很難有泛化性猜出去,因為本質(zhì)上還是在猜,沒有實際對機理的完整理解和推理能力。
就像自然語言或照片,像劉老師說的,有最完整的ground truth,訓練模型效果在算力、模型結(jié)構(gòu)達標情況下確實能達到很好效果。港科大熊輝老師說過:數(shù)據(jù)越完整清晰,AI猜得越準,取代人的效果越好,比如寫代碼、翻譯等。
但問題在于,很多問題上根本沒有完整數(shù)據(jù),而且很多是動態(tài)的,我們把它當靜態(tài)看;很多時候只有正樣本,沒有負樣本,因為藥廠不會把失敗數(shù)據(jù)分享出來讓你學習。 數(shù)據(jù)本質(zhì)上的缺失,AI畢竟不是魔法,還是在猜。沒有足夠數(shù)據(jù)學習,猜得比較局限、比較過擬合,這是可以理解的。
許東:我很同意兩位的說法,剛才都提到了數(shù)據(jù)問題。數(shù)據(jù)確實少,很多所謂"negative results"我們都看不到。但我自己覺得,數(shù)據(jù)總歸會積累,只會多不會更少,今后可能逐漸變好。
我上個月買了特斯拉,用全自動駕駛。以前覺得那東西不是特別靠譜,現(xiàn)在幾乎開車全用自動駕駛,因為它現(xiàn)在確實非常靠譜。特斯拉早年也報道過問題,但現(xiàn)在Model Y做得非常好,就是通過數(shù)據(jù)不斷積累。 即使積累到現(xiàn)在,它還得不斷擴充大模型、不斷address我管它叫"edge cases",因為總有一些新case。
這個過程在藥物研發(fā)中可能也一樣:數(shù)據(jù)不斷積累,不斷有大模型。 現(xiàn)在制藥方面,無論小分子還是免疫,都有人在做所謂"仿真式模型":真正集結(jié)大規(guī)模數(shù)據(jù)。這方面我覺得還是給我們一些希望:也許這些仿真式模型達到一定程度后,真能出現(xiàn)所謂"頓悟"現(xiàn)象,就是Grok或emerging intelligence現(xiàn)象,在某些問題上產(chǎn)生實質(zhì)性突破。
這當然是猜想,沒有很強證據(jù),但既然在別的領(lǐng)域能做到,藥物領(lǐng)域可能也只是時間問題,也許是5年或10年這個時間段。
03
從小分子、多肽到免疫療法:
如何尋找藥物研發(fā)的“好賽道”?
許東:那我們下一個話題,討論AI制藥在不同種類藥物上的特殊之處。先說小分子——小分子當然還是現(xiàn)在藥物的主流。有些從NCI library里找small molecule做screening,有些做真正的de novo藥物設(shè)計。但de novo設(shè)計有時能設(shè)計出來,卻不容易合成,或合成效率太低、成本太高。也有從中藥或草藥中篩選小分子有效成分,這些都是AI能上手的機會。
小分子有優(yōu)點:比較穩(wěn)定、容易合成,但也有副作用等問題。想聽聽兩位老師:AI在小分子賽道上能起哪些作用?今后年輕老師選題,哪些可能是比較好的題目?
劉琦:藥物研發(fā)現(xiàn)在有非常多modality,最經(jīng)典的還是small molecule,相對其他方式有很多優(yōu)勢,所以這也是AI制藥里做得最多、從早期CADD就大量在做的領(lǐng)域。涉及很多molecular層面問題:有靶點,怎么針對靶點做小分子篩選?
看技術(shù)發(fā)展趨勢,從早期篩選到現(xiàn)在大家慢慢做更多Generative AI:不需要篩,而是設(shè)計生成新小分子。這又帶來新挑戰(zhàn),就像許老師說的:生成出來的小分子怎么評估成藥性?是否可以合成? 不能生成出來很理想、很好,最后合成不出來。藥物研發(fā)里還有很多問題需要解決。
我們現(xiàn)在看到很多工作,包括自己也在做,利用foundation model強大的表征學習能力,加上后續(xù)微調(diào)、后訓練技術(shù)做藥物篩選和生成。但這里面非常重要的問題是:如何快速獲得對AI模型的反饋? 這也是我前面強調(diào)的,要做快速反饋,干濕實驗結(jié)合。
現(xiàn)在有些工作做active learning(主動學習),本質(zhì)上就像許老師舉的蛋白質(zhì)設(shè)計例子,把整個設(shè)計loop做成實驗反饋,通過貝葉斯優(yōu)化做實驗反饋的loop。這可能是現(xiàn)在很重要的方向:讓模型在相對較少訓練樣本時,通過閉環(huán)反饋快速迭代、提升性能。
張清鵬:AI在分子設(shè)計這塊已經(jīng)很高產(chǎn)了,就像劉老師說的,但缺乏反饋。我們團隊純做算法,最近加入醫(yī)學院,發(fā)現(xiàn)實驗部分不管是合作還是外包,對項目成本和時間耗費都比較高。
我比較期望自動化濕實驗?zāi)軜O大把成本降下來,就像AI的token越來越便宜一樣。OpenAI的Swarm雖然現(xiàn)在有人拿它賺錢,不代表以后都拿它賺錢,它更多是一個toy,但展示的未來會越來越好、越來越有機會。給大家機會和AI Agent不停interact、得到反饋、知道怎么用這個東西。
自動化濕實驗成本越來越低、足夠低的情況下,很多實驗可以做大量積累正負反饋。 這樣找的并不是單一點上分數(shù)最高的,而是通過大量反饋找到機制清晰、對整個系統(tǒng)擾動更穩(wěn)健、更容易轉(zhuǎn)化的分子。
許東:剛才兩位都說到快速反饋的賽道上確實也見到一些工作,比如實驗室能把機器人和AI聯(lián)動,一邊設(shè)計一邊24小時不停篩選。商業(yè)上也有Recursion Pharmaceuticals、Ginkgo Bioworks這些公司。我們合作者去詢價,Ginkgo做一小單10萬美元起步,對一般學術(shù)單位不太現(xiàn)實。
當然希望這過程在制藥工作中能加速。篩選數(shù)以萬計起步,全自動篩選不同小分子,馬上在細胞assays上看到結(jié)果,馬上給AI設(shè)計新小分子,馬上合成、測細胞assays,24小時不停迭代。也許這一塊今后在藥物開發(fā)上能取得比較亮眼的成績,但現(xiàn)在好多還是POC(proof of concept),不是制藥公司廣泛使用的模式。
許東:那我們下面討論蛋白多肽制藥。這些年以蛋白多肽為基礎(chǔ)的藥物呈上升趨勢。我自己長期做多肽設(shè)計,有一點特別想提:小分子我們過去也做過,新冠時發(fā)過一篇小分子文章,引用還挺多,但合成非常復(fù)雜,找實驗合作者也沒做成功。多肽就不是這樣,設(shè)計出來就能合成,價錢現(xiàn)在還挺低。
比如做de novo肽合成,這邊能找到專門服務(wù),差不多200美元合成一個多肽,國內(nèi)有些單位更便宜。如果不追求純度、不做de novo合成,用大腸桿菌表達,又便宜很多。
所以蛋白賽道不存在"能不能合成"的問題,但存在"怎么有效、是否穩(wěn)定"的問題,最好常溫也能用,盡量避免副作用等。
我們現(xiàn)在參與的一個合作是做老年癡呆疫苗開發(fā),用抗體中和Aβ。早期有人做過,大部分人真有效、真能把Aβ降下來,但6%的人有很強副作用(腦膜炎等),臨床實驗被叫停。抗體這種方式有時副作用非常大,包括現(xiàn)在癌癥免疫療法也有很多非常大副作用。這塊不知道兩位有什么經(jīng)驗分享?
劉琦:我做多肽、抗體相對少一點,許老師經(jīng)驗更多。但很同意許老師說法:相對于小分子,多肽抗體可合成性肯定更容易,但凡事都有兩面性。
張清鵬:之前跟騰訊合作過一個TCR de novo design的paper,問了業(yè)界一些朋友,有個別公司依托醫(yī)院給比較獨特、比較少的病人做臨床轉(zhuǎn)化實驗,但目前還沒積累到很多很強證據(jù)。
我個人比較感興趣的還是免疫治療,不單單是癌癥或自身免疫系統(tǒng)疾病,其他和免疫系統(tǒng)相關(guān)的疾病。我們不是指望蛋白一次性解決所有問題,更多從系統(tǒng)角度看怎樣影響免疫系統(tǒng)整體狀態(tài)。這和蛋白質(zhì)、多肽、抗體設(shè)計相關(guān)性很強。
人體內(nèi)免疫抑制蛋白很多種,大家常用的就兩種,但還有很多種。這些各種各樣的免疫checkpoint protein是不是對應(yīng)一些抗體設(shè)計,或T細胞受體等其他調(diào)控免疫系統(tǒng)的機制可以調(diào)用起來?這還有很多可以玩、可以探索的點,但我們還沒有相關(guān)成果出來。
許東: 剛才說的免疫,我認為是大有可為。免疫療法幾乎是制藥里的"頂流",現(xiàn)在最早成功是癌癥,免疫療法把過去癌癥四期判死刑的人,現(xiàn)在百分之二三十能治好,這是相當驚人的成就。
這種療法也用到老年癡呆,像我們參與的一型糖尿病,用得非常廣。免疫方式以后非常有空間做。 年輕老師如果愿意在這個賽道走,其實大有可為。AI現(xiàn)在做得還非常淺,真正把AI和免疫系統(tǒng)深度結(jié)合的工作非常少。
我經(jīng)常審這類文章,比如給Nature大子刊審。其實我不是免疫專家,免疫懂得很少,但用AI做免疫問題,找reviewer很難找,所以很多人找我來review,兩邊都知道一些的人不太多。這反過來說其實是個機會。
真正把免疫的東西走得更深、AI結(jié)合底層更深,從科研工作來說"俗一點"能發(fā)更高分文章,"大一點"可能在藥物研發(fā)上有更多突破。
張清鵬:稍微補充一點。我個人對這最感興趣,也是團隊核心、現(xiàn)在和未來的研究重心。但和一些很知名的免疫專家交流,大家還是持相當保留態(tài)度,覺得AI還是overhyped。
一方面期待能做出很好工作,另一方面需要有合理預(yù)期。那位老師說overhyped,但依然用AI設(shè)計了一個預(yù)測免疫反應(yīng)的很好文章。他所謂的overhyped是說:想靠AI在數(shù)據(jù)不夠完整情況下猜出整個免疫系統(tǒng)實際狀態(tài)和response,還是很難。
但具體到病人,比如PD-1百分之二三十的drug response,能把病人response區(qū)分開、把病人數(shù)據(jù)和實際藥理學特征對應(yīng)得上,這本身已經(jīng)非常非常強了。 只是在超級大佬眼中可能覺得沒那么強,但對很多想讓它轉(zhuǎn)化到臨床的人來說,還是很有希望的。
許東:我對免疫專家這種觀點并不驚訝,因為免疫系統(tǒng)實在太復(fù)雜了,我們對免疫系統(tǒng)的知識其實知道得非常少。 不光不做免疫的,整個做免疫的專家對免疫系統(tǒng)了解我覺得還是比較表面,光T細胞本身就是一個王國,里面各種各樣事情特別多。
所以AI起的作用絕對還是非常小的,但從另一點來講這就是好的領(lǐng)域。 我們現(xiàn)在在這方面稍微深耕一點,我個人愿意往這方向多用力。年輕科研工作者也可以考慮這個方向。
楊振寧過去講過一句話,我上大學時親耳聽到:"什么是好領(lǐng)域?找到真正有很大空間成長的領(lǐng)域,你自己的事業(yè)也隨著領(lǐng)域一起成長,這就是好領(lǐng)域。"我覺得用計算方法、特別是AI方法做免疫,可能就屬于這么一個賽道。
劉琦:我也很同意上面兩位老師的說法。我們自己也確實在做一些免疫治療、細胞治療方面的工作,跟更多免疫學專家討論。可能兩位老師不太清楚,中國這邊基金委有非常大的項目支持,所謂"免疫力解碼",在基金委交叉學部立很大項目,從免疫系統(tǒng)數(shù)據(jù)整理收集,到AI方法開發(fā),到具體免疫學應(yīng)用,我國有很大布局。
從AI藥物研發(fā)角度,免疫治療、細胞治療一定是非常重要的領(lǐng)域,相對于傳統(tǒng)其他類型疾病治療、其他modality,都有很多探索空間,但里面也確實非常多挑戰(zhàn)。
最大挑戰(zhàn)確實是:免疫學本身高度復(fù)雜,很多免疫學家自己都還沒搞清楚,更別說我們用AI來做。 包括前面許老師舉的例子,我們那篇文章也是在做一個最基本的fundamental問題,抗原和TCR到底怎么識別、怎么結(jié)合? 通過做這問題就能看到里面有非常多挑戰(zhàn)。
04
RNA、數(shù)字細胞與與大模型時代的洞察
許東:那我們下面討論RNA賽道。RNA本身可以通過新冠疫苗方式作為遞送方式。比如我們跟Scripps Research合作,他們做一個蛋白針對癌細胞,但不是把蛋白輸入人體,而是像新冠疫苗一樣把mRNA放到人體,mRNA進入癌細胞內(nèi)部表達。這避免了很多問題,很多蛋白越不過細胞膜,但mRNA在里頭表達就解決了。
這是一種遞送方式。另外小RNA賽道,siRNA、miRNA等,也有不少人探討用AI輔助制藥。在mRNA制藥賽道上,兩位老師有什么想法或信息分享?
劉琦:從最早做RNA inference、siRNA設(shè)計,到現(xiàn)在非編碼RNA、microRNA,到現(xiàn)在mRNA疫苗,這個賽道確實和其他modality(抗體或小分子)有不一樣的關(guān)注點。就像許老師說的,它最重要的是解決了遞送方面的重要問題,所以這也是領(lǐng)域非常受關(guān)注的原因。
張清鵬:我們經(jīng)驗類似。最開始覺得用語言模型做顯然可以做,也看到有些同事發(fā)文章。但實際做時請了一個學藥物的本科生實習,一個本科生就把我們模型從機理上講漏洞百出,單單想著很簡單假設(shè)、一個語言模型就能解決所有問題。
逐漸了解更多后,目前做得更多的還是遞送這一塊,LNP不同器官分布、預(yù)測組分在不同器官分布、內(nèi)吞路徑、脫靶風險等。希望從載體RNA、細胞整體微環(huán)境多尺度模型,看遞送動力學、化學修飾等一體建模,這是我們在做的一些研究。
許東:那我們下個話題討論其他數(shù)據(jù),多組學數(shù)據(jù)、單細胞數(shù)據(jù)對藥物的影響。剛才講了藥物和人的作用非常復(fù)雜,所以很多方法做藥物效果預(yù)測。早期在細胞器里做bulk RNA-seq,看藥對細胞器的影響。現(xiàn)在做得比較多的是single cell level,甚至大規(guī)模做Perturb-seq大規(guī)模篩選。
其他組學如蛋白組學、修飾組學也做得蠻多。很多藥物作用離不開蛋白修飾,比如抗體作用,抗原糖基化等修飾會阻斷作用,測各種組學能理解這事。
進一步現(xiàn)在做Virtual cell,真正把細胞里方方面面在虛擬細胞里模擬出來,變成actionable的模擬器。在虛擬細胞里加藥,看會有什么效果。這方向在美國衛(wèi)生部也推動,因為過去做臨床或?qū)嶒灥媒?jīng)過大型動物、找猴子等,現(xiàn)在美國衛(wèi)生部說可以越過——用細胞實驗或小鼠實驗,不用做猴子實驗,直接到人的一期臨床試驗。Virtual cell模擬作用越來越重要。
這賽道也有很多AI方法。我們自己做單細胞數(shù)據(jù)比較多,劉琦老師也做很多這方面工作。單細胞分析、AI對藥物響應(yīng)預(yù)測可能有幫助。兩位老師在這方面有什么想分享的?
劉琦:組學這塊我們確實做了比較多工作,包括單細胞組學。許老師提到Virtual cell概念,我們現(xiàn)在開發(fā)所謂in silico cell、Virtual cell、數(shù)字細胞,不同概念,但是其實指向相似的事情。
在AIDD領(lǐng)域怎么理解?個人覺得它超越了傳統(tǒng)molecular level的AIDD技術(shù)手段,更多是從cellular角度做系統(tǒng)刻畫。 很多時候組學解決的問題,并不是靶點非常明確、針對蛋白做藥物設(shè)計或分子篩選,而是只有cellular level的profile、phenotype readout,可能是基因轉(zhuǎn)錄組、蛋白組、修飾等,是體系本身的readout。
加上現(xiàn)在perturbation-based技術(shù)(如Perturb-seq),可以研究細胞在擾動狀態(tài)下怎么變化。我們現(xiàn)在也做很多這些東西,包括提了一個概念叫"world model(世界模型)",指的是從動力學角度出發(fā),像無人駕駛汽車一樣,研究細胞在擾動狀態(tài)下的變化軌跡、運動軌跡。
從藥物研發(fā)角度,這本質(zhì)上是底層邏輯,可以應(yīng)用于小分子藥物研發(fā),也可以應(yīng)用于細胞治療、抗體研發(fā)等。它更多是從cellular level而非molecular level研究體系。組學技術(shù)本身跟蛋白質(zhì)結(jié)構(gòu)建模、小分子虛擬篩選等技術(shù),提供了另外一個角度的補充,都是從藥物研發(fā)角度幫助發(fā)現(xiàn)新治療方案、找到新靶點等方面體現(xiàn)作用。
張清鵬:單細胞這邊我們是另外一個角度。一方面是和臨床結(jié)合合作,對比治療前/治療后、預(yù)后好/預(yù)后不好的病人的單細胞數(shù)據(jù),看能不能找到可能的druggable target。找target的過程中,就像劉老師說的已經(jīng)到了cellular level,很多時候看到單細胞數(shù)據(jù)里,病(不管是腫瘤還是其他)不是鐵板一塊,而是復(fù)雜生態(tài)系統(tǒng)。
干預(yù)過程往往也不是以前那樣看所有細胞的平均狀態(tài),現(xiàn)在能看到不同細胞之間intercellular有很多interaction、互相制約和調(diào)控。 這很符合我們做建模、尤其是復(fù)雜系統(tǒng)建模的方向,是我們很感興趣的方向。所以更多還是在利用單細胞測序出來的數(shù)據(jù)。
05
AI Agent 的涌現(xiàn)與RaaS模式的突破
許東:那我們下一個話題談?wù)凙I Agent方向。我教機器學習方法論這門課,深感機器學習發(fā)展實在太快,估計教別的課每年改一點點PPT就行,機器學習這門課每次講,百分之二三十內(nèi)容全得置換,內(nèi)容太新了。
從自然語言模型到大語言模型,再到AI Agent,然后到所謂"skills"模式,這個發(fā)展可能給制藥賽道提供一些東西,比如從文獻檢索到假設(shè)生成、實驗設(shè)計、分子篩選,整個都能串在一起。
我們也見到生信里一些好的Agent,比如Biomni,自己在試這個模型,確實相當給力。這些Agent對藥物范式會不會有真正更大的影響? 還是比較期待的。兩位老師在這問題上有什么想法?
劉琦:我在同濟教機器學習本科課程,也覺得變化非常快。AI從早期符號主義,到現(xiàn)在深度學習連接主義,再到foundation model,到現(xiàn)在Agent時代,發(fā)展非常非常快。
生物包括AI制藥領(lǐng)域也看到Agent應(yīng)用。記得很早ChatGPT剛起來時,許老師在給我們學校線上報告講到prompt、提示工程,現(xiàn)在看技術(shù)又不停迭代,從RAG技術(shù)到現(xiàn)在可能用得不多,到現(xiàn)在OpenClaw等技術(shù)。
也確實看到像許老師說的Biomni,還有北美James Zou等做的很多類似Agent工作。但我個人觀點:至少從現(xiàn)在工作看,Agent更多還是扮演自動化的銜接紐帶。更多是用智能體技術(shù)把很多分析工具和流程整合起來,就是現(xiàn)在說的"skills"——本質(zhì)上還是工具流程的整合和自動化,并沒有傳統(tǒng)理解的training-prediction的AI味道,還差那么點意思。
當然不妨礙未來用大語言模型能力,從訓練角度、規(guī)劃角度,涉及后訓練技術(shù)、強化學習運用,真正讓智能體發(fā)揮作用。現(xiàn)在感覺Swarm這種東西,更多還是大元模型做流程化調(diào)度和整合,智能因素還沒有那么被發(fā)揮出來。
張清鵬:我們雖然我在藥學系,但一半contract在數(shù)據(jù)科學,給全校設(shè)計AI literacy課程,包括給醫(yī)學院設(shè)計相關(guān)課程,也是每次幾乎要改大半部分。
個人覺得現(xiàn)在AI Agent,一方面不知疲憊,可以一直壓榨它;另一方面記憶力好一點,最起碼在context下面可以做到過目不忘。類似于實習生角色。基模水平可能還沒有特別強,但每個人都有10個、20個24小時工作的實習生,效率肯定提高很多。
而且想到OpenAI Swarm是一種,今年下半年肯定會有更好機制、更好基模出來,token也會越來越便宜。稍微往前看,肯定能比去年James那篇Nature做得更好。像這種相對模塊化的科研工作,以后到底什么是科研、什么是人要做的科研,可能需要一定程度重新定義。
有些工作可能真的是a group of Agent完全可以做,完全不需要人參與,以后還是不是我們所謂"人參與的科研",范式上都會有所改變。但短期內(nèi),肯定還是看human in the loop,像James那篇文章,還是有一個人,如果沒有人可能也做不到那個效果。肯定還是有人在關(guān)鍵點發(fā)揮人最重要的角色,然后放大AI能力、放大每個人能力。
整體而言還是非常興奮。這東西有點像Minecraft游戲,接下來給這些AI Agent一個、兩個或100個、1000個,讓它自己在里面做各種各樣的事,感覺像有個基地,絕大多數(shù)潛力都還沒有被挖掘出來。可能比協(xié)調(diào)還要再往前一步,現(xiàn)在基模一定程度上是可以辦到的。
當然也包括藥物研發(fā)。藥廠以后成本肯定會降很多,因為記得讀書時有個PhD Comics,一個做生物化學實驗的博士生崩潰說每隔幾小時往里加點東西做實驗,"猴子都能干這個事情,我憑什么要干?"。以后具身智能這些方法,Agent在現(xiàn)實實驗室中能具身出來,可以省掉很多成本。還是挺期待AI Agent在藥物研發(fā)里的各種可能性。
許東:我自己感覺,Agent這種方式,特別是Swarm模式,在AI制藥賽道上,可能幫的更多的不是方法,而是幫了人。
什么意思呢?以前都是Hardware as a Service(HaaS)、Software as a Service(SaaS)、Data as a Service(DaaS)。Swarm模式真是叫RaaS(Results as a Service)。 你告訴他自然語言的東西,他就直接給你出結(jié)果了,這是過去沒見過的情況。
在生信問題上,過去很多做實驗的人覺得用生信挺復(fù)雜,現(xiàn)在跟他說用自然語言把問題說一說,Agent就幫你做了,像BioAutoMATE很大程度上已經(jīng)實現(xiàn)這個事了——讓很多實驗的人很容易上手AI工具。
另外,即使我們做計算的,一般學生做問題可能還是比較窄。比如真正做AI設(shè)計的,問他稍微一點,讓他用別的問題做點pipeline設(shè)計,能不能不要有免疫反應(yīng)?正常情況下他得去學那個東西做成半天,Agent就是描述一下,Agent幫他做了。 所以這些對人的幫助確實非常明顯。
劉琦:對,我覺得許老師說得特別對。個人感覺Agent對AI制藥來說,還是沒有跨越最初講的那些壁壘,它更多還是加速降本增效過程,提高藥物研發(fā)前期早期效率、降低成本。原先做實驗要一天,現(xiàn)在可能只要一個小時;原先設(shè)計什么東西,通過Agent很快把前面所有東西都做好。
但本質(zhì)的藥物研發(fā)邏輯還是沒有辦法突破,包括前面說的那些問題,somehow還是存在在那里。當然不排除未來Agent進化非常快,可能有新技術(shù)產(chǎn)生。比如現(xiàn)在也看到,包括在AI模型設(shè)計上,很多工作是用Agent幫助設(shè)計AI模型架構(gòu),希望用Agent幫助更好設(shè)計模型架構(gòu),達到很好泛化性能。 像這樣方向可能對我們突破AI制藥本身的重要挑戰(zhàn)幫助更大,而不是降本增效。
當然對制藥公司來說,很多也非常愿意買單。現(xiàn)在看到真正做AI制藥的,不是用AI研究篩選小分子,可能是幫做文獻整理、臨床資料整理梳理自動化,反而這樣一些公司很賺錢。 真正做AI制藥的公司反而不是那么容易賺錢,道理也在這個地方。
張清鵬:前一段見一個校友,制藥公司,聊到最后說能不能幫我部署幾個Agent,讓我裁掉1/3的人。 最終就像劉老師說的,更感興趣的還是直接能降本增效的點,實際核心業(yè)務(wù)流程現(xiàn)在還很難切進去。
許東:增效確實非常明顯。比如我們組有人說,做AI模型什么的,現(xiàn)在研發(fā)速度一個人相當于以前6個人的速度。訓練這些東西還是得花那么多時間,但產(chǎn)生模型的速度基本上能提高好幾倍,這點確實非常明顯。
06
全產(chǎn)業(yè)鏈的降維打擊與數(shù)據(jù)孤島的隱憂
許東:那我們最后一個問題,講講中國在這方面的發(fā)展。今天聽眾很多是國內(nèi)的。國內(nèi)在AI制藥賽道上,對全球科研貢獻越來越大,產(chǎn)業(yè)上也見到很多創(chuàng)新亮點:比如一些單抗、雙抗被國外大型藥企高價收購,非常喜人。從中國發(fā)展來說,兩位老師對做藥物的優(yōu)勢、機會、挑戰(zhàn)有什么想法?
劉琦:確實看到很多中國藥企做海外deal,現(xiàn)在成了一種趨勢、一種商業(yè)模式。原因很多:
第一,中美成本差異。 中國藥物研發(fā)上下游產(chǎn)業(yè)鏈,從成本上來說相對美國很有優(yōu)勢,產(chǎn)業(yè)鏈也非常完備。在中國如果有idea,自己具備實現(xiàn)idea做藥的所有產(chǎn)業(yè)鏈條,整個產(chǎn)業(yè)成本也比較低。這是國外大藥廠從中國買drug最大的原因。
第二,中國有比較大的臨床數(shù)據(jù)資源,這也是很重要的優(yōu)勢。
第三,國家本身的技術(shù)儲備、人才儲備,包括AI技術(shù)產(chǎn)業(yè)快速增長,也是很重要的原因。從AI技術(shù)上看,中國應(yīng)該不比美國差多少。
這些都讓我對中國AI制藥未來產(chǎn)業(yè)發(fā)展非常非常有信心。最近也看到很多公司,比如英矽智能、晶泰科技等都做得非常好。
張清鵬:我也同意劉老師說的。一方面制藥產(chǎn)業(yè)剛才劉老師說了,從AI產(chǎn)業(yè)來說,差距基本上在一年之內(nèi),是非常小的差距。AI底層不管是能源供給、能源成本,未來token成本,這些都有優(yōu)勢。中國需求也比較大。
唯一的是,數(shù)據(jù)雖然多但比較分散,很難形成聚力。 尤其是臨床這塊,我們接觸得多一些,數(shù)據(jù)之間互通一定程度上抑制了很多可能的創(chuàng)新研究以及轉(zhuǎn)化機會。 當然這些都是好攻克、好改變的。
許東:我很同意,這方面國內(nèi)會越做越好。剛才講到人才儲備,不光是國內(nèi),全球范圍內(nèi)華人在這賽道上可能代表了一半的科研人員。黃仁勛老講全球做AI的一半都是華人,真是這樣。
我是90年來美國的,那時候技術(shù)高手好多是前蘇聯(lián)、東歐的人,數(shù)學訓練特別嚴格。比如BLAST軟件最終優(yōu)化好多都是前蘇聯(lián)三十幾個人優(yōu)化到非常極致的程度。但過去十年看到,因為國內(nèi)基礎(chǔ)教育非常好,AI在這方面表現(xiàn)非常突出,無論國內(nèi)還是海外華人,都還有很多機會。
許東:那今天聊得差不多了,也快兩個小時了。非常感謝兩位嘉賓來參加討論,自己也學了很多。感謝聽眾來參加論壇,最后感謝雷峰網(wǎng)科技評論和GAIR Live平臺,讓我們有機會之間交流,也跟大家交流。
劉琦、張清鵬:謝謝大家。
Youtube鏈接:https://youtu.be/wMUy6pEjg5A
未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.