![]()
圖源:Pxhere.com
1959年,兩位名叫Robert Ledley和Lee Lusted的研究者在《科學》(Science)雜志上發表了一篇名為《醫療診斷的推理基礎》的論文。他們提出一個想法:用《新英格蘭醫學雜志》(NEJM)每周發表的臨床病理討論會病例來考計算機。這些真實的病例來自麻省總醫院,經過專家整理,充滿了罕見病表現、干擾信息,是醫學界公認的高難度考題。
Ledley和Lusted想知道,機器能不能像醫生一樣思考。
![]()
左:Robert Ledley,圖源:Wikipedia;右:Lee Lusted,圖源:Rutgers University
67年過去了。一研究團隊在《科學》上交了答卷。他們讓大模型的推理模型做了這套題,143個病例,模型在78.3%的情況下把正確答案放進了鑒別診斷;如果把標準放寬到"至少給出了有幫助的診斷",這個數字是97.9%。而檢查方案幾乎完全一致的比例,是87.5%。而在真實世界的急診室中,這一推理模型對于病例的臨床推理評估,也比人類醫生更早得出正確的診斷結果。
但研究團隊最想講的,不是這些分數本身。
在《科學》雜志組織的一場線上發布會上,論文作者們講了一個急診室里的故事。一位器官移植后的患者走進急診室,抱怨睪丸疼痛,同時有些上呼吸道癥狀。人類醫生把注意力放在了呼吸道。推理模型模型卻從分診記錄里注意到“免疫抑制”,在病歷中標記了壞死性筋膜炎——一種需要手術治療的毀滅性感染。這比人類醫生的診斷早了12到24小時。
論文作者表示,“我們已經證明推理模型極其有能力。現在該把這一點放在一邊,開始思考醫生如何在現實世界中使用它。”
SAIXIANSHENG
五個實驗和一張成績單
這項研究測試的是被稱為“推理模型”的新型AI系統。
研究團隊設計了五項實驗,系統性地比較了推理模型與醫生的表現,覆蓋了從鑒別診斷到管理決策的多個維度。
第一個實驗是來自《新英格蘭醫學雜志》臨床病理討論會(CPC)的143個病例。自1950年代以來,《新英格蘭醫學雜志》臨床病理討論會就是評估臨床AI的黃金標準。這些病例每周發表,來自麻省總醫院的真實患者,經過專家撰寫,充滿了罕見病表現和干擾信息。用論文作者的話說,它們是“被有意設計得很難”的。
研究團隊只給模型看“初始呈現”——患者第一次被接診時的癥狀、病史和體征——然后讓它做兩件事:給出鑒別診斷,以及選擇下一步該做什么檢查。
兩位醫生用5分制Bond量表對模型的回答進行盲評。評分時,兩位醫生不知道答案來自AI還是人類。
結果是:推理模型在78.3%的病例中把正確答案納入了鑒別診斷。如果把標準放寬到"給出了有幫助或非常接近的診斷",這個數字升至97.9%。
這些數字意味著什么?此前一項發表在《自然》上的研究中,有搜索權限的醫生在302個CPC病例上的準確率是44.5%。而在本研究中重疊的70個病例上,其他大模型的準確率是72.9%,推理模型則高達88.6%。
研究團隊還檢查了模型是否在“背答案”:訓練數據截止日期前后的準確率,沒有顯著差異(79.8%對73.5%),說明得分不完全是靠記憶。
在136個病例中,研究團隊還測試了模型選擇下一步檢查的能力。87.5%的情況下,推理模型選擇的檢查方案與麻省總醫院實際采取的方案完全一致;另有11%被認為"有幫助";只有1.5%被兩位評分醫生認為"無幫助"。
第二個實驗是關于寫病歷的考試。NEJM Healer課程提供20個虛擬患者的接診場景,用R-IDEA量表(滿分10分)評估受試者的臨床文檔寫作質量,涵蓋病史采集、鑒別診斷、推理過程和文檔結構四個維度。
80份病程記錄中,推理模型在78份中拿了滿分。相比之下,其他大模型是47份,主治醫生28份,住院醫生16份。
第三個實驗用來測試AI在在病例上的管理決策能力。Grey Matters測試使用5個真實病例改編的管理場景,場景包括抗生素選擇、臨終關懷對話等。這些決策比診斷更復雜,還需要考慮患者偏好、資源約束和合并癥等文本之外的因素。
在這項測試中,推理模型的中位數得分是89%,其他大模型是42%,配備其他大模型的醫生是41%,使用傳統資源的醫生是34%。推理模型比最后一組高出了48.4個百分點。
為了排除模型依賴記憶作答的可能性,研究團隊使用了6個從未在互聯網公開的病例,源自1994年的一項研究。模型需要給出鑒別診斷、支持證據、反駁證據,以及下一步計劃。有兩位評分醫生對模型回答進行盲評。
推理模型的中位數得分是97%。其他大模型是92%,使用其他大冒險的醫生76%,使用傳統資源的醫生則是74%。
這一結果顯示,推理模型與其他大模型的成績差距不大,但都大幅領先于人類醫生。
最后一項測試,使用了5個病例,要求模型估算疾病在檢查前后的疾病概率,并與專家文獻基準對比。
結果顯示,推理模型與其他大模型表現相近,但在心臟病缺血病例的后測概率估計上,推理模型顯著優于其他大模型和人類醫生。值得一提的是,對這五個病例做出估算的人類醫生,答案極度分散,方差明顯超過兩個AI模型。這表明模型更穩定,人類更波動。
這五個實驗覆蓋了診斷、文檔、管理、推理和概率估計。在文本-based的臨床推理任務上,推理模型已經超越了此前所有AI模型,也超越了大多數人類醫生的基線。
SAIXIANSHENG
急診室里的三個時間點
實驗室里的高分,能不能搬到急診室?這是本研究區別于以往研究的核心亮點。研究團隊沒有把病例"洗干凈"再喂給模型,而是直接從電子病歷復制粘貼,包括所有無關噪音。
![]()
貝斯以色列女執事醫療中心。圖源:維基百科
這些真實世界的病例來自貝斯以色列女執事醫療中心急診部,作者們隨機抽取76例最終入院的患者。研究設計了三個診斷時間點:
第一個時間點是分診時。護士記錄的生命體征——血壓、心率、體溫、血氧——患者年齡性別,以及一段很短的分診說明。這段說明通常只有幾句話,解釋患者為什么來,比如"胸痛三小時"或"發熱伴咳嗽兩天"。信息極度稀缺。
第二個時間點是急診醫生接診后。加上了醫生的問診記錄、體格檢查發現,以及實驗室和影像結果。信息開始豐富。
第三個時間點是入院時。所有信息都到齊了,包括住院醫療團隊的評估、專科會診意見、額外檢查。這是信息最充足的時間點。
與推理模型和其他大模型同臺競技的,則是兩名真實的人類主治醫生。還有另外兩名主治醫生負責對診斷質量進行盲評,他們不知道答案來自人類還是AI。
最后,盲評的結果很驚人:一位醫生在83.6%的情況表示“分不清是人類還是AI”,另一位則在94.4%情況下都說分不清。
在這一真實場景中,分診時推理模型診斷的病例有67.1%診斷準確或非常接近,而兩位醫生分別為55.3%和50.0%;急診醫生階段,推理模型為72.4%,兩名醫生分別為61.8%和52.6%;入院時差距縮小,推理模型為81.6%,兩名醫生分別為78.9%和69.7%。
該論文的共同通訊作者表示,信息越少,AI的優勢越明顯。人類在信息稀缺時更容易被噪音干擾,模型能從碎片中快速建立關聯。而一旦信息充足,人類醫生的整合能力追了上來。
論文的另外一位通訊作者講了兩個令他印象深刻的病例。第一個是肺栓塞患者。患者因新發肺栓塞就診,最初好轉后癥狀突然惡化。急診室里,人類醫生合理地懷疑抗凝治療失敗——這是最常見的并發癥。o1模型卻注意到患者有狼瘡病史。隨著新信息出現,模型越來越傾向于一個統一病因:狼瘡性心肺炎——由狼瘡導致的肺部和心臟炎癥,既能解釋癥狀惡化,也能獨立導致肺栓塞。這個判斷從最早的分診階段就已存在,最終被證實正確。
第二個病例就是文章開頭提到的壞死性筋膜炎。“模型實際上從一開始就對壞死性筋膜炎有所懷疑,可能比人類醫生早12到24小時。這是留在我腦海中最突出的例子。”
他補充了一個重要的臨床視角:在這兩個病例中,患者都得到了恰當的治療。AI更早給出正確診斷,未必會改變臨床結局。但如果在真實世界中部署這樣的系統作為“第二意見”,它可能在某些時刻幫助醫生少走一段彎路。
SAIXIANSHENG
考試及格,能上崗嗎?
研究者表示,Ledley和Lusted扔下的“戰書”終于被接住了。“我們可以明確地說,按照醫生自己設定的標準,信息學推理模型能夠滿足在最高人類表現水平上進行診斷推理的標準。”
但研究者立刻表示:“我們的發現不意味著AI會取代醫生。這意味著技術正在深刻改變醫學,我們需要嚴格的前瞻性臨床試驗。”
他提到了一個非常重要的技術細節:這些通用模型一般不是被訓練成臨床醫生的,因為其底層機制是被訓練來預測下一個詞是什么,并在通用場景下提供幫助。因此,解答《新英格蘭醫學雜志》的CPC病例,處理貝斯以色列急診室的真實病例,可能只是大規模通用訓練的“副作用”。
哈佛醫學院AI與醫學博士生負責研究的大部分實驗設計和模型測試。他坦承團隊沒有正式測量幻覺率,但“我們知道推理模型確實會產生幻覺”。并補充說:“這意味著,我們既要選擇信任大模型,也要充分驗證大模型”。
研究者團隊花了很長時間糾正可能的誤讀。“急診室的工作是分診和穩定,不是預測最終診斷。”他說,“診斷像下棋,有正確答案,容易衡量;但日常醫療行為其實是極其微妙的。”
他也談到了應用場景的邊界。“任何人都不應該看了這個就說:我們不需要醫生了。”他說,"你可以想象這是一個被動運行在電子健康記錄上的系統,能夠在診斷錯誤發生之前識別出來。或者在某些時刻,醫生可以向AI尋求第二意見。這些是大模型在臨床上比較明顯的應用場景。"
他補充說,2025年的一項全球調查發現,五分之一的臨床醫生已經開始習慣使用大語言模型獲取第二意見。“而且這個數字在過去一年里增長了很多。”
研究者團隊回應了《賽先生》關于AI未來角色的提問:“我們已經證實這類推理模型具備極強的能力。現在應當暫且擱置對其性能的論證,轉而探討醫生如何在真實臨床環境中加以運用——這正是人機交互研究的核心議題。”
他進一步解釋:“理想狀態是,我們知道模型何時錯了,模型知道我們何時錯了,我們都能識別出來。但研究目前沒給出這個答案。所以接下來幾年,我們要研究的是如何讓醫生和AI在真實臨床環境中都發揮最大作用。”
SAIXIANSHENG
真正的挑戰,剛剛開始
這項研究有幾項重要局限值得重視。
病例主要集中在內科和急診,而關于產科、兒科、外科的表現則是未知。而醫生基線主要來自哈佛和斯坦福網絡,以急診、內科、家庭醫學為主。并坦言:“這不是一個非常具有普遍性的醫生群體。”
另外,所有實驗都是文本輸入,而大模型沒有視覺和觸覺,看不到肢體語言,也讀不了X光片。研究者透露,團隊正在做平行研究測試模型在圖像上的表現,但影像能力遠不如文本能力表現的那么好。
研究者則強調,急診室的實際決策核心是分診和處置,不是診斷準確率。他提醒說,如果輸入的是30天住院病歷或完整醫療記錄,"我們可能不會看到如此令人印象深刻的結果",因為大語言模型處理大量數據時仍有困難。
67年前,Ledley和Lusted給計算機出了一套題。67年后,推理模型在這套題上拿了接近滿分的成績。但醫療AI真正的考場,在醫生按下回車鍵、模型給出建議、患者等待決定的那個真實瞬間。
這樣的未來,值得期待,但也需要更多的驗證。
參考文獻:
[1] Brodeur PG, Buckley TA, et al. Performance of a large language model on the reasoning tasks of a physician. Science. 2026;392(6746):524-527.
[2] Hopkins AM, Cornelisse E. AI can reason like a physician—what comes next? Science. 2026;392(6746):466-467.
[3] 丁香園,2026年4月29日,《全球首個!無需醫生參與,AI可以開處方了》
來源:賽先生
編輯:張柒柒
轉載內容僅代表作者觀點
不代表中科院物理所立場
如需轉載請聯系原公眾號
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.