<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      急診室里,AI比醫生早12小時診斷出致命感染

      0
      分享至


      圖源:Pxhere.com

      1959年,兩位名叫Robert Ledley和Lee Lusted的研究者在《科學》(Science)雜志上發表了一篇名為《醫療診斷的推理基礎》的論文。他們提出一個想法:用《新英格蘭醫學雜志》(NEJM)每周發表的臨床病理討論會病例來考計算機。這些真實的病例來自麻省總醫院,經過專家整理,充滿了罕見病表現、干擾信息,是醫學界公認的高難度考題。

      Ledley和Lusted想知道,機器能不能像醫生一樣思考。


      左:Robert Ledley,圖源:Wikipedia;右:Lee Lusted,圖源:Rutgers University

      67年過去了。一研究團隊在《科學》上交了答卷。他們讓大模型的推理模型做了這套題,143個病例,模型在78.3%的情況下把正確答案放進了鑒別診斷;如果把標準放寬到"至少給出了有幫助的診斷",這個數字是97.9%。而檢查方案幾乎完全一致的比例,是87.5%。而在真實世界的急診室中,這一推理模型對于病例的臨床推理評估,也比人類醫生更早得出正確的診斷結果。

      但研究團隊最想講的,不是這些分數本身。

      在《科學》雜志組織的一場線上發布會上,論文作者們講了一個急診室里的故事。一位器官移植后的患者走進急診室,抱怨睪丸疼痛,同時有些上呼吸道癥狀。人類醫生把注意力放在了呼吸道。推理模型模型卻從分診記錄里注意到“免疫抑制”,在病歷中標記了壞死性筋膜炎——一種需要手術治療的毀滅性感染。這比人類醫生的診斷早了12到24小時。

      論文作者表示,“我們已經證明推理模型極其有能力。現在該把這一點放在一邊,開始思考醫生如何在現實世界中使用它。”

      SAIXIANSHENG

      五個實驗和一張成績單

      這項研究測試的是被稱為“推理模型”的新型AI系統。

      研究團隊設計了五項實驗,系統性地比較了推理模型與醫生的表現,覆蓋了從鑒別診斷到管理決策的多個維度。

      第一個實驗是來自《新英格蘭醫學雜志》臨床病理討論會(CPC)的143個病例。自1950年代以來,《新英格蘭醫學雜志》臨床病理討論會就是評估臨床AI的黃金標準。這些病例每周發表,來自麻省總醫院的真實患者,經過專家撰寫,充滿了罕見病表現和干擾信息。用論文作者的話說,它們是“被有意設計得很難”的。

      研究團隊只給模型看“初始呈現”——患者第一次被接診時的癥狀、病史和體征——然后讓它做兩件事:給出鑒別診斷,以及選擇下一步該做什么檢查。

      兩位醫生用5分制Bond量表對模型的回答進行盲評。評分時,兩位醫生不知道答案來自AI還是人類。

      結果是:推理模型在78.3%的病例中把正確答案納入了鑒別診斷。如果把標準放寬到"給出了有幫助或非常接近的診斷",這個數字升至97.9%。

      這些數字意味著什么?此前一項發表在《自然》上的研究中,有搜索權限的醫生在302個CPC病例上的準確率是44.5%。而在本研究中重疊的70個病例上,其他大模型的準確率是72.9%,推理模型則高達88.6%。

      研究團隊還檢查了模型是否在“背答案”:訓練數據截止日期前后的準確率,沒有顯著差異(79.8%對73.5%),說明得分不完全是靠記憶。

      在136個病例中,研究團隊還測試了模型選擇下一步檢查的能力。87.5%的情況下,推理模型選擇的檢查方案與麻省總醫院實際采取的方案完全一致;另有11%被認為"有幫助";只有1.5%被兩位評分醫生認為"無幫助"。

      第二個實驗是關于寫病歷的考試。NEJM Healer課程提供20個虛擬患者的接診場景,用R-IDEA量表(滿分10分)評估受試者的臨床文檔寫作質量,涵蓋病史采集、鑒別診斷、推理過程和文檔結構四個維度。

      80份病程記錄中,推理模型在78份中拿了滿分。相比之下,其他大模型是47份,主治醫生28份,住院醫生16份。

      第三個實驗用來測試AI在在病例上的管理決策能力。Grey Matters測試使用5個真實病例改編的管理場景,場景包括抗生素選擇、臨終關懷對話等。這些決策比診斷更復雜,還需要考慮患者偏好、資源約束和合并癥等文本之外的因素。

      在這項測試中,推理模型的中位數得分是89%,其他大模型是42%,配備其他大模型的醫生是41%,使用傳統資源的醫生是34%。推理模型比最后一組高出了48.4個百分點。

      為了排除模型依賴記憶作答的可能性,研究團隊使用了6個從未在互聯網公開的病例,源自1994年的一項研究。模型需要給出鑒別診斷、支持證據、反駁證據,以及下一步計劃。有兩位評分醫生對模型回答進行盲評。

      推理模型的中位數得分是97%。其他大模型是92%,使用其他大冒險的醫生76%,使用傳統資源的醫生則是74%。

      這一結果顯示,推理模型與其他大模型的成績差距不大,但都大幅領先于人類醫生。

      最后一項測試,使用了5個病例,要求模型估算疾病在檢查前后的疾病概率,并與專家文獻基準對比。

      結果顯示,推理模型與其他大模型表現相近,但在心臟病缺血病例的后測概率估計上,推理模型顯著優于其他大模型和人類醫生。值得一提的是,對這五個病例做出估算的人類醫生,答案極度分散,方差明顯超過兩個AI模型。這表明模型更穩定,人類更波動。

      這五個實驗覆蓋了診斷、文檔、管理、推理和概率估計。在文本-based的臨床推理任務上,推理模型已經超越了此前所有AI模型,也超越了大多數人類醫生的基線。

      SAIXIANSHENG

      急診室里的三個時間點

      實驗室里的高分,能不能搬到急診室?這是本研究區別于以往研究的核心亮點。研究團隊沒有把病例"洗干凈"再喂給模型,而是直接從電子病歷復制粘貼,包括所有無關噪音。


      貝斯以色列女執事醫療中心。圖源:維基百科

      這些真實世界的病例來自貝斯以色列女執事醫療中心急診部,作者們隨機抽取76例最終入院的患者。研究設計了三個診斷時間點:

      第一個時間點是分診時。護士記錄的生命體征——血壓、心率、體溫、血氧——患者年齡性別,以及一段很短的分診說明。這段說明通常只有幾句話,解釋患者為什么來,比如"胸痛三小時"或"發熱伴咳嗽兩天"。信息極度稀缺。

      第二個時間點是急診醫生接診后。加上了醫生的問診記錄、體格檢查發現,以及實驗室和影像結果。信息開始豐富。

      第三個時間點是入院時。所有信息都到齊了,包括住院醫療團隊的評估、專科會診意見、額外檢查。這是信息最充足的時間點。

      與推理模型和其他大模型同臺競技的,則是兩名真實的人類主治醫生。還有另外兩名主治醫生負責對診斷質量進行盲評,他們不知道答案來自人類還是AI。

      最后,盲評的結果很驚人:一位醫生在83.6%的情況表示“分不清是人類還是AI”,另一位則在94.4%情況下都說分不清。

      在這一真實場景中,分診時推理模型診斷的病例有67.1%診斷準確或非常接近,而兩位醫生分別為55.3%和50.0%;急診醫生階段,推理模型為72.4%,兩名醫生分別為61.8%和52.6%;入院時差距縮小,推理模型為81.6%,兩名醫生分別為78.9%和69.7%。

      該論文的共同通訊作者表示,信息越少,AI的優勢越明顯。人類在信息稀缺時更容易被噪音干擾,模型能從碎片中快速建立關聯。而一旦信息充足,人類醫生的整合能力追了上來。

      論文的另外一位通訊作者講了兩個令他印象深刻的病例。第一個是肺栓塞患者。患者因新發肺栓塞就診,最初好轉后癥狀突然惡化。急診室里,人類醫生合理地懷疑抗凝治療失敗——這是最常見的并發癥。o1模型卻注意到患者有狼瘡病史。隨著新信息出現,模型越來越傾向于一個統一病因:狼瘡性心肺炎——由狼瘡導致的肺部和心臟炎癥,既能解釋癥狀惡化,也能獨立導致肺栓塞。這個判斷從最早的分診階段就已存在,最終被證實正確。

      第二個病例就是文章開頭提到的壞死性筋膜炎。“模型實際上從一開始就對壞死性筋膜炎有所懷疑,可能比人類醫生早12到24小時。這是留在我腦海中最突出的例子。”

      他補充了一個重要的臨床視角:在這兩個病例中,患者都得到了恰當的治療。AI更早給出正確診斷,未必會改變臨床結局。但如果在真實世界中部署這樣的系統作為“第二意見”,它可能在某些時刻幫助醫生少走一段彎路。

      SAIXIANSHENG

      考試及格,能上崗嗎?

      研究者表示,Ledley和Lusted扔下的“戰書”終于被接住了。“我們可以明確地說,按照醫生自己設定的標準,信息學推理模型能夠滿足在最高人類表現水平上進行診斷推理的標準。”

      但研究者立刻表示:“我們的發現不意味著AI會取代醫生。這意味著技術正在深刻改變醫學,我們需要嚴格的前瞻性臨床試驗。

      他提到了一個非常重要的技術細節:這些通用模型一般不是被訓練成臨床醫生的,因為其底層機制是被訓練來預測下一個詞是什么,并在通用場景下提供幫助。因此,解答《新英格蘭醫學雜志》的CPC病例,處理貝斯以色列急診室的真實病例,可能只是大規模通用訓練的“副作用”。

      哈佛醫學院AI與醫學博士生負責研究的大部分實驗設計和模型測試。他坦承團隊沒有正式測量幻覺率,但“我們知道推理模型確實會產生幻覺”。并補充說:“這意味著,我們既要選擇信任大模型,也要充分驗證大模型”。

      研究者團隊花了很長時間糾正可能的誤讀。“急診室的工作是分診和穩定,不是預測最終診斷。”他說,“診斷像下棋,有正確答案,容易衡量;但日常醫療行為其實是極其微妙的。”

      他也談到了應用場景的邊界。“任何人都不應該看了這個就說:我們不需要醫生了。”他說,"你可以想象這是一個被動運行在電子健康記錄上的系統,能夠在診斷錯誤發生之前識別出來。或者在某些時刻,醫生可以向AI尋求第二意見。這些是大模型在臨床上比較明顯的應用場景。"

      他補充說,2025年的一項全球調查發現,五分之一的臨床醫生已經開始習慣使用大語言模型獲取第二意見。“而且這個數字在過去一年里增長了很多。”

      研究者團隊回應了《賽先生》關于AI未來角色的提問:“我們已經證實這類推理模型具備極強的能力。現在應當暫且擱置對其性能的論證,轉而探討醫生如何在真實臨床環境中加以運用——這正是人機交互研究的核心議題。

      他進一步解釋:“理想狀態是,我們知道模型何時錯了,模型知道我們何時錯了,我們都能識別出來。但研究目前沒給出這個答案。所以接下來幾年,我們要研究的是如何讓醫生和AI在真實臨床環境中都發揮最大作用。

      SAIXIANSHENG

      真正的挑戰,剛剛開始

      這項研究有幾項重要局限值得重視。

      病例主要集中在內科和急診,而關于產科、兒科、外科的表現則是未知。而醫生基線主要來自哈佛和斯坦福網絡,以急診、內科、家庭醫學為主。并坦言:“這不是一個非常具有普遍性的醫生群體。”

      另外,所有實驗都是文本輸入,而大模型沒有視覺和觸覺,看不到肢體語言,也讀不了X光片。研究者透露,團隊正在做平行研究測試模型在圖像上的表現,但影像能力遠不如文本能力表現的那么好。

      研究者則強調,急診室的實際決策核心是分診和處置,不是診斷準確率。他提醒說,如果輸入的是30天住院病歷或完整醫療記錄,"我們可能不會看到如此令人印象深刻的結果",因為大語言模型處理大量數據時仍有困難。

      67年前,Ledley和Lusted給計算機出了一套題。67年后,推理模型在這套題上拿了接近滿分的成績。但醫療AI真正的考場,在醫生按下回車鍵、模型給出建議、患者等待決定的那個真實瞬間。

      這樣的未來,值得期待,但也需要更多的驗證。

      參考文獻:

      [1] Brodeur PG, Buckley TA, et al. Performance of a large language model on the reasoning tasks of a physician. Science. 2026;392(6746):524-527.

      [2] Hopkins AM, Cornelisse E. AI can reason like a physician—what comes next? Science. 2026;392(6746):466-467.

      [3] 丁香園,2026年4月29日,《全球首個!無需醫生參與,AI可以開處方了》

      來源:賽先生

      編輯:張柒柒

      轉載內容僅代表作者觀點

      不代表中科院物理所立場

      如需轉載請聯系原公眾號

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      被氣哭!鄭欽文罕見炮轟裁判:這個裁判總針對我 我實在忍不了了

      被氣哭!鄭欽文罕見炮轟裁判:這個裁判總針對我 我實在忍不了了

      念洲
      2026-05-07 22:31:00
      夫妻倆,誰的基因決定了孩子的智商和長相?專家的答案很統一

      夫妻倆,誰的基因決定了孩子的智商和長相?專家的答案很統一

      大果小果媽媽
      2026-05-07 22:37:49
      沖上36℃!高溫天來襲!江蘇最新天氣預測

      沖上36℃!高溫天來襲!江蘇最新天氣預測

      江南晚報
      2026-05-08 02:59:02
      突破,水晶宮、巴列卡諾和弗賴堡均為隊史首次打進歐戰決賽

      突破,水晶宮、巴列卡諾和弗賴堡均為隊史首次打進歐戰決賽

      懂球帝
      2026-05-08 05:26:58
      這真是玩手機玩的,8歲女孩吃飯姿勢怪異,網友:怎么不抽她?

      這真是玩手機玩的,8歲女孩吃飯姿勢怪異,網友:怎么不抽她?

      蝴蝶花雨話教育
      2026-04-14 10:47:08
      7年敗光2億!鄒市明冉瑩穎共同發文:二人最終還是邁出了這一步!

      7年敗光2億!鄒市明冉瑩穎共同發文:二人最終還是邁出了這一步!

      拳擊時空
      2026-04-16 06:04:48
      巴拉圭總統竄臺!不到24小時,中方下達了最后通牒:與臺“斷交”

      巴拉圭總統竄臺!不到24小時,中方下達了最后通牒:與臺“斷交”

      藍色海邊
      2026-05-08 02:03:21
      美伊、霍爾木茲海峽,突傳大消息!特朗普最新發聲!黃金、白銀、歐股集體拉升,原油直線跳水

      美伊、霍爾木茲海峽,突傳大消息!特朗普最新發聲!黃金、白銀、歐股集體拉升,原油直線跳水

      證券時報e公司
      2026-05-06 17:58:37
      馬龍逛大英博物館!粉絲追著要簽名,夏露好美,許昕和姚彥也在

      馬龍逛大英博物館!粉絲追著要簽名,夏露好美,許昕和姚彥也在

      一個小豹子
      2026-05-07 18:20:53
      按下暫停鍵?日媒:中國多所頂尖大學已停止向日本派遣交換留學生

      按下暫停鍵?日媒:中國多所頂尖大學已停止向日本派遣交換留學生

      王姐懶人家常菜
      2026-05-07 20:16:37
      浙江女孩在意大利酒吧,遭流浪漢殺害,只因索要10歐元飯錢

      浙江女孩在意大利酒吧,遭流浪漢殺害,只因索要10歐元飯錢

      情感藝術家
      2026-05-06 04:58:30
      福建母子武漢旅游期間撿到價值十余萬元的勞力士?蝦店老板發視頻稱已歸還失主,網友態度不一

      福建母子武漢旅游期間撿到價值十余萬元的勞力士?蝦店老板發視頻稱已歸還失主,網友態度不一

      極目新聞
      2026-05-07 10:23:48
      葡媒:穆里尼奧未與皇馬會面,本菲卡高層均相信他會留任

      葡媒:穆里尼奧未與皇馬會面,本菲卡高層均相信他會留任

      懂球帝
      2026-05-07 20:03:56
      “我家的窗戶被包進鄰居家,根本沒法開窗”,上海一居民投訴公共區域被占,多部門回應難認定

      “我家的窗戶被包進鄰居家,根本沒法開窗”,上海一居民投訴公共區域被占,多部門回應難認定

      環球網資訊
      2026-05-07 16:59:40
      中共自然資源部黨組關于張波等3名同志任免職、甘泉同志試用期滿正式任職的通知

      中共自然資源部黨組關于張波等3名同志任免職、甘泉同志試用期滿正式任職的通知

      海洋知圈
      2026-05-07 21:46:15
      吃蘭州拉面的人為什么越來越少了?網友:進店小心翼翼的怕說錯話

      吃蘭州拉面的人為什么越來越少了?網友:進店小心翼翼的怕說錯話

      另子維愛讀史
      2026-02-27 20:31:34
      倫敦世乒賽:日本男團3-1勝德國鎖定獎牌!張本智和連砍2分立頭功

      倫敦世乒賽:日本男團3-1勝德國鎖定獎牌!張本智和連砍2分立頭功

      全言作品
      2026-05-07 21:56:04
      中新社評:不是中國離不開世界杯,而是世界杯更需要中國

      中新社評:不是中國離不開世界杯,而是世界杯更需要中國

      懂球帝
      2026-05-07 12:51:40
      一邊倒怒批!鄭智辱罵裁判被禁6場,輿論為何零同情?真相太扎心

      一邊倒怒批!鄭智辱罵裁判被禁6場,輿論為何零同情?真相太扎心

      羅掌柜體育
      2026-05-07 12:08:01
      以色列議員竄臺,中方還沒動作,建交公報直接給了他一記重擊

      以色列議員竄臺,中方還沒動作,建交公報直接給了他一記重擊

      策前論
      2026-05-07 20:43:57
      2026-05-08 06:00:49
      中科院物理所 incentive-icons
      中科院物理所
      愛上物理,改變世界。
      10143文章數 136532關注度
      往期回顧 全部

      科技要聞

      月之暗面完成20億美元融資,估值突破200億

      頭條要聞

      伊朗武裝部隊:美軍違反停火空襲伊朗 已反擊

      頭條要聞

      伊朗武裝部隊:美軍違反停火空襲伊朗 已反擊

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發生了

      娛樂要聞

      Lisa主持!寧藝卓觀看脫衣秀風波升級

      財經要聞

      人均年薪406萬,這家ST公司驚呆市場!

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發

      態度原創

      游戲
      手機
      旅游
      本地
      家居

      《遠星物語》團隊新作《皓白初曉》登Steam EA

      手機要聞

      0.5mm邊框+2億像素+8000mAh,小米這臺AI概念機,每一項都離譜

      旅游要聞

      在上圖文字奇旅中尋找她的筆跡(邊玩邊贏獎,互動體驗開啟預約!)

      本地新聞

      用青花瓷的方式,打開西溪濕地

      家居要聞

      破繭成蝶 土味精裝房爆改

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 99视频国产精品免费观看| 熟女无码| av偷拍亚洲一区二区三区| 亚洲区精品区日韩区综合区| 免费无码网站| 超级97碰碰碰碰久久久久| 中文字幕乱码在线播放| 国产日韩av在线播放| 国产一区二区精品自拍| 亚洲男女羞羞无遮挡久久丫 | 国产美女胸大一区二区三区| 日韩精品自拍偷拍一区二区| 国产亚洲福利精品一区二区| 国产精品自拍自在自线| 午夜av高清在线观看| 狠狠色狠狠色五月激情| 国产愉拍精品手机| 欧美日韩国产一区二区三区播放 | 狠狠色香婷婷久久亚洲精品| 国产杨幂AV在线播放| 国产成人AV一区二区三区无码| 在线日韩日本国产亚洲| 日韩高清亚洲日韩精品一区二区 | 亚洲综合在线日韩av| 亚洲综合成人精品| 成熟妇女性成熟满足视频| 少妇自拍偷拍| 久久99精品国产自在现线小黄鸭| 高清不卡一区二区三区| 男女啪啪做爰高潮免费网站| 亚洲av中文一区二区| 国产V精品成人免费视频| 国产人妻久久精品一区二区三区| 四虎永久免费高清视频| 男女羞羞| 欧美精品久久久久久久久46P| 91精品一区二区蜜桃| 国产亚洲精品一区二区无| 蜜桃视频无码区在线观看| 男女日屄视频| 51妺嘿嘿午夜福利|