<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI診斷真實(shí)病例準(zhǔn)確率超醫(yī)生,哈佛稱醫(yī)學(xué)評(píng)估標(biāo)準(zhǔn)或應(yīng)重新改寫

      0
      分享至



      隨著能力的提升,AI 在某個(gè)醫(yī)療基準(zhǔn)數(shù)據(jù)集上獲得 SOTA 已不足為奇。但現(xiàn)在,研究人員證明 AI 在真實(shí)病例場景下表現(xiàn)出與醫(yī)生相當(dāng)或更高的準(zhǔn)確率。這意味著,AI 不是在訓(xùn)練過的場景下背誦標(biāo)準(zhǔn)答案,而是在臨床實(shí)戰(zhàn)中給出診斷推理。

      近日,哈佛醫(yī)學(xué)院、斯坦福大學(xué)等研究團(tuán)隊(duì)在 Science 發(fā)布了一項(xiàng)迄今最大規(guī)模 AI 醫(yī)療對(duì)比研究[1],并首次用真實(shí)的患者病歷來檢驗(yàn) AI 的推理能力,真實(shí)場景意味著可能存在病歷混亂、信息不全的情況。

      研究人員讓 OpenAI 的 o1 模型與幾百名醫(yī)生在六種不同場景中進(jìn)行診斷 比對(duì)。結(jié)果表明,AI 在多項(xiàng)臨床推理任務(wù)中的準(zhǔn)確率與醫(yī)生持平甚至更高,包括急診決策、診斷以及為患者制定下一步的治療方案。

      該研究結(jié)果預(yù)示著一個(gè)重要的轉(zhuǎn)折點(diǎn):隨著模型能力越來越強(qiáng),傳統(tǒng)的醫(yī)學(xué)評(píng)估基準(zhǔn)和人工設(shè)計(jì)的測試案例可能正面臨失效。“過去可用多項(xiàng)選擇題來評(píng)估模型的能力,現(xiàn)在它們的得分已長期接近 100%,對(duì)于進(jìn)一步追蹤進(jìn)展并無太大意義。”該論文共同第一作者、哈佛醫(yī)學(xué)院研究員 Peter Brodeur 說。

      研究人員強(qiáng)調(diào),AI 或許能給出更準(zhǔn)確的的文本建議、避免一些不必要的檢查,以及減少漏診和誤診,但并不意味著 AI 已經(jīng)能夠獨(dú)立行醫(yī),特別是在生死悠關(guān)的急診情景。并且,醫(yī)生在處理影像、聽診、面部表情等方面具有不可替代的優(yōu)勢。研究團(tuán)隊(duì)還呼吁,需盡早開展前瞻性試驗(yàn),以在真實(shí)的患者護(hù)理環(huán)境中評(píng)估相關(guān)技術(shù)。


      圖丨相關(guān)論文(來源:Science)

      研究團(tuán)隊(duì)設(shè)計(jì)了不同方面的實(shí)驗(yàn),來考察 AI 的臨床推理能力。在第一組實(shí)驗(yàn)中,研究人員使用了 The New England Journal of Medicine(NEJM)自 20 世紀(jì) 50 年代開始作為“金牌標(biāo)準(zhǔn)”的臨床病理會(huì)議病例。

      在 2012 年至 2024 年期間的 143 個(gè)臨床病例中,o1-preview 覆蓋了 78.3% 的正確病因,其給出的首個(gè)診斷即是正確答案的比例占 52%。如果將“非常接近”的診斷也看作正確答案,該比例則進(jìn)一步提升至 97.9%。

      研究人員還將 GPT-4 與 o1-preview 進(jìn)行了性能對(duì)比。結(jié)果顯示,GPT-4 在同一批病例上的準(zhǔn)確率是 72.9%,而 o1-preview 在 70 個(gè)重疊病例中,24.3% 的病例表現(xiàn)優(yōu)于 GPT-4,僅 7.1% 的病例表現(xiàn)落后。

      值得關(guān)注的是,在 136 例診斷檢查選擇測試中,o1-preview 選擇檢查項(xiàng)目的正確率是 87.5%。評(píng)審醫(yī)生認(rèn)為,AI 提出的檢查建議中有 11% 具備臨床價(jià)值,僅 1.5% 的建議無幫助。


      (來源:Science)

      在臨床推理的書寫質(zhì)量評(píng)估中,差距進(jìn)一步凸顯。研究團(tuán)隊(duì)采用 20 個(gè)來自 NEJM Healer 課程的教學(xué)病例,該項(xiàng)能力采用經(jīng)過驗(yàn)證的 R-IDEA 量表評(píng)分。

      o1-preview 在 80 次評(píng)分中 78 次獲得滿分,與之對(duì)比的是,GPT-4 僅獲得 47 次滿分,而主治醫(yī)師和住院醫(yī)師得到滿分的次數(shù)分別是 28 次和 16 次。在高風(fēng)險(xiǎn)誤診項(xiàng)識(shí)別上,o1-preview 的中位命中率是 92%。但需要了解的是,盡管其在數(shù)值上比人類更高,但與醫(yī)生并未達(dá)到統(tǒng)計(jì)學(xué)顯著差異的水平。


      (來源:Science)

      管理決策能力的測試結(jié)果同樣值得關(guān)注。研究團(tuán)隊(duì)使用了五個(gè)基于真實(shí)病例開發(fā)的臨床場景,并在每個(gè)場景下設(shè)置了一系列治療決策問題。結(jié)果顯示,o1-preview 的中位得分是 89%,GPT-4 為 42%,將 GPT-4 作為輔助工具的醫(yī)生則獲得 41% 的中位得分,而使用傳統(tǒng)資源制定方案的醫(yī)生得分僅 34%。

      圖丨 o1-preview、GPT-4 與臨床醫(yī)師在診斷推理能力方面的比較(來源:Science)



      此外,為防止模型“刷題”,研究人員還使用了 6 個(gè)從未公開發(fā)布的標(biāo)志性診斷病例進(jìn)行實(shí)驗(yàn)。結(jié)果發(fā)現(xiàn),盡管 o1-preview 獲得了 97% 的中位得分,但與 GPT-4 的 92% 以及人類醫(yī)師的 74% 相比,統(tǒng)計(jì)學(xué)的優(yōu)勢并不顯著。這也從側(cè)面上說明,大模型能力的提升并非在所有任務(wù)上都保持同一幅度。

      在最接近真實(shí)臨床環(huán)境實(shí)驗(yàn)中,研究人員以波士頓一家醫(yī)院急診室的 76 名患者作為研究對(duì)象,并設(shè)置了三個(gè)臨床決策節(jié)點(diǎn)從早期分診、接診后以及決定收入病房。

      標(biāo)準(zhǔn)電子病歷涵蓋了生命體征數(shù)據(jù)、人口統(tǒng)計(jì)信息以及對(duì)患者就診原因的簡要描述等信息。與此前研究不同,研究人員提供給模型的信息未進(jìn)行預(yù)處理,而是直接來源于真實(shí)的電子病歷。模型基于這些數(shù)據(jù),生成相關(guān)診斷結(jié)果,并提出下一步治療建議。

      結(jié)果顯示,在分診階段醫(yī)生的正確率僅 50% 至 55%,而 AI 在 67% 的病例中做出了接近醫(yī)生或更準(zhǔn)確的診斷。研究人員發(fā)現(xiàn),在需要快速?zèng)Q策且信息有限的緊急情況下,AI 的優(yōu)勢更加突出。當(dāng)提供更多細(xì)節(jié)信息,人類專家的準(zhǔn)確率提升至 70% 至 79%;而 OpenAI 的 o1 模型的診斷準(zhǔn)確率則提升至近 82%。

      值得一提的是,整個(gè)實(shí)驗(yàn)的過程采取的是嚴(yán)格的盲法設(shè)計(jì),兩位評(píng)審醫(yī)生在判斷答案來源是人還是 AI 時(shí),猜對(duì)的比例分別僅 15.2% 和 3.1%,大多數(shù)情況下他們無法區(qū)分回答是來自 AI 還是人類。


      (來源:Science)

      需要了解的是,急診室的核心決策通常是分診、處理和即時(shí)管理,而非僅取決于診斷的正確性。因此,這項(xiàng)研究并不意味著 AI 將全面替代急診醫(yī)生。

      此外,這項(xiàng)研究仍存在局限性,例如實(shí)驗(yàn)中僅測試了 AI 與人類在解讀可通過文本傳遞的患者數(shù)據(jù)方面的表現(xiàn),并未測試患者痛苦程度和外貌等信號(hào)方面的解讀能力。與此同時(shí),研究所覆蓋的臨床推理場景也有限,病例主要集中在內(nèi)科和急診領(lǐng)域,未來仍需進(jìn)一步驗(yàn)證在外科、專科等更廣泛領(lǐng)域的適用性。

      今年 3 月,美國醫(yī)學(xué)協(xié)會(huì)發(fā)布的一項(xiàng)研究顯示 [2],現(xiàn)在已有近 20% 的美國醫(yī)生正在使用 AI 作為輔助診斷的工具。在英國,16% 的醫(yī)生每天使用 AI。據(jù)英國皇家內(nèi)科醫(yī)師學(xué)會(huì)今年 1 月發(fā)布的一項(xiàng)調(diào)查 [3],在臨床決策中醫(yī)生將 AI 作為輔助診斷是最常見的一種用途。

      盡管 AI 在相關(guān)方面表現(xiàn)出色,但 AI 并不是萬能的。不容忽視的是,一方面,AI 有可能帶來出錯(cuò)和承擔(dān)責(zé)任風(fēng)險(xiǎn)。另一方面,也需要警惕的是,醫(yī)生可能在無意中接受了 AI 給出的建議,而非自己的獨(dú)立思考。此外,AI 在診斷老年患者或非英語母語患者方面仍存在相關(guān)挑戰(zhàn)。

      因此,綜合來看,當(dāng)前 AI 的核心角色仍然是輔助醫(yī)生決策而非獨(dú)立診療,它可以幫助整合海量文獻(xiàn)、指南與歷史病例,在信息處理的速度與廣度方面具有獨(dú)特優(yōu)勢,有利于快速給出醫(yī)生容易遺漏的重要信息或輔助判斷。但是,在非結(jié)構(gòu)化臨床情境的感知、倫理權(quán)衡及醫(yī)患共情等場景下,醫(yī)生具有不可替代的作用。

      因此,人機(jī)協(xié)同或是一種理想的模式:AI 提供精準(zhǔn)、實(shí)時(shí)的數(shù)據(jù)支持,而醫(yī)生則把握整體判斷與人文溫度。未來,更重要的或許不是比較人和 AI 誰的能力更強(qiáng),而是誰先學(xué)會(huì)與機(jī)器高效協(xié)作。

      參考資料:

      1. 相關(guān)論文:https://www.science.org/doi/10.1126/science.adz4433

      2.https://www.ama-assn.org/system/files/physician-ai-sentiment-report.pdf

      3.https://www.rcp.ac.uk/policy-and-campaigns/policy-documents/snapshot-of-uk-physicians-artificial-intelligence-in-healthcare/

      4.https://hms.harvard.edu/news/study-suggests-ai-good-enough-diagnosing-complex-medical-cases-warrant-clinical-testing

      5.https://www.theguardian.com/technology/2026/apr/30/ai-outperforms-doctors-in-harvard-trial-of-emergency-triage-diagnoses

      排版:劉雅坤

      注:封面/首圖由 AI 輔助生成

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      記者:李金羽參加發(fā)布會(huì)前清楚即將下課,鐵人開出翻倍重獎(jiǎng)

      記者:李金羽參加發(fā)布會(huì)前清楚即將下課,鐵人開出翻倍重獎(jiǎng)

      懂球帝
      2026-05-04 22:49:51
      遭世排第59爆冷!蒯曼1-0領(lǐng)先連輸三局吞逆轉(zhuǎn) 馬琳?qǐng)鱿伦ザ鷵先?>
    </a>
        <h3>
      <a href=顏小白的籃球夢(mèng)
      2026-05-04 20:46:51
      中國海警現(xiàn)場處理鐵線礁畫面曝光:菲律賓人果然留了東西

      中國海警現(xiàn)場處理鐵線礁畫面曝光:菲律賓人果然留了東西

      阿龍聊軍事
      2026-05-04 21:28:51
      權(quán)志龍穿涉種族歧視T恤登臺(tái)!公司火速道歉

      權(quán)志龍穿涉種族歧視T恤登臺(tái)!公司火速道歉

      喜歡歷史的阿繁
      2026-05-04 20:04:49
      美國封鎖霍爾木茲海峽后,中國埋了十幾年的管道,突然就值大錢了

      美國封鎖霍爾木茲海峽后,中國埋了十幾年的管道,突然就值大錢了

      謝葅解說
      2026-05-05 05:24:06
      5月4日俄烏:烏克蘭要給俄羅斯“送大禮”

      5月4日俄烏:烏克蘭要給俄羅斯“送大禮”

      山河路口
      2026-05-04 19:21:06
      熱議李金羽下課:有點(diǎn)突然,鎮(zhèn)不住遼寧這些人;徐正源有鐵血?dú)赓|(zhì)

      熱議李金羽下課:有點(diǎn)突然,鎮(zhèn)不住遼寧這些人;徐正源有鐵血?dú)赓|(zhì)

      懂球帝
      2026-05-04 18:24:14
      港獨(dú)、罵中國人,如今卻還想來內(nèi)地?fù)平穑@3位香港明星令人作嘔

      港獨(dú)、罵中國人,如今卻還想來內(nèi)地?fù)平穑@3位香港明星令人作嘔

      傲傲講歷史
      2026-04-19 01:20:08
      節(jié)后嚴(yán)查開啟!公職人員9條紀(jì)律紅線,千萬別觸碰

      節(jié)后嚴(yán)查開啟!公職人員9條紀(jì)律紅線,千萬別觸碰

      娛樂的宅急便
      2026-05-03 21:22:31
      政府200億挽留失敗,ASML光刻機(jī)巨頭堅(jiān)持遷離荷蘭

      政府200億挽留失敗,ASML光刻機(jī)巨頭堅(jiān)持遷離荷蘭

      璀璨明星
      2026-05-04 01:00:04
      范冰冰遠(yuǎn)東電影節(jié)奪獎(jiǎng),身穿越南設(shè)計(jì)師高定驚艷全場

      范冰冰遠(yuǎn)東電影節(jié)奪獎(jiǎng),身穿越南設(shè)計(jì)師高定驚艷全場

      緬甸中文網(wǎng)
      2026-05-03 15:25:26
      世乒賽5月5日:十六強(qiáng)將全產(chǎn)生,王楚欽帶隊(duì)止連敗林詩棟位置待定

      世乒賽5月5日:十六強(qiáng)將全產(chǎn)生,王楚欽帶隊(duì)止連敗林詩棟位置待定

      聊體育的小哥
      2026-05-05 06:19:54
      不再縱容!上海下達(dá)硬核鐵令,全面鎖死業(yè)委會(huì)權(quán)力,根治小區(qū)頑疾

      不再縱容!上海下達(dá)硬核鐵令,全面鎖死業(yè)委會(huì)權(quán)力,根治小區(qū)頑疾

      墜入二次元的海洋
      2026-05-04 19:22:54
      造車3年燒光183億,“網(wǎng)紅神車”牛皮都吹破了,被央視痛批破產(chǎn)

      造車3年燒光183億,“網(wǎng)紅神車”牛皮都吹破了,被央視痛批破產(chǎn)

      毒sir財(cái)經(jīng)
      2026-05-04 23:03:29
      如果一個(gè)家庭長期沒酒局、沒社交,也少走親戚,只能說明這兩個(gè)問題

      如果一個(gè)家庭長期沒酒局、沒社交,也少走親戚,只能說明這兩個(gè)問題

      心理觀察局
      2026-05-04 09:23:46
      中美放下電話,不到24小時(shí),聯(lián)合國傳來重要消息,中方身份變了

      中美放下電話,不到24小時(shí),聯(lián)合國傳來重要消息,中方身份變了

      健身狂人
      2026-05-04 20:03:17
      日本走投無路,購買俄油救急!美國發(fā)現(xiàn),中方已悄悄拿下全球第一

      日本走投無路,購買俄油救急!美國發(fā)現(xiàn),中方已悄悄拿下全球第一

      原來仙女不講理
      2026-05-04 15:27:59
      瘋狂一夜:曼城爆冷丟分,切爾西6連敗,拉齊奧絕殺,羅馬4球大勝

      瘋狂一夜:曼城爆冷丟分,切爾西6連敗,拉齊奧絕殺,羅馬4球大勝

      足球狗說
      2026-05-05 05:34:19
      朝鮮動(dòng)員青少年軍支援俄軍

      朝鮮動(dòng)員青少年軍支援俄軍

      桂系007
      2026-05-04 23:50:50
      高鐵上偶遇奚夢(mèng)瑤婆婆賭王四太梁安琪本人個(gè)子不高黑黑瘦瘦不年輕

      高鐵上偶遇奚夢(mèng)瑤婆婆賭王四太梁安琪本人個(gè)子不高黑黑瘦瘦不年輕

      TVB的四小花
      2026-05-05 00:13:33
      2026-05-05 07:44:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評(píng)論獨(dú)家合作
      16658文章數(shù) 514917關(guān)注度
      往期回顧 全部

      科技要聞

      在中國市場搞「付費(fèi)訂閱」,豆包咋想的?

      頭條要聞

      00后吳宜澤獲斯諾克世錦賽冠軍 7歲接觸臺(tái)球展現(xiàn)天賦

      頭條要聞

      00后吳宜澤獲斯諾克世錦賽冠軍 7歲接觸臺(tái)球展現(xiàn)天賦

      體育要聞

      騎士破猛龍:加雷特·阿倫的活力

      娛樂要聞

      張敬軒還是站上了英皇25周年舞臺(tái)

      財(cái)經(jīng)要聞

      魔幻的韓國股市,父母給嬰兒開戶買股票

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺(tái)

      態(tài)度原創(chuàng)

      手機(jī)
      教育
      房產(chǎn)
      家居
      公開課

      手機(jī)要聞

      REDMI K100系列要漲價(jià)了!比競品漲得少

      教育要聞

      五年級(jí)求面積,兒子:這就是我的心理陰影面積

      房產(chǎn)要聞

      五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

      家居要聞

      靈動(dòng)實(shí)用 生活藝術(shù)場

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 日韩精品一区二区三区视频| 荥经县| 亚洲另类春色国产精品| 中文字幕 欧美日韩| 四虎在线永久免费看精品| 亚洲无码激情视频在线观看| 色综合一区| 色综合色综合色综合色欲| 中文字幕日韩精品有码视频| 国产91成人亚洲综合在线| 日韩中文字幕人妻精品| 亚洲综合色成在线播放| 国产一区二区三区视频免费在线| 九色精品国产成人综合网站| 成人不卡网| 亚洲男人第一无码av网站| 天堂V亚洲国产V第一次| 精品综合久久久久久8888| 色综合桃花网| 精品无码AV无码免费专区| 成人日本有码在线| 在线精品另类自拍视频| 一本色道久久88加勒比中文字幕| 日本亚洲色大成网站www久久| 久久久噜噜噜久久中文字幕色伊伊 | 亚洲性无码av在线| 天天躁日日躁狠狠躁av麻豆| 中国国产一级毛片视频| 亚洲欧美日韩高清一区| 天堂网国产| 亚洲国产综合av在线观看| 99热这里只有精品综合久久| 人妻中文字幕久久| 伊人久久精品无码麻豆一区 | 国产中文字幕精品喷潮| 国产超碰人人做人人爰| 色一情一乱一伦小说| 狠狠做深爱婷婷久久综合一区| 国产真实自在自线免费精品| 久久青青草原亚洲av无码| 国精产品一品二品国精在线观看|