<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      僅僅兩周,AI看病從80%誤診“躍升”到比醫生強,這到底是怎么回事?

      0
      分享至

      點擊藍字關注,多點在看防失聯

      個人觀點,不代表任何組織與單位

      前段時間,我的朋友圈被一條AI看病誤診率80%的新聞刷屏了,說不定你也看到過這條消息:


      可后來,我的新聞推送又給了另一條消息,AI在復雜醫療診斷里表現出色,比急診室醫生還厲害:


      兩個新聞都是基于頂級學術期刊上發表的研究,“誤診80%”是4月16日發表在JAMA上:


      “比急診醫生強”是4月30日發表在《科學》上:


      兩篇論文相隔正好兩周,而且都是哈佛醫學院的研究人員,不過是不同研究組。

      不知道你看到這兩個似乎完全矛盾的研究是什么感覺?

      有一個解釋可以讓兩篇論文不矛盾:急診醫生水平太差,說不定誤診率90%,就算AI誤診率80%也吊打。

      顯然這是開玩笑。

      下面我們還是正經分析一下,兩項研究里為什么一個看上去很不靠譜,一個看上去很靠譜。

      最關鍵的地方,或許是兩項研究測試的內容與評判標準都不一樣。

      JAMA上的研究,也就是AI一趟糊涂的那篇論文,研究人員給AI出的考題是默沙東診療手冊里的29個病例情景,這與《科學》上側重急診室診斷不同,病例范圍更廣。

      更重要的是,JAMA論文里,評判是AI從拿到病例那一刻起就開始,初步鑒別診斷,再到實驗檢查,最終診斷,以及治療方案,每一步的表現都“考”。在這個評判體系里,即便AI給出的最終診斷對了,但在最初的鑒別診斷里有失誤,也會被記錄扣分。

      其實,誤診超過80%是在初步鑒別診斷這一步,可在最終診斷方面,失敗率不到40%——不同模型失敗率是9-39%。

      而《科學》上打敗急診室醫生的研究,側重的恰恰是最終診斷。從某種程度上看,實際上兩個研究都暗示AI在最終診斷判斷上做得還不錯。

      此外,必須注意JAMA論文里初步鑒別診斷失敗率高,建立在病例情景里,患者的信息是一點點輸入給AI,比如先是患者年齡、病癥表現,再加上實驗檢查結果,每輸入一點,研究人員問一部分問題,而每一步里AI給出的答案,都會與標準答案對比,不準確就被歸入失敗。

      這是非常嚴苛的標準。但這個設計很重要,因為它更接近真實的臨床工作方式。醫生在門診或急診里,永遠是從一個不完整的畫面開始:先聽主訴,再做體檢,再等化驗結果回來。每一步都要在信息不全的情況下做判斷,并隨時準備推翻自己的初步猜測。JAMA的測試捕捉到的,正是這種在不確定性下持續推論的能力,而這目前看來,恰恰是AI最薄弱的環節。

      相比之下,《科學》論文里即便是真實病例,也是把完整的電子病歷一次性輸入。這更像是讓AI做"事后諸葛":所有線索已經擺在桌上,任務是從中歸納出答案,而不是在信息殘缺時就要開始押注。兩種測試場景,對應的其實是醫生工作流程里完全不同的兩個時刻:一個是診斷的起點,另一個更接近終點。

      考慮到JAMA研究里,到最后診斷階段,隨著輸入信息變多,成功率上升,再結合《科學》論文里的測試方法,可能都在暗示,有較多信息時,AI的表現會更好。

      那AI看病到底行不行呢?它是那個誤診80%,還是比現實世界的醫生強呢?

      個人認為這其實都不是現在AI醫療需要關注的問題。

      因為當下AI在醫療領域的應用,尤其是用大語言模型做診療,還在非常早期的階段。

      好比我們問一個讀中學的孩子,啥時候能成為科學家,拿諾獎。這不光是做不做的到的問題,而是問這樣的問題,對孩子沒什么幫助,不會有助于他成長,去接近我們期望的結果。

      最值得關注的,未必是當下的AI在醫療場景下做得有多好或多差,而是做得好的地方,為什么好;做得差的地方,原因是什么,有沒有辦法改進。可這恰恰是兩篇論文都沒有深入回答的地方:

      下一步,我們怎么做,才能讓模型的表現更好。

      比如,AI在逐步獲取信息時鑒別診斷能力差,是因為訓練數據里缺乏這類"漸進式推理"的樣本?還是模型本身在處理不確定性時存在結構性缺陷?如果是前者,針對性地用模擬臨床對話的數據做訓練或許有幫助;如果是后者,換一個更新的模型未必能解決問題,需要的可能是完全不同的架構思路。

      這才是AI醫療研究下一步真正該啃的硬骨頭——不是再做一個"AI能不能打敗醫生"的對比實驗,而是設計能夠定位失敗根源的研究:在哪一步出錯,為什么出錯,改變哪個變量之后,可能有好轉。沒有這類研究,我們只能在"AI很厲害"和"AI很爛"之間反復橫跳,卻對如何推進毫無頭緒。

      讀了這兩篇論文后,其實我做了一件事,把兩篇論文都傳到ChatGPT與Claude上,問同一個問題,為什么都是做AI診療,這兩篇論文得出了完全相反的結論。

      ChatGPT和Claude都很聰明地抓住了兩篇論文在方法學、評判標準上的差別。可也都犯了讓我感到不可思議的錯誤,或者說是誤解。

      例如,ChatGPT在分析為什么AI在一個研究里看上去很成功,另一個很失敗時,提出最關鍵的差別是,一項研究——JAMA那項,用了沒有噪音的干凈數據,大語言模型在這種環境下更出色:


      這個解釋等于是完全誤解了兩篇論文的結果。JAMA是用了“干凈”的情景病例,可恰恰是在這項研究里,AI的成功率不高。

      《科學》的論文是用了真實病例,存在潛在的“噪音干擾”,但AI在那篇論文里的表現并不差。

      至于Claude,它沒有犯ChatGPT的錯,但它的解釋里強調JAMA用了普通的大語言模型,《科學》用了OpenAI的o1推理模型,推理模型在回答診療這種復雜問題時更強大:


      和ChatGPT一樣,看似有道理,可惜不符合事實。JAMA的論文里除了用普通模型,也用了o1這樣的推理模型。


      《科學》那篇論文,其實也同時用了GPT4與o1,在有些檢驗上二者沒有顯著差別。

      這些錯誤涉及的是對兩篇論文最基礎事實的了解,我完全沒料到兩個模型能出現這樣的低級失誤。

      這或許也是當下AI用于醫療的風險:它們可以既“理解”復雜問題(兩篇看似矛盾的論文,是方法與研究目的上有差異),給出看上去很好的答案,可又在一些基礎事實上出錯。

      最后,同樣值得指出的是,ChatGPT與Claude指出的“數據干凈”,“推理模型”(更強更新的模型),是很多人回應AI不夠好時的口頭禪。似乎只要輸入內容噪音小,或者用了下一代模型,之前做不到的都能實現。

      這背后與其說是基于證據的合理推測,倒不如說是近乎信仰崇拜,甚至可能在干擾我們,人,做出正確的判斷。

      例如在《科學》這篇論文發表后,NPR做了報道,里面提到“過去的模型”表現不佳,《科學》論文展示了過去幾年技術的巨大進步:


      這篇報道里的“過去表現不佳的模型”,直接鏈接到JAMA那篇論文,也就是在記者看來,JAMA論文里的“矬”,是用了比《科學》論文里更老的模型。

      這是NPR報道里極為罕見的事實錯誤,真相是:JAMA里用的模型比《科學》里更新。

      《科學》用的是2024年9月發布的o1-preview,JAMA不僅用了o1,還一直跟蹤到25年底的各個主流大語言模型:


      就像我們不該默認AI會給出正確的答案,我們或許也不該默認,下一個AI會給出更準確的答案。

      訂閱關注防失聯

      前沿醫藥,請關注

      參考資料

      https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2847679

      https://www.science.org/doi/10.1126/science.adz4433

      更多精彩內容見Youtube:Y博的科普園

      Y博也有播客了,歡迎關注《說醫解藥》

      小宇宙、蘋果播客、Spotify同步更新

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      3.2億退休人真相:能拿5500元退休金的,僅8%!別再被網絡誤導了

      3.2億退休人真相:能拿5500元退休金的,僅8%!別再被網絡誤導了

      吃貨的分享
      2026-04-29 01:53:54
      向太公開炮轟準兒媳,怒斥她把兒子帶壞!和郭碧婷待遇差太遠

      向太公開炮轟準兒媳,怒斥她把兒子帶壞!和郭碧婷待遇差太遠

      黎兜兜
      2026-05-22 10:44:58
      陳賡兒子晚年首次透露:父親這輩子最怕鄧小平,跟周總理卻是過命的交情

      陳賡兒子晚年首次透露:父親這輩子最怕鄧小平,跟周總理卻是過命的交情

      史海孤雁
      2026-03-25 18:42:27
      后續!江蘇女子漏放吸管當場破防,怒罵店員扔吸管,網友:拘留她

      后續!江蘇女子漏放吸管當場破防,怒罵店員扔吸管,網友:拘留她

      小鋭有話說
      2026-05-23 23:11:15
      太惡心了!楊梅風波再生事端,有人穿拖鞋將腳直接踩在楊梅上分揀

      太惡心了!楊梅風波再生事端,有人穿拖鞋將腳直接踩在楊梅上分揀

      火山詩話
      2026-05-23 06:28:19
      AZP:我不能在塞維利亞降級后離開,現在可以安心告別了

      AZP:我不能在塞維利亞降級后離開,現在可以安心告別了

      懂球帝
      2026-05-24 11:29:35
      媒體人:賀希寧季后賽各項數據都下滑,問題是破解防守能力不足

      媒體人:賀希寧季后賽各項數據都下滑,問題是破解防守能力不足

      懂球帝
      2026-05-23 22:16:33
      兩天兩架接連墜落!巴基斯坦中國產戰機接連墜毀,問題出在哪?

      兩天兩架接連墜落!巴基斯坦中國產戰機接連墜毀,問題出在哪?

      嫹筆牂牂
      2026-05-24 09:31:43
      “100%椰子水”翻車?多品牌回應

      “100%椰子水”翻車?多品牌回應

      南方都市報
      2026-05-24 10:29:08
      方世玉怎么死的?一身銅筋鐵骨,卻被師太踢中罩門,24歲英年早逝

      方世玉怎么死的?一身銅筋鐵骨,卻被師太踢中罩門,24歲英年早逝

      元哥說歷史
      2026-05-24 11:40:08
      航天員張志遠今晚首次“飛天”,母親:希望他能在太空上看到家鄉,凱旋那天家里會像他10多年前結婚時一樣熱鬧

      航天員張志遠今晚首次“飛天”,母親:希望他能在太空上看到家鄉,凱旋那天家里會像他10多年前結婚時一樣熱鬧

      極目新聞
      2026-05-24 09:21:22
      瘋狂撈錢斂財,全部救濟百姓

      瘋狂撈錢斂財,全部救濟百姓

      我是歷史其實挺有趣
      2026-05-23 10:39:46
      3-1,4-2!西甲大結局!姆巴佩獲金靴,赫羅納降級,最終排名出爐

      3-1,4-2!西甲大結局!姆巴佩獲金靴,赫羅納降級,最終排名出爐

      等等talk
      2026-05-24 06:05:12
      中國女排奪冠卻無MVP,前兩名共享最佳陣容名額

      中國女排奪冠卻無MVP,前兩名共享最佳陣容名額

      郭夷包工頭
      2026-05-24 11:10:20
      菲律賓參議院又變天?反莎拉彈劾議員被撤,新一輪換議長行動啟動

      菲律賓參議院又變天?反莎拉彈劾議員被撤,新一輪換議長行動啟動

      閱微札記
      2026-05-24 10:09:30
      罵得好!郭敬明片場大罵程瀟,偷懶耽誤拍攝,曾坐輪椅跪舔韓團被嘲

      罵得好!郭敬明片場大罵程瀟,偷懶耽誤拍攝,曾坐輪椅跪舔韓團被嘲

      八卦王者
      2026-05-24 11:45:27
      新加坡媒體為何對《給阿嬤的情書》如此敏感?

      新加坡媒體為何對《給阿嬤的情書》如此敏感?

      手工制作阿殲
      2026-05-24 05:40:18
      炸了!周也戀情曝光,對象身份不簡單

      炸了!周也戀情曝光,對象身份不簡單

      黎兜兜
      2026-05-22 12:29:13
      450萬粉網紅丹尼·科爾曼痛失14歲愛子:曾以為只是口腔小毛病,確診已是癌癥三期

      450萬粉網紅丹尼·科爾曼痛失14歲愛子:曾以為只是口腔小毛病,確診已是癌癥三期

      熱搜摘要官
      2026-05-23 00:24:36
      白宮附近槍擊案嫌疑人在醫院死亡

      白宮附近槍擊案嫌疑人在醫院死亡

      界面新聞
      2026-05-24 08:15:49
      2026-05-24 12:16:49
      一個生物狗的科普小園 incentive-icons
      一個生物狗的科普小園
      愛科普的科研民工
      893文章數 11332關注度
      往期回顧 全部

      科技要聞

      我戴著攝像頭上班,正在幫AI搶走我飯碗

      頭條要聞

      牛彈琴:特朗普宣布大消息后發地圖 伊朗被星條旗覆蓋

      頭條要聞

      牛彈琴:特朗普宣布大消息后發地圖 伊朗被星條旗覆蓋

      體育要聞

      少年意氣,正在改變中國足球

      娛樂要聞

      李晨鄭愷沖上熱搜!跑男停宣引熱議

      財經要聞

      爆炸致82人遇難 留神峪煤業存違法行為

      汽車要聞

      2027款星途瑤光上市 把"全球車"標準卷進13萬級市場

      態度原創

      房產
      數碼
      家居
      旅游
      教育

      房產要聞

      瘋搶511輪!今年海南最魔幻的地塊,被福建能源企業搶了!

      數碼要聞

      技嘉首款Micro ATX背插主板B850M AORUS STEALTH ICE上線

      家居要聞

      低調傳承 溫潤沉靜

      旅游要聞

      “樂爽中陽”2026年文化旅游消費季啟幕

      教育要聞

      14歲女孩“滿是槽點”的生日照,拆穿家長真面目:不偏心也不負責

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲欧美日韩在线不卡| 在线看片无码永久免费AV| 亚洲日本va午夜中文字幕| 九九精品免费观看| 少妇午夜福利一区二区三区| 91超碰在线播放| 人妻?无码?中出| 日韩成人小电影| 中文字幕欧美人妻精品一区蜜臀 | 国产精品yjizz视频网一二区| 亚洲gv猛男gv无码男同| 亚洲国产大胸一区二区三区| 免费无码AV片在线观看国产| 亚欧美国产色| 欧美xxxxx精品| 天天躁日日躁狠狠躁av麻豆| 丰满人妻一区二区三区色| 亚洲天堂在线播放| 人人爽人人爽人人片av | 精品少妇人妻一区二区| 美女自卫慰黄网站| 国内精品大秀视频日韩精品| 欧美另类小说偷拍激情| www亚洲无码| 日产精品久久久久久久性色| 国产又色又爽又黄的在线观看| 欧洲中文字幕一区二区| 亚洲欧美牲交| 国产漂亮白嫩美女在线观看| 亚欧日韩一区视频在线| 性饥渴艳妇性色生活片在线播放 | 亚洲中文字幕久久精品| 西西人体大胆444www高清大但| 91亚洲国产成人精品福利| AV无码中文| 亚洲国产人成自久久国产| 亚洲成a人片在线观看导航| 久久波多野结衣av| 精品无码成人久久久久久| 岛国无码av| 久久久精品国产sm调教网站|