<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      AI問診靠譜嗎?谷歌研究院部署1.4萬人真實(shí)實(shí)驗(yàn),結(jié)果讓醫(yī)生汗顏

      0
      分享至


      這項(xiàng)由谷歌研究院(Google Research)與谷歌DeepMind聯(lián)合開展的大規(guī)模研究,于2026年5月5日以預(yù)印本形式發(fā)布,論文編號(hào)為arXiv:2605.04012v1。有興趣深入了解的讀者可以通過該編號(hào)在arXiv平臺(tái)查詢完整論文。

      你有沒有在半夜突然感到身體不對勁,卻不確定要不要去看醫(yī)生的經(jīng)歷?喉嚨有點(diǎn)痛,是普通感冒還是扁桃體炎?肚子隱隱作痛,是吃壞了東西還是需要立刻去急診?大多數(shù)人遇到這種情況,第一反應(yīng)不是立刻撥打醫(yī)院電話,而是掏出手機(jī),打開搜索引擎或者AI聊天工具,輸入自己的癥狀描述,希望得到一個(gè)初步答案。

      這個(gè)行為聽起來再普通不過,但背后其實(shí)藏著一個(gè)沒有被認(rèn)真回答過的重要問題:當(dāng)普通人用日常語言向AI描述癥狀時(shí),AI給出的診斷建議到底有多準(zhǔn)確?它能和真正的醫(yī)生相比嗎?不同的對話方式——比如AI主動(dòng)追問還是用戶自己隨便說——會(huì)不會(huì)顯著影響診斷質(zhì)量?

      谷歌研究院的團(tuán)隊(duì)決定用一場真實(shí)的大規(guī)模實(shí)驗(yàn)來回答這些問題。他們開發(fā)了一套叫做SymptomAI的對話式AI系統(tǒng),把它接入了數(shù)百萬人在用的Fitbit健身追蹤應(yīng)用,讓真實(shí)用戶在真實(shí)生病時(shí)使用它,歷時(shí)將近一年,收集了將近1.4萬場真實(shí)的癥狀對話。這不是在實(shí)驗(yàn)室里設(shè)計(jì)的模擬場景,也不是請演員扮演病人,而是貨真價(jià)實(shí)的真實(shí)世界測試。

      這項(xiàng)研究的獨(dú)特之處在于,它同時(shí)做了三件事:測試AI是否能準(zhǔn)確診斷普通人自述的癥狀,比較不同對話策略對診斷準(zhǔn)確率的影響,以及探索將AI診斷與可穿戴設(shè)備的生理數(shù)據(jù)結(jié)合起來有沒有價(jià)值。最終的結(jié)論讓很多人感到意外——在特定條件下,AI給出的鑒別診斷結(jié)果明顯優(yōu)于人類臨床醫(yī)生。

      一、為什么普通人看病前總要先問AI

      在正式介紹這項(xiàng)研究之前,有必要先理解它為什么重要。我們正處在一個(gè)醫(yī)療信息獲取方式發(fā)生根本性變化的時(shí)代。過去,人們生病了首先咨詢家庭醫(yī)生,或者打電話給診所。后來互聯(lián)網(wǎng)普及,各種癥狀查詢網(wǎng)站和在線癥狀檢查工具興起。而近幾年,大語言模型(也就是ChatGPT、Gemini這類AI聊天工具)的普及,讓情況進(jìn)一步發(fā)生了變化。

      有數(shù)據(jù)顯示,人們向AI提問的問題中,大約有五分之一與醫(yī)療健康知識(shí)有關(guān)。而在健康相關(guān)的AI對話里,將近二成涉及癥狀評估或疾病討論。這個(gè)趨勢已經(jīng)實(shí)實(shí)在在地影響了人們的就醫(yī)行為——有研究發(fā)現(xiàn),當(dāng)搜索引擎上某種癥狀的查詢量上升時(shí),對應(yīng)的門診就診量反而會(huì)下降。換句話說,人們在真正去醫(yī)院之前,已經(jīng)越來越習(xí)慣先通過數(shù)字工具完成一次"預(yù)診斷"。

      問題是,傳統(tǒng)的在線癥狀檢查工具表現(xiàn)并不理想。一項(xiàng)覆蓋23個(gè)癥狀檢查工具的系統(tǒng)性綜述發(fā)現(xiàn),這些工具能把正確診斷排在第一位的概率只有約34%。也就是說,你告訴它"我頭疼、發(fā)燒、渾身酸痛",它有三分之二的概率不會(huì)把感冒列為首選答案。這個(gè)準(zhǔn)確率,連病人自己隨機(jī)猜測都未必差多少。

      那大語言模型呢?有研究用標(biāo)準(zhǔn)化的臨床病例描述來測試GPT-4,發(fā)現(xiàn)它在前五個(gè)候選診斷(也叫Top-5鑒別診斷)里包含正確答案的概率超過80%,令人印象深刻。但這里有一個(gè)關(guān)鍵問題被忽視了:那些測試用的病例描述,是由專業(yè)醫(yī)生寫的,信息完整、表達(dá)規(guī)范。真實(shí)病人不會(huì)那么說話。

      一項(xiàng)很有說服力的研究結(jié)果揭示了這個(gè)差距有多大:當(dāng)AI直接處理專業(yè)撰寫的病例描述時(shí),Top-3準(zhǔn)確率高達(dá)94.9%;而當(dāng)普通人把同一個(gè)病例的信息用日常語言口頭轉(zhuǎn)述給AI時(shí),準(zhǔn)確率驟降至34.5%。從將近95%跌到不足35%,這個(gè)懸崖式下跌,清楚地說明了一件事:在實(shí)驗(yàn)室里表現(xiàn)優(yōu)秀的AI,在面對真實(shí)用戶的時(shí)候,表現(xiàn)可能截然不同。

      谷歌研究院的團(tuán)隊(duì)正是看到了這個(gè)空白,決定把AI癥狀評估拉到真實(shí)世界里來檢驗(yàn)。

      二、一場持續(xù)九個(gè)月、涵蓋近1.4萬人的真實(shí)實(shí)驗(yàn)

      這項(xiàng)研究的設(shè)計(jì)本身就值得好好介紹,因?yàn)樗囊?guī)模和真實(shí)性在同類研究中相當(dāng)罕見。

      研究團(tuán)隊(duì)把SymptomAI系統(tǒng)接入了Fitbit應(yīng)用的"Fitbit Labs"研究環(huán)境,向美國各地的Fitbit用戶發(fā)出邀請。這個(gè)實(shí)驗(yàn)從2025年6月正式啟動(dòng),一直運(yùn)行到2026年4月,持續(xù)了將近一年。研究通過了獨(dú)立倫理審查委員會(huì)(Advarra,馬里蘭州,編號(hào)GH-SCD-001)的批準(zhǔn),所有參與者都經(jīng)過了知情同意程序,明確了解這是一項(xiàng)研究,而非正式的醫(yī)療服務(wù)。參與者沒有任何經(jīng)濟(jì)報(bào)酬。

      最終,約4萬名Fitbit用戶被邀請參與,其中13917人完成了至少一次與SymptomAI的完整對話。這些參與者在真正感到身體不適時(shí),會(huì)打開應(yīng)用與AI進(jìn)行一場關(guān)于癥狀的對話,AI根據(jù)對話內(nèi)容給出可能的病因列表(也就是鑒別診斷,簡稱DDx)。對話結(jié)束后,參與者還會(huì)被邀請?zhí)顚懸粋€(gè)簡短問卷,報(bào)告自己是否去看了醫(yī)生以及得到了什么診斷。如果當(dāng)時(shí)還沒去看醫(yī)生,兩周后系統(tǒng)會(huì)再次提醒,請他們補(bǔ)充后續(xù)診斷結(jié)果。

      最終,13917人中有1228人提供了醫(yī)生給出的真實(shí)診斷,這部分?jǐn)?shù)據(jù)成為評估AI準(zhǔn)確率的"金標(biāo)準(zhǔn)"。在這1228人中,研究團(tuán)隊(duì)又隨機(jī)抽取了517人,邀請三位具有超過35年從業(yè)經(jīng)驗(yàn)的家庭科執(zhí)照醫(yī)生進(jìn)行了深度臨床評估,耗時(shí)超過250個(gè)小時(shí)。

      這三位醫(yī)生的工作分兩個(gè)階段。第一階段,其中兩位醫(yī)生獨(dú)立閱讀對話記錄(AI給出的診斷被遮擋,只保留用戶的陳述),各自給出自己的鑒別診斷列表,并評估自己的信心程度。第二階段,第三位醫(yī)生在不知道任何診斷來源的情況下,同時(shí)看到三份診斷列表(兩份來自人類醫(yī)生,一份來自AI),對它們進(jìn)行盲評和排名,并在看到真實(shí)診斷后評估各列表的準(zhǔn)確率。

      除了人類醫(yī)生的評估,研究團(tuán)隊(duì)還訓(xùn)練了一個(gè)AI自動(dòng)評分系統(tǒng)(auto-rater),用來把人類評估的規(guī)模從517人擴(kuò)展到全部1228人,確保結(jié)論更有統(tǒng)計(jì)力度。

      整個(gè)實(shí)驗(yàn)期間,參與者被隨機(jī)分配到五個(gè)不同的"對話模式"組,每組使用不同的AI對話策略。這個(gè)隨機(jī)分組設(shè)計(jì),使得研究者能夠直接比較不同策略的效果,而不是讓參與者自由選擇。

      三、五種對話策略,哪種更像真正的好醫(yī)生

      這項(xiàng)研究最核心的變量之一,是AI和用戶交流的方式。研究團(tuán)隊(duì)設(shè)計(jì)了五種不同的對話策略,對應(yīng)五個(gè)實(shí)驗(yàn)組,這五種策略的區(qū)別,本質(zhì)上是AI主動(dòng)性的高低。

      第一種策略叫"基礎(chǔ)模式",這也是目前市面上大多數(shù)消費(fèi)級(jí)AI聊天工具的默認(rèn)狀態(tài)。AI只被告知要聚焦于健康話題,并在對話結(jié)束時(shí)給出可能的診斷列表。它不會(huì)主動(dòng)追問,用戶說什么它就回應(yīng)什么,診斷的質(zhì)量完全取決于用戶自己愿意提供多少信息。這就像走進(jìn)一家診所,醫(yī)生只是坐在那里等你說話,不主動(dòng)問任何問題。

      第二種策略叫"固定問題模式",基于醫(yī)學(xué)院教學(xué)中的標(biāo)準(zhǔn)病史采集框架——HPI(現(xiàn)病史)。AI被要求按順序問一套固定的問題,包括癥狀發(fā)生的位置、開始時(shí)間、嚴(yán)重程度(1-10分)、癥狀的具體感受(比如是刺痛還是鈍痛)、什么情況下癥狀加重或減輕、是否有相關(guān)風(fēng)險(xiǎn)因素,以及癥狀如何影響日常生活。不管用戶之前說了什么,AI都要把這套問題問完,最多對話六輪,然后給出診斷。

      第三種策略叫"靈活問題模式",與第二種類似,但AI有權(quán)根據(jù)用戶已經(jīng)提供的信息跳過不必要的問題。比如用戶一開始就提到了癥狀出現(xiàn)了三天,AI就不需要再問"癥狀什么時(shí)候開始的"。這種方式在保持結(jié)構(gòu)化的同時(shí),更接近自然對話的感覺。

      第四種策略叫"動(dòng)態(tài)實(shí)時(shí)更新模式",AI有完全的自主權(quán)決定問什么、怎么問,沒有任何預(yù)設(shè)問題列表。唯一的約束是對話最多進(jìn)行六輪,而且AI在每輪對話后都要實(shí)時(shí)更新并展示當(dāng)前最可能的診斷列表,幫助用戶邊聊邊了解情況。

      第五種策略叫"動(dòng)態(tài)最終輸出模式",與第四種非常相似,同樣給AI完全的自主權(quán),但AI不會(huì)在過程中展示中間診斷結(jié)果,只在對話結(jié)束時(shí)給出最終的診斷列表。

      這五種策略從第一種到第五種,AI的主動(dòng)性和結(jié)構(gòu)化程度逐漸發(fā)生變化。研究團(tuán)隊(duì)的核心假設(shè)是:主動(dòng)詢問更多信息的策略,會(huì)比等待用戶主動(dòng)提供信息的策略表現(xiàn)更好。

      四、結(jié)果令人驚嘆:主動(dòng)追問的AI,診斷準(zhǔn)確率高出27%

      實(shí)驗(yàn)結(jié)果非常清晰地支持了這個(gè)假設(shè),而且差距之大超出了許多人的預(yù)期。

      更有意思的是,固定問題模式(第二和第三種,合計(jì)準(zhǔn)確率75.6%)和動(dòng)態(tài)自主模式(第四和第五種,合計(jì)準(zhǔn)確率71.4%)之間,并沒有統(tǒng)計(jì)上顯著的差異(Welch t檢驗(yàn),p=0.155)。換句話說,AI不需要死板地遵循醫(yī)學(xué)院教的標(biāo)準(zhǔn)問題清單,只要它被賦予追問的權(quán)限,哪怕完全自主決定問什么,效果也和遵循經(jīng)典臨床框架差不多。

      從用戶參與度來看,基礎(chǔ)模式下用戶在整個(gè)對話中平均輸入的單詞數(shù)最少,而其他四種模式由于AI主動(dòng)追問,用戶被引導(dǎo)提供了更多信息,總詞數(shù)明顯更多。這直接解釋了為什么診斷準(zhǔn)確率更高:更多的信息意味著AI有更充分的依據(jù)進(jìn)行判斷。

      這個(gè)發(fā)現(xiàn)對普通消費(fèi)者使用AI工具有直接的指導(dǎo)意義。當(dāng)你打開ChatGPT、Gemini或者其他AI助手描述癥狀時(shí),如果AI只是在被動(dòng)回應(yīng)你,沒有追問任何細(xì)節(jié),那么它給出的診斷建議的可靠性要打一個(gè)很大的折扣。

      五、AI的診斷,為什么連有經(jīng)驗(yàn)的醫(yī)生都比不過

      研究中最引人注目的發(fā)現(xiàn),是SymptomAI的診斷質(zhì)量與人類臨床醫(yī)生相比的結(jié)果。

      在那517個(gè)經(jīng)過深度臨床評估的案例中,每個(gè)案例都有三份診斷列表:一份來自SymptomAI,另外兩份來自獨(dú)立閱讀對話記錄的人類醫(yī)生(他們看不到AI的診斷)。第三位醫(yī)生在完全不知道這些列表誰寫的情況下,對三份列表進(jìn)行了盲評排名。

      不過這里需要稍微解釋一下"公平性"的問題。參與對比的人類醫(yī)生,他們手頭拿到的信息,是用戶和AI之間的對話記錄——也就是說,這個(gè)對話是AI主導(dǎo)的,問的問題是AI選擇的,收集到的信息是AI覺得有用的。如果讓醫(yī)生自己來進(jìn)行病史采集,他們可能會(huì)問不同的問題,收集到不同的信息。研究團(tuán)隊(duì)在論文中坦承了這個(gè)局限性:這不是一個(gè)完全公平的端對端對比(即醫(yī)生自己問診+自己診斷 vs. AI問診+AI診斷),而是醫(yī)生基于AI問診內(nèi)容進(jìn)行診斷,與AI基于同樣內(nèi)容進(jìn)行診斷的對比。

      盡管如此,有一個(gè)事實(shí)使這個(gè)比較依然具有說服力:在那些被醫(yī)生評為"對話質(zhì)量最高、信息最充分"的案例中,AI的表現(xiàn)優(yōu)勢最為突出。既然在信息最完整的情況下AI依然勝出,說明AI的優(yōu)勢不僅僅來自它掌握了人類醫(yī)生沒看到的信息,而是真的在診斷推理上表現(xiàn)更好。

      六、AI在低信息量對話中的韌性:越難越顯優(yōu)勢

      研究還發(fā)現(xiàn)了一個(gè)特別有意思的模式,涉及不同"難度"的對話案例。

      研究中,第一階段的醫(yī)生(也就是提供基準(zhǔn)診斷的兩位醫(yī)生)在完成診斷后,會(huì)被要求評估自己對這個(gè)診斷的信心程度(1到5分)。在醫(yī)生自信心較高(評分4-5分)的案例中,AI和醫(yī)生的表現(xiàn)相差不大,雙方都做得不錯(cuò)。但在醫(yī)生自信心較低(評分1-2分)的案例中——這類案例往往是信息不夠充分、癥狀不夠典型的"難題"——AI的表現(xiàn)明顯優(yōu)于醫(yī)生,差距在統(tǒng)計(jì)上顯著。

      這意味著AI對信息不完整的對話具有更強(qiáng)的"抗干擾能力"。即便用戶描述得含糊不清、東一句西一句,AI也能從中提煉出有價(jià)值的診斷線索,而人類醫(yī)生在同樣情況下會(huì)更快地陷入困惑和不確定。

      一種可能的解釋是,AI在海量訓(xùn)練數(shù)據(jù)中積累了極為廣泛的"癥狀-疾病"統(tǒng)計(jì)模式。當(dāng)信息不充分時(shí),AI可以利用這些統(tǒng)計(jì)規(guī)律,預(yù)測在給定的有限癥狀下最可能的疾病分布,相當(dāng)于在不確定性中給出一個(gè)經(jīng)過大量先驗(yàn)信息校準(zhǔn)的猜測。而人類醫(yī)生在面對不完整信息時(shí),往往更依賴個(gè)人經(jīng)驗(yàn)和直覺,這在信息缺乏時(shí)反而成了局限。

      七、研究人群有沒有代表性?來自普通人群的額外驗(yàn)證

      一個(gè)合理的質(zhì)疑是:Fitbit的用戶不能代表普通人。Fitbit主要是健身愛好者和健康意識(shí)較強(qiáng)的人在用,這群人可能對自己的身體狀況更了解,描述癥狀更清晰,導(dǎo)致AI表現(xiàn)虛高。

      研究團(tuán)隊(duì)認(rèn)真對待了這個(gè)質(zhì)疑。他們額外從第三方調(diào)查平臺(tái)(Toluna)招募了1509名來自美國普通人群的參與者進(jìn)行了獨(dú)立驗(yàn)證。這批人通過結(jié)構(gòu)化問卷描述自己近期的健康事件,然后由SymptomAI對相同內(nèi)容進(jìn)行診斷評估。

      結(jié)果顯示,SymptomAI在這批普通人群上的Top-5準(zhǔn)確率為75.2%,與Fitbit用戶群的80.0%非常接近,差距不大。雖然兩個(gè)人群的疾病分布明顯不同(統(tǒng)計(jì)檢驗(yàn)顯示分布差異顯著),但AI的診斷準(zhǔn)確率保持了相當(dāng)程度的穩(wěn)定性,說明研究結(jié)論具有一定的普遍性,不僅僅適用于健康意識(shí)較強(qiáng)的特殊群體。

      另外,研究團(tuán)隊(duì)還做了統(tǒng)計(jì)檢驗(yàn),確認(rèn)參與臨床評估的517人子樣本在年齡、性別、體重等人口學(xué)特征上與全體13917人沒有實(shí)質(zhì)性差異,自行報(bào)告了診斷的人群也沒有明顯的選擇性偏差。

      八、身上的手環(huán),竟然也能"感知"你在生病

      這項(xiàng)研究還有一個(gè)令人眼前一亮的延伸發(fā)現(xiàn),與可穿戴設(shè)備有關(guān)。

      Fitbit手表和手環(huán)可以連續(xù)采集多種生理數(shù)據(jù),包括靜息心率、心率變異性(HRV,這是衡量心臟健康的一個(gè)指標(biāo))、睡眠中的呼吸頻率、睡眠中的非快速眼動(dòng)期心率、睡眠中的皮膚溫度、睡眠中的清醒時(shí)間、總睡眠時(shí)長、活躍分鐘數(shù)以及每日步數(shù)。研究團(tuán)隊(duì)收集了全體13917名參與者在SymptomAI對話前后共超過50萬天的可穿戴數(shù)據(jù),將SymptomAI給出的診斷作為"標(biāo)簽",分析哪些疾病與哪些生理指標(biāo)的變化存在關(guān)聯(lián)。這類分析在醫(yī)學(xué)研究中有一個(gè)專門的名稱叫"全表型關(guān)聯(lián)研究"(PheWAS)。

      研究發(fā)現(xiàn),急性呼吸道感染與多種可穿戴生理指標(biāo)的顯著變化高度相關(guān)。以流感為例,在參與者接觸SymptomAI的前后幾天里,他們的靜息心率明顯升高(賠率比OR>7,意味著流感患者靜息心率異常的概率是非流感人群的7倍以上),日步數(shù)和活躍分鐘數(shù)大幅下降,睡眠中清醒時(shí)間增加,心率變異性降低。這些變化在SymptomAI對話當(dāng)天前后達(dá)到峰值,然后隨著病情發(fā)展而演變。

      新冠病毒感染、急性支氣管炎、急性上呼吸道感染和普通感冒也顯示出類似但強(qiáng)度不同的生理信號(hào)變化模式。值得注意的是,許多這些生理變化——比如睡眠中心率的細(xì)微上升或心率變異性的降低——在用戶自己還沒意識(shí)到生病之前就已經(jīng)出現(xiàn)了。

      這個(gè)發(fā)現(xiàn)提示了一種有趣的未來可能性:在用戶自己主動(dòng)打開癥狀檢查工具之前,可穿戴設(shè)備檢測到的這些生理異常信號(hào),也許可以作為"觸發(fā)器",主動(dòng)提示用戶進(jìn)行癥狀評估。就像手環(huán)注意到你最近幾天睡眠質(zhì)量變差、心率偏高,然后主動(dòng)問你"你最近感覺怎么樣?需要做個(gè)癥狀評估嗎?"。

      研究還發(fā)現(xiàn),人們選擇在那個(gè)時(shí)間點(diǎn)與SymptomAI交互,往往與"睡眠中清醒時(shí)間的峰值"高度吻合——也就是說,嚴(yán)重影響睡眠質(zhì)量,讓人輾轉(zhuǎn)反側(cè),往往是促使人們下定決心去尋求醫(yī)療信息的關(guān)鍵驅(qū)動(dòng)因素之一。

      九、這項(xiàng)研究的局限性:哪些結(jié)論需要謹(jǐn)慎對待

      任何研究都有局限性,這項(xiàng)研究的團(tuán)隊(duì)也直接而坦誠地指出了幾個(gè)需要注意的地方。

      第一,診斷"金標(biāo)準(zhǔn)"來自參與者的自我報(bào)告,而非經(jīng)過驗(yàn)證的醫(yī)療記錄。參與者說自己被診斷為流感,但研究團(tuán)隊(duì)無法確認(rèn)這個(gè)診斷是否準(zhǔn)確。有些人可能誤記了醫(yī)生的診斷,有些人可能混淆了病名,還有些人可能在慢性病的管理過程中,報(bào)告的是正在演變中的階段性診斷。研究團(tuán)隊(duì)對明顯不合理的報(bào)告進(jìn)行了篩查和過濾,但大規(guī)模數(shù)據(jù)收集不可避免地引入了一些噪音。

      第二,臨床對比的不完全公平性前面已經(jīng)提到——參與對比的人類醫(yī)生,是基于AI問診內(nèi)容而非自己問診內(nèi)容進(jìn)行診斷的。這在一定程度上限制了我們對"AI問診+AI診斷"與"醫(yī)生問診+醫(yī)生診斷"進(jìn)行完整端對端比較的能力。

      第三,這個(gè)研究設(shè)計(jì)無法控制參與者報(bào)告癥狀的時(shí)間點(diǎn)。有人可能在癥狀剛出現(xiàn)時(shí)就使用了SymptomAI,有人可能等到癥狀很明顯、甚至已經(jīng)去看了醫(yī)生之后才使用。不同的時(shí)間點(diǎn)意味著用戶能提供的信息質(zhì)量和完整性差異很大,這會(huì)影響診斷結(jié)果。

      第四,很多疾病僅憑語言描述無法確診,還需要體格檢查、實(shí)驗(yàn)室檢測或影像學(xué)檢查。SymptomAI能做到的只是給出鑒別診斷列表,不能替代真正的醫(yī)療檢查。對于慢性病或需要專科檢查的情況,AI的局限性更加明顯。

      十、不同人群,AI表現(xiàn)有沒有差異

      研究團(tuán)隊(duì)還分析了AI診斷準(zhǔn)確率在不同人群特征中的分布。

      從年齡來看,年齡較大的參與者(65歲以上)Top-5準(zhǔn)確率總體高于年輕人。研究團(tuán)隊(duì)認(rèn)為,這可能是因?yàn)槟觊L者有更豐富的就醫(yī)經(jīng)歷,對自己的身體狀況更了解,描述癥狀時(shí)更精準(zhǔn)。

      從性別來看,女性參與者的診斷準(zhǔn)確率高于男性。研究團(tuán)隊(duì)引用了一項(xiàng)醫(yī)學(xué)研究的發(fā)現(xiàn):男性在日常生活中傾向于比女性更少就醫(yī),對身體癥狀的感知和描述能力相對弱于女性,這可能導(dǎo)致男性用戶在使用AI癥狀工具時(shí)提供的信息質(zhì)量偏低。

      從教育程度來看,擁有研究生及以上學(xué)歷的參與者準(zhǔn)確率高于本科及以下。從醫(yī)療信息素養(yǎng)來看,自評"能夠識(shí)別和理解網(wǎng)絡(luò)健康信息"和"能夠使用AI工具解答健康問題"的參與者,比自評信心較低的參與者表現(xiàn)更好。這些規(guī)律都指向同一個(gè)方向:用戶的健康知識(shí)背景和信息表達(dá)能力,是影響AI診斷質(zhì)量的重要因素。

      此外,研究還比較了不同版本的Gemini模型(包括Gemini 2.0 Flash、Gemini 2.5 Flash和Gemini 2.5 Pro)在同樣對話內(nèi)容上的表現(xiàn),發(fā)現(xiàn)更新、更大的模型在診斷準(zhǔn)確率上確實(shí)有一定提升,但提升幅度不算戲劇性。這說明對話策略(主動(dòng)追問與否)的影響,比模型版本本身的影響更為關(guān)鍵。

      說到底,這項(xiàng)研究告訴我們什么?

      歸根結(jié)底,這項(xiàng)研究的核心信息非常清晰:當(dāng)AI主動(dòng)追問、系統(tǒng)地收集癥狀信息時(shí),它的診斷能力可以超過有經(jīng)驗(yàn)的臨床醫(yī)生;而當(dāng)AI被動(dòng)等待用戶自說自話時(shí),它的表現(xiàn)會(huì)大幅縮水。這對我們?nèi)粘J褂肁I健康工具有直接的指導(dǎo)意義——如果你發(fā)現(xiàn)某個(gè)AI工具只是在被動(dòng)回應(yīng)你,并沒有追問細(xì)節(jié),那它給出的診斷建議參考價(jià)值有限。

      這項(xiàng)研究的意義還不止于此。它用將近1.4萬場真實(shí)對話證明了,大語言模型在面對真實(shí)用戶的真實(shí)癥狀時(shí),不再只是"實(shí)驗(yàn)室里好看",而是真的能在實(shí)際診斷中發(fā)揮有意義的作用。在全球優(yōu)質(zhì)醫(yī)療資源分配極度不均、偏遠(yuǎn)地區(qū)和低收入群體嚴(yán)重缺乏專科醫(yī)療支持的背景下,這種可以隨時(shí)隨地、免費(fèi)獲得的AI診斷輔助工具,有著不可忽視的公共衛(wèi)生價(jià)值。

      當(dāng)然,有幾個(gè)思考方向值得繼續(xù)關(guān)注。AI的診斷建議應(yīng)該在多大程度上被用戶當(dāng)作"參考"而非"結(jié)論"?當(dāng)AI給出的診斷建議與醫(yī)生的判斷相矛盾時(shí),用戶應(yīng)該如何權(quán)衡?可穿戴設(shè)備的生理數(shù)據(jù)與AI癥狀評估相結(jié)合,能否真正實(shí)現(xiàn)疾病的早期預(yù)警,還是仍然過于復(fù)雜?這些問題,都在等待更多研究來回答。

      如果你對完整的研究細(xì)節(jié)感興趣,可以在arXiv平臺(tái)通過論文編號(hào)2605.04012搜索全文,免費(fèi)獲取。

      Q&A

      Q1:SymptomAI的診斷準(zhǔn)確率和真實(shí)醫(yī)生相比到底差多少?

      A:SymptomAI在Top-5鑒別診斷準(zhǔn)確率上顯著優(yōu)于人類醫(yī)生,賠率比OR=2.47,也就是說AI的診斷列表包含正確答案的概率大約是人類醫(yī)生的2.5倍。在517個(gè)經(jīng)過臨床專家盲評的案例中,專家把AI的診斷列表排為"最佳"的比例超過52.9%,而兩位人類醫(yī)生的列表被排第一的比例分別只有約23.5%和26.7%。不過需要注意,參與對比的醫(yī)生是基于AI問診記錄進(jìn)行診斷,而非自己主導(dǎo)問診,這在一定程度上影響了對比的完全公平性。

      Q2:為什么AI追問癥狀比用戶自己描述效果差異那么大?

      Q3:Fitbit的生理數(shù)據(jù)能提前預(yù)測生病嗎?

      A:研究發(fā)現(xiàn),急性呼吸道感染(尤其是流感)與Fitbit采集的多種生理指標(biāo)變化高度相關(guān),且這些變化在用戶主動(dòng)尋求癥狀評估之前就已經(jīng)出現(xiàn)。以流感為例,賠率比超過7,意味著流感患者出現(xiàn)生理異常的概率是普通人的7倍以上。靜息心率升高、心率變異性下降、步數(shù)驟減等信號(hào)在癥狀報(bào)告日前后達(dá)到峰值。這提示未來可能通過可穿戴設(shè)備的生理異常主動(dòng)觸發(fā)癥狀評估,但目前仍處于研究階段,尚未形成可落地的預(yù)警產(chǎn)品。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      重慶一57歲女醫(yī)生駕奔馳釀車禍,警方通報(bào)稱操作不當(dāng)致2人死亡6人受傷

      重慶一57歲女醫(yī)生駕奔馳釀車禍,警方通報(bào)稱操作不當(dāng)致2人死亡6人受傷

      大風(fēng)新聞
      2026-05-11 19:31:06
      杭州市拱墅區(qū)半山街道原黨工委副書記、辦事處主任潘金財(cái)涉嫌嚴(yán)重違紀(jì)違法,目前正接受拱墅區(qū)紀(jì)委區(qū)監(jiān)委紀(jì)律審查和監(jiān)察調(diào)查

      杭州市拱墅區(qū)半山街道原黨工委副書記、辦事處主任潘金財(cái)涉嫌嚴(yán)重違紀(jì)違法,目前正接受拱墅區(qū)紀(jì)委區(qū)監(jiān)委紀(jì)律審查和監(jiān)察調(diào)查

      都市快報(bào)橙柿互動(dòng)
      2026-05-11 19:57:59
      一年用水量達(dá)400多噸 背后竟藏離奇謎案?

      一年用水量達(dá)400多噸 背后竟藏離奇謎案?

      環(huán)球網(wǎng)資訊
      2026-05-11 19:19:57
      Here we go!羅馬諾:弗里克和巴薩續(xù)約至2028年,含續(xù)約選項(xiàng)

      Here we go!羅馬諾:弗里克和巴薩續(xù)約至2028年,含續(xù)約選項(xiàng)

      懂球帝
      2026-05-11 21:20:18
      毛主席83歲給華國鋒的珍貴書法,練字真的有意義嗎?

      毛主席83歲給華國鋒的珍貴書法,練字真的有意義嗎?

      書畫相約
      2026-05-11 10:09:02
      河南酒神醉狼去世,年僅46歲!死因曝光,家徒四壁留下三個(gè)女兒!

      河南酒神醉狼去世,年僅46歲!死因曝光,家徒四壁留下三個(gè)女兒!

      閱微札記
      2026-05-11 09:40:53
      傳來大消息,暴漲開啟

      傳來大消息,暴漲開啟

      隔壁老投
      2026-05-11 14:23:42
      天舟十號(hào)發(fā)射成功!中國空間站“超級(jí)補(bǔ)給時(shí)代”開啟——

      天舟十號(hào)發(fā)射成功!中國空間站“超級(jí)補(bǔ)給時(shí)代”開啟——

      海右那人
      2026-05-11 08:45:38
      爸爸想把房子送給"干女兒"保姆 兒子扣房產(chǎn)證

      爸爸想把房子送給"干女兒"保姆 兒子扣房產(chǎn)證

      看看新聞Knews
      2026-05-11 13:12:03
      大S年輕時(shí)房間曝光,太過詭異引人不適,難怪有人曾說活不過50歲

      大S年輕時(shí)房間曝光,太過詭異引人不適,難怪有人曾說活不過50歲

      草莓解說體育
      2026-05-11 20:49:33
      俄閱兵活動(dòng)簡化,普京保護(hù)措施加強(qiáng),有情報(bào)猜測可能與紹伊古有關(guān)

      俄閱兵活動(dòng)簡化,普京保護(hù)措施加強(qiáng),有情報(bào)猜測可能與紹伊古有關(guān)

      麓谷隱士
      2026-05-11 14:01:34
      OPPO再致歉:從嚴(yán)處罰高級(jí)副總裁段要輝

      OPPO再致歉:從嚴(yán)處罰高級(jí)副總裁段要輝

      21世紀(jì)經(jīng)濟(jì)報(bào)道
      2026-05-11 14:48:08
      震驚!小馬云18歲成年首播,在線人數(shù)破7萬,與女生接吻刷爆網(wǎng)絡(luò)

      震驚!小馬云18歲成年首播,在線人數(shù)破7萬,與女生接吻刷爆網(wǎng)絡(luò)

      火山詩話
      2026-05-09 16:02:57
      卷瘋了?!追覓俞浩兩萬員工被迫起號(hào),影石CEO劉靖康看傻了

      卷瘋了?!追覓俞浩兩萬員工被迫起號(hào),影石CEO劉靖康看傻了

      雷科技
      2026-05-11 14:38:40
      誰都不看好你,偏偏你最爭氣——國乒榮膺男團(tuán)12連冠

      誰都不看好你,偏偏你最爭氣——國乒榮膺男團(tuán)12連冠

      體壇周報(bào)
      2026-05-11 17:54:14
      中央社會(huì)工作部副部長柳拯履新中國紅十字會(huì)黨組書記

      中央社會(huì)工作部副部長柳拯履新中國紅十字會(huì)黨組書記

      澎湃新聞
      2026-05-11 22:14:26
      阿根廷公布世界杯55人大名單:迪巴拉無緣!上屆5位冠軍成員落選

      阿根廷公布世界杯55人大名單:迪巴拉無緣!上屆5位冠軍成員落選

      我愛英超
      2026-05-11 21:12:05
      遭“僅退款”榴蓮賣家稱平臺(tái)已返還貨款,平臺(tái)解釋:因未能識(shí)別買家圖片真實(shí)情況,根據(jù)該圖片判定商品無退貨價(jià)值,將提升甄別能力

      遭“僅退款”榴蓮賣家稱平臺(tái)已返還貨款,平臺(tái)解釋:因未能識(shí)別買家圖片真實(shí)情況,根據(jù)該圖片判定商品無退貨價(jià)值,將提升甄別能力

      洪觀新聞
      2026-05-11 16:52:31
      東北一男子養(yǎng)鹿破產(chǎn),賭氣放生了30頭鹿,8年后上山,眼前一幕卻讓他淚崩了...

      東北一男子養(yǎng)鹿破產(chǎn),賭氣放生了30頭鹿,8年后上山,眼前一幕卻讓他淚崩了...

      背包旅行
      2026-05-11 14:51:09
      舉報(bào)成風(fēng),正在壓垮教育!

      舉報(bào)成風(fēng),正在壓垮教育!

      行者殷濤
      2026-05-11 19:00:42
      2026-05-12 00:19:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8300文章數(shù) 563關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機(jī)會(huì)

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個(gè)我

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協(xié)商解約

      財(cái)經(jīng)要聞

      宗馥莉罷免銷售負(fù)責(zé)人 部分業(yè)務(wù)將外包

      汽車要聞

      吉利銀河“TT”申報(bào)圖曝光 電動(dòng)尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      時(shí)尚
      數(shù)碼
      旅游
      親子
      公開課

      今年夏天最流行的5雙涼鞋,配裙子絕美!

      數(shù)碼要聞

      5299元起!大疆ROMO 2系列正式發(fā)布:無人機(jī)同款避障太逆天

      旅游要聞

      天壇公園5月12日景點(diǎn)暫停開放

      親子要聞

      #健康躍動(dòng)計(jì)劃#養(yǎng)育孩子的訣竅,就是相信相信的力量

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产精品免费中文字幕| 日韩深夜福利视频在线观看| 亚洲av网站首页在线观看| 欧洲精品色在线观看| 久久天天躁狠狠躁夜夜躁2012| 国模杨依粉嫩蝴蝶150p| 骚碰人人| 中文字幕亚洲综合久久菠萝蜜| 四虎在线成人免费观看| 人妻丝袜无码专区视频网站| 91无码人妻精品一区| 国产初高中生视频在线观看| 女人与牲口性恔配视频免费| 亚洲大尺度一区二区三区| 黑人无码av| 精品亚洲天堂| 色哟哟精品无码网站在线播放视频| 俺来也www久久婷婷| 一区二区三区激情免费视频| 超浪熟女在线| 欧美顶级metart裸体全部自慰| 无遮挡中文毛片免费观看| 国产一区日韩二区欧美三区| 精品国产乱码久久久久夜深人妻 | 无码熟妇人妻av在线电影| 久操B网| 日韩精品区一区二区三vr| 亚洲另类激情专区小说图片| 国产电影一区二区三区| 欧美牲交a欧美在线| 亚洲高清视频在线播放| 深夜福利av| 99久久国产宗和精品1上映| japanese无码中文字幕| 五月情婷婷| 亚洲香蕉伊综合在人在线| 亚洲欧美另类中文字幕| 色色福利| 波多野结衣久久一区二区| 日本一区二区三本视频在线观看| 国产欧美日韩一区二区三区在线 |