AI問診靠譜嗎？谷歌研究院部署1.4萬人真實(shí)實(shí)驗(yàn)，結(jié)果讓醫(yī)生汗顏

2026-05-11 17:11:33　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由谷歌研究院（Google Research）與谷歌DeepMind聯(lián)合開展的大規(guī)模研究，于2026年5月5日以預(yù)印本形式發(fā)布，論文編號(hào)為arXiv:2605.04012v1。有興趣深入了解的讀者可以通過該編號(hào)在arXiv平臺(tái)查詢完整論文。

你有沒有在半夜突然感到身體不對勁，卻不確定要不要去看醫(yī)生的經(jīng)歷？喉嚨有點(diǎn)痛，是普通感冒還是扁桃體炎？肚子隱隱作痛，是吃壞了東西還是需要立刻去急診？大多數(shù)人遇到這種情況，第一反應(yīng)不是立刻撥打醫(yī)院電話，而是掏出手機(jī)，打開搜索引擎或者AI聊天工具，輸入自己的癥狀描述，希望得到一個(gè)初步答案。

這個(gè)行為聽起來再普通不過，但背后其實(shí)藏著一個(gè)沒有被認(rèn)真回答過的重要問題：當(dāng)普通人用日常語言向AI描述癥狀時(shí)，AI給出的診斷建議到底有多準(zhǔn)確？它能和真正的醫(yī)生相比嗎？不同的對話方式——比如AI主動(dòng)追問還是用戶自己隨便說——會(huì)不會(huì)顯著影響診斷質(zhì)量？

谷歌研究院的團(tuán)隊(duì)決定用一場真實(shí)的大規(guī)模實(shí)驗(yàn)來回答這些問題。他們開發(fā)了一套叫做SymptomAI的對話式AI系統(tǒng)，把它接入了數(shù)百萬人在用的Fitbit健身追蹤應(yīng)用，讓真實(shí)用戶在真實(shí)生病時(shí)使用它，歷時(shí)將近一年，收集了將近1.4萬場真實(shí)的癥狀對話。這不是在實(shí)驗(yàn)室里設(shè)計(jì)的模擬場景，也不是請演員扮演病人，而是貨真價(jià)實(shí)的真實(shí)世界測試。

這項(xiàng)研究的獨(dú)特之處在于，它同時(shí)做了三件事：測試AI是否能準(zhǔn)確診斷普通人自述的癥狀，比較不同對話策略對診斷準(zhǔn)確率的影響，以及探索將AI診斷與可穿戴設(shè)備的生理數(shù)據(jù)結(jié)合起來有沒有價(jià)值。最終的結(jié)論讓很多人感到意外——在特定條件下，AI給出的鑒別診斷結(jié)果明顯優(yōu)于人類臨床醫(yī)生。

一、為什么普通人看病前總要先問AI

在正式介紹這項(xiàng)研究之前，有必要先理解它為什么重要。我們正處在一個(gè)醫(yī)療信息獲取方式發(fā)生根本性變化的時(shí)代。過去，人們生病了首先咨詢家庭醫(yī)生，或者打電話給診所。后來互聯(lián)網(wǎng)普及，各種癥狀查詢網(wǎng)站和在線癥狀檢查工具興起。而近幾年，大語言模型（也就是ChatGPT、Gemini這類AI聊天工具）的普及，讓情況進(jìn)一步發(fā)生了變化。

有數(shù)據(jù)顯示，人們向AI提問的問題中，大約有五分之一與醫(yī)療健康知識(shí)有關(guān)。而在健康相關(guān)的AI對話里，將近二成涉及癥狀評估或疾病討論。這個(gè)趨勢已經(jīng)實(shí)實(shí)在在地影響了人們的就醫(yī)行為——有研究發(fā)現(xiàn)，當(dāng)搜索引擎上某種癥狀的查詢量上升時(shí)，對應(yīng)的門診就診量反而會(huì)下降。換句話說，人們在真正去醫(yī)院之前，已經(jīng)越來越習(xí)慣先通過數(shù)字工具完成一次"預(yù)診斷"。

問題是，傳統(tǒng)的在線癥狀檢查工具表現(xiàn)并不理想。一項(xiàng)覆蓋23個(gè)癥狀檢查工具的系統(tǒng)性綜述發(fā)現(xiàn)，這些工具能把正確診斷排在第一位的概率只有約34%。也就是說，你告訴它"我頭疼、發(fā)燒、渾身酸痛"，它有三分之二的概率不會(huì)把感冒列為首選答案。這個(gè)準(zhǔn)確率，連病人自己隨機(jī)猜測都未必差多少。

那大語言模型呢？有研究用標(biāo)準(zhǔn)化的臨床病例描述來測試GPT-4，發(fā)現(xiàn)它在前五個(gè)候選診斷（也叫Top-5鑒別診斷）里包含正確答案的概率超過80%，令人印象深刻。但這里有一個(gè)關(guān)鍵問題被忽視了：那些測試用的病例描述，是由專業(yè)醫(yī)生寫的，信息完整、表達(dá)規(guī)范。真實(shí)病人不會(huì)那么說話。

一項(xiàng)很有說服力的研究結(jié)果揭示了這個(gè)差距有多大：當(dāng)AI直接處理專業(yè)撰寫的病例描述時(shí)，Top-3準(zhǔn)確率高達(dá)94.9%；而當(dāng)普通人把同一個(gè)病例的信息用日常語言口頭轉(zhuǎn)述給AI時(shí)，準(zhǔn)確率驟降至34.5%。從將近95%跌到不足35%，這個(gè)懸崖式下跌，清楚地說明了一件事：在實(shí)驗(yàn)室里表現(xiàn)優(yōu)秀的AI，在面對真實(shí)用戶的時(shí)候，表現(xiàn)可能截然不同。

谷歌研究院的團(tuán)隊(duì)正是看到了這個(gè)空白，決定把AI癥狀評估拉到真實(shí)世界里來檢驗(yàn)。

二、一場持續(xù)九個(gè)月、涵蓋近1.4萬人的真實(shí)實(shí)驗(yàn)

這項(xiàng)研究的設(shè)計(jì)本身就值得好好介紹，因?yàn)樗囊?guī)模和真實(shí)性在同類研究中相當(dāng)罕見。

研究團(tuán)隊(duì)把SymptomAI系統(tǒng)接入了Fitbit應(yīng)用的"Fitbit Labs"研究環(huán)境，向美國各地的Fitbit用戶發(fā)出邀請。這個(gè)實(shí)驗(yàn)從2025年6月正式啟動(dòng)，一直運(yùn)行到2026年4月，持續(xù)了將近一年。研究通過了獨(dú)立倫理審查委員會(huì)（Advarra，馬里蘭州，編號(hào)GH-SCD-001）的批準(zhǔn)，所有參與者都經(jīng)過了知情同意程序，明確了解這是一項(xiàng)研究，而非正式的醫(yī)療服務(wù)。參與者沒有任何經(jīng)濟(jì)報(bào)酬。

最終，約4萬名Fitbit用戶被邀請參與，其中13917人完成了至少一次與SymptomAI的完整對話。這些參與者在真正感到身體不適時(shí)，會(huì)打開應(yīng)用與AI進(jìn)行一場關(guān)于癥狀的對話，AI根據(jù)對話內(nèi)容給出可能的病因列表（也就是鑒別診斷，簡稱DDx）。對話結(jié)束后，參與者還會(huì)被邀請?zhí)顚懸粋€(gè)簡短問卷，報(bào)告自己是否去看了醫(yī)生以及得到了什么診斷。如果當(dāng)時(shí)還沒去看醫(yī)生，兩周后系統(tǒng)會(huì)再次提醒，請他們補(bǔ)充后續(xù)診斷結(jié)果。

最終，13917人中有1228人提供了醫(yī)生給出的真實(shí)診斷，這部分?jǐn)?shù)據(jù)成為評估AI準(zhǔn)確率的"金標(biāo)準(zhǔn)"。在這1228人中，研究團(tuán)隊(duì)又隨機(jī)抽取了517人，邀請三位具有超過35年從業(yè)經(jīng)驗(yàn)的家庭科執(zhí)照醫(yī)生進(jìn)行了深度臨床評估，耗時(shí)超過250個(gè)小時(shí)。

這三位醫(yī)生的工作分兩個(gè)階段。第一階段，其中兩位醫(yī)生獨(dú)立閱讀對話記錄（AI給出的診斷被遮擋，只保留用戶的陳述），各自給出自己的鑒別診斷列表，并評估自己的信心程度。第二階段，第三位醫(yī)生在不知道任何診斷來源的情況下，同時(shí)看到三份診斷列表（兩份來自人類醫(yī)生，一份來自AI），對它們進(jìn)行盲評和排名，并在看到真實(shí)診斷后評估各列表的準(zhǔn)確率。

除了人類醫(yī)生的評估，研究團(tuán)隊(duì)還訓(xùn)練了一個(gè)AI自動(dòng)評分系統(tǒng)（auto-rater），用來把人類評估的規(guī)模從517人擴(kuò)展到全部1228人，確保結(jié)論更有統(tǒng)計(jì)力度。

整個(gè)實(shí)驗(yàn)期間，參與者被隨機(jī)分配到五個(gè)不同的"對話模式"組，每組使用不同的AI對話策略。這個(gè)隨機(jī)分組設(shè)計(jì)，使得研究者能夠直接比較不同策略的效果，而不是讓參與者自由選擇。

三、五種對話策略，哪種更像真正的好醫(yī)生

這項(xiàng)研究最核心的變量之一，是AI和用戶交流的方式。研究團(tuán)隊(duì)設(shè)計(jì)了五種不同的對話策略，對應(yīng)五個(gè)實(shí)驗(yàn)組，這五種策略的區(qū)別，本質(zhì)上是AI主動(dòng)性的高低。

第一種策略叫"基礎(chǔ)模式"，這也是目前市面上大多數(shù)消費(fèi)級(jí)AI聊天工具的默認(rèn)狀態(tài)。AI只被告知要聚焦于健康話題，并在對話結(jié)束時(shí)給出可能的診斷列表。它不會(huì)主動(dòng)追問，用戶說什么它就回應(yīng)什么，診斷的質(zhì)量完全取決于用戶自己愿意提供多少信息。這就像走進(jìn)一家診所，醫(yī)生只是坐在那里等你說話，不主動(dòng)問任何問題。

第二種策略叫"固定問題模式"，基于醫(yī)學(xué)院教學(xué)中的標(biāo)準(zhǔn)病史采集框架——HPI（現(xiàn)病史）。AI被要求按順序問一套固定的問題，包括癥狀發(fā)生的位置、開始時(shí)間、嚴(yán)重程度（1-10分）、癥狀的具體感受（比如是刺痛還是鈍痛）、什么情況下癥狀加重或減輕、是否有相關(guān)風(fēng)險(xiǎn)因素，以及癥狀如何影響日常生活。不管用戶之前說了什么，AI都要把這套問題問完，最多對話六輪，然后給出診斷。

第三種策略叫"靈活問題模式"，與第二種類似，但AI有權(quán)根據(jù)用戶已經(jīng)提供的信息跳過不必要的問題。比如用戶一開始就提到了癥狀出現(xiàn)了三天，AI就不需要再問"癥狀什么時(shí)候開始的"。這種方式在保持結(jié)構(gòu)化的同時(shí)，更接近自然對話的感覺。

第四種策略叫"動(dòng)態(tài)實(shí)時(shí)更新模式"，AI有完全的自主權(quán)決定問什么、怎么問，沒有任何預(yù)設(shè)問題列表。唯一的約束是對話最多進(jìn)行六輪，而且AI在每輪對話后都要實(shí)時(shí)更新并展示當(dāng)前最可能的診斷列表，幫助用戶邊聊邊了解情況。

第五種策略叫"動(dòng)態(tài)最終輸出模式"，與第四種非常相似，同樣給AI完全的自主權(quán)，但AI不會(huì)在過程中展示中間診斷結(jié)果，只在對話結(jié)束時(shí)給出最終的診斷列表。

這五種策略從第一種到第五種，AI的主動(dòng)性和結(jié)構(gòu)化程度逐漸發(fā)生變化。研究團(tuán)隊(duì)的核心假設(shè)是：主動(dòng)詢問更多信息的策略，會(huì)比等待用戶主動(dòng)提供信息的策略表現(xiàn)更好。

四、結(jié)果令人驚嘆：主動(dòng)追問的AI，診斷準(zhǔn)確率高出27%

實(shí)驗(yàn)結(jié)果非常清晰地支持了這個(gè)假設(shè)，而且差距之大超出了許多人的預(yù)期。

更有意思的是，固定問題模式（第二和第三種，合計(jì)準(zhǔn)確率75.6%）和動(dòng)態(tài)自主模式（第四和第五種，合計(jì)準(zhǔn)確率71.4%）之間，并沒有統(tǒng)計(jì)上顯著的差異（Welch t檢驗(yàn)，p=0.155）。換句話說，AI不需要死板地遵循醫(yī)學(xué)院教的標(biāo)準(zhǔn)問題清單，只要它被賦予追問的權(quán)限，哪怕完全自主決定問什么，效果也和遵循經(jīng)典臨床框架差不多。

從用戶參與度來看，基礎(chǔ)模式下用戶在整個(gè)對話中平均輸入的單詞數(shù)最少，而其他四種模式由于AI主動(dòng)追問，用戶被引導(dǎo)提供了更多信息，總詞數(shù)明顯更多。這直接解釋了為什么診斷準(zhǔn)確率更高：更多的信息意味著AI有更充分的依據(jù)進(jìn)行判斷。

這個(gè)發(fā)現(xiàn)對普通消費(fèi)者使用AI工具有直接的指導(dǎo)意義。當(dāng)你打開ChatGPT、Gemini或者其他AI助手描述癥狀時(shí)，如果AI只是在被動(dòng)回應(yīng)你，沒有追問任何細(xì)節(jié)，那么它給出的診斷建議的可靠性要打一個(gè)很大的折扣。

五、AI的診斷，為什么連有經(jīng)驗(yàn)的醫(yī)生都比不過

研究中最引人注目的發(fā)現(xiàn)，是SymptomAI的診斷質(zhì)量與人類臨床醫(yī)生相比的結(jié)果。

在那517個(gè)經(jīng)過深度臨床評估的案例中，每個(gè)案例都有三份診斷列表：一份來自SymptomAI，另外兩份來自獨(dú)立閱讀對話記錄的人類醫(yī)生（他們看不到AI的診斷）。第三位醫(yī)生在完全不知道這些列表誰寫的情況下，對三份列表進(jìn)行了盲評排名。

不過這里需要稍微解釋一下"公平性"的問題。參與對比的人類醫(yī)生，他們手頭拿到的信息，是用戶和AI之間的對話記錄——也就是說，這個(gè)對話是AI主導(dǎo)的，問的問題是AI選擇的，收集到的信息是AI覺得有用的。如果讓醫(yī)生自己來進(jìn)行病史采集，他們可能會(huì)問不同的問題，收集到不同的信息。研究團(tuán)隊(duì)在論文中坦承了這個(gè)局限性：這不是一個(gè)完全公平的端對端對比（即醫(yī)生自己問診+自己診斷 vs. AI問診+AI診斷），而是醫(yī)生基于AI問診內(nèi)容進(jìn)行診斷，與AI基于同樣內(nèi)容進(jìn)行診斷的對比。

盡管如此，有一個(gè)事實(shí)使這個(gè)比較依然具有說服力：在那些被醫(yī)生評為"對話質(zhì)量最高、信息最充分"的案例中，AI的表現(xiàn)優(yōu)勢最為突出。既然在信息最完整的情況下AI依然勝出，說明AI的優(yōu)勢不僅僅來自它掌握了人類醫(yī)生沒看到的信息，而是真的在診斷推理上表現(xiàn)更好。

六、AI在低信息量對話中的韌性：越難越顯優(yōu)勢

研究還發(fā)現(xiàn)了一個(gè)特別有意思的模式，涉及不同"難度"的對話案例。

研究中，第一階段的醫(yī)生（也就是提供基準(zhǔn)診斷的兩位醫(yī)生）在完成診斷后，會(huì)被要求評估自己對這個(gè)診斷的信心程度（1到5分）。在醫(yī)生自信心較高（評分4-5分）的案例中，AI和醫(yī)生的表現(xiàn)相差不大，雙方都做得不錯(cuò)。但在醫(yī)生自信心較低（評分1-2分）的案例中——這類案例往往是信息不夠充分、癥狀不夠典型的"難題"——AI的表現(xiàn)明顯優(yōu)于醫(yī)生，差距在統(tǒng)計(jì)上顯著。

這意味著AI對信息不完整的對話具有更強(qiáng)的"抗干擾能力"。即便用戶描述得含糊不清、東一句西一句，AI也能從中提煉出有價(jià)值的診斷線索，而人類醫(yī)生在同樣情況下會(huì)更快地陷入困惑和不確定。

一種可能的解釋是，AI在海量訓(xùn)練數(shù)據(jù)中積累了極為廣泛的"癥狀-疾病"統(tǒng)計(jì)模式。當(dāng)信息不充分時(shí)，AI可以利用這些統(tǒng)計(jì)規(guī)律，預(yù)測在給定的有限癥狀下最可能的疾病分布，相當(dāng)于在不確定性中給出一個(gè)經(jīng)過大量先驗(yàn)信息校準(zhǔn)的猜測。而人類醫(yī)生在面對不完整信息時(shí)，往往更依賴個(gè)人經(jīng)驗(yàn)和直覺，這在信息缺乏時(shí)反而成了局限。

七、研究人群有沒有代表性？來自普通人群的額外驗(yàn)證

一個(gè)合理的質(zhì)疑是：Fitbit的用戶不能代表普通人。Fitbit主要是健身愛好者和健康意識(shí)較強(qiáng)的人在用，這群人可能對自己的身體狀況更了解，描述癥狀更清晰，導(dǎo)致AI表現(xiàn)虛高。

研究團(tuán)隊(duì)認(rèn)真對待了這個(gè)質(zhì)疑。他們額外從第三方調(diào)查平臺(tái)（Toluna）招募了1509名來自美國普通人群的參與者進(jìn)行了獨(dú)立驗(yàn)證。這批人通過結(jié)構(gòu)化問卷描述自己近期的健康事件，然后由SymptomAI對相同內(nèi)容進(jìn)行診斷評估。

結(jié)果顯示，SymptomAI在這批普通人群上的Top-5準(zhǔn)確率為75.2%，與Fitbit用戶群的80.0%非常接近，差距不大。雖然兩個(gè)人群的疾病分布明顯不同（統(tǒng)計(jì)檢驗(yàn)顯示分布差異顯著），但AI的診斷準(zhǔn)確率保持了相當(dāng)程度的穩(wěn)定性，說明研究結(jié)論具有一定的普遍性，不僅僅適用于健康意識(shí)較強(qiáng)的特殊群體。

另外，研究團(tuán)隊(duì)還做了統(tǒng)計(jì)檢驗(yàn)，確認(rèn)參與臨床評估的517人子樣本在年齡、性別、體重等人口學(xué)特征上與全體13917人沒有實(shí)質(zhì)性差異，自行報(bào)告了診斷的人群也沒有明顯的選擇性偏差。

八、身上的手環(huán)，竟然也能"感知"你在生病

這項(xiàng)研究還有一個(gè)令人眼前一亮的延伸發(fā)現(xiàn)，與可穿戴設(shè)備有關(guān)。

Fitbit手表和手環(huán)可以連續(xù)采集多種生理數(shù)據(jù)，包括靜息心率、心率變異性（HRV，這是衡量心臟健康的一個(gè)指標(biāo)）、睡眠中的呼吸頻率、睡眠中的非快速眼動(dòng)期心率、睡眠中的皮膚溫度、睡眠中的清醒時(shí)間、總睡眠時(shí)長、活躍分鐘數(shù)以及每日步數(shù)。研究團(tuán)隊(duì)收集了全體13917名參與者在SymptomAI對話前后共超過50萬天的可穿戴數(shù)據(jù)，將SymptomAI給出的診斷作為"標(biāo)簽"，分析哪些疾病與哪些生理指標(biāo)的變化存在關(guān)聯(lián)。這類分析在醫(yī)學(xué)研究中有一個(gè)專門的名稱叫"全表型關(guān)聯(lián)研究"（PheWAS）。

研究發(fā)現(xiàn)，急性呼吸道感染與多種可穿戴生理指標(biāo)的顯著變化高度相關(guān)。以流感為例，在參與者接觸SymptomAI的前后幾天里，他們的靜息心率明顯升高（賠率比OR>7，意味著流感患者靜息心率異常的概率是非流感人群的7倍以上），日步數(shù)和活躍分鐘數(shù)大幅下降，睡眠中清醒時(shí)間增加，心率變異性降低。這些變化在SymptomAI對話當(dāng)天前后達(dá)到峰值，然后隨著病情發(fā)展而演變。

新冠病毒感染、急性支氣管炎、急性上呼吸道感染和普通感冒也顯示出類似但強(qiáng)度不同的生理信號(hào)變化模式。值得注意的是，許多這些生理變化——比如睡眠中心率的細(xì)微上升或心率變異性的降低——在用戶自己還沒意識(shí)到生病之前就已經(jīng)出現(xiàn)了。

這個(gè)發(fā)現(xiàn)提示了一種有趣的未來可能性：在用戶自己主動(dòng)打開癥狀檢查工具之前，可穿戴設(shè)備檢測到的這些生理異常信號(hào)，也許可以作為"觸發(fā)器"，主動(dòng)提示用戶進(jìn)行癥狀評估。就像手環(huán)注意到你最近幾天睡眠質(zhì)量變差、心率偏高，然后主動(dòng)問你"你最近感覺怎么樣？需要做個(gè)癥狀評估嗎？"。

研究還發(fā)現(xiàn)，人們選擇在那個(gè)時(shí)間點(diǎn)與SymptomAI交互，往往與"睡眠中清醒時(shí)間的峰值"高度吻合——也就是說，嚴(yán)重影響睡眠質(zhì)量，讓人輾轉(zhuǎn)反側(cè)，往往是促使人們下定決心去尋求醫(yī)療信息的關(guān)鍵驅(qū)動(dòng)因素之一。

九、這項(xiàng)研究的局限性：哪些結(jié)論需要謹(jǐn)慎對待

任何研究都有局限性，這項(xiàng)研究的團(tuán)隊(duì)也直接而坦誠地指出了幾個(gè)需要注意的地方。

第一，診斷"金標(biāo)準(zhǔn)"來自參與者的自我報(bào)告，而非經(jīng)過驗(yàn)證的醫(yī)療記錄。參與者說自己被診斷為流感，但研究團(tuán)隊(duì)無法確認(rèn)這個(gè)診斷是否準(zhǔn)確。有些人可能誤記了醫(yī)生的診斷，有些人可能混淆了病名，還有些人可能在慢性病的管理過程中，報(bào)告的是正在演變中的階段性診斷。研究團(tuán)隊(duì)對明顯不合理的報(bào)告進(jìn)行了篩查和過濾，但大規(guī)模數(shù)據(jù)收集不可避免地引入了一些噪音。

第二，臨床對比的不完全公平性前面已經(jīng)提到——參與對比的人類醫(yī)生，是基于AI問診內(nèi)容而非自己問診內(nèi)容進(jìn)行診斷的。這在一定程度上限制了我們對"AI問診+AI診斷"與"醫(yī)生問診+醫(yī)生診斷"進(jìn)行完整端對端比較的能力。

第三，這個(gè)研究設(shè)計(jì)無法控制參與者報(bào)告癥狀的時(shí)間點(diǎn)。有人可能在癥狀剛出現(xiàn)時(shí)就使用了SymptomAI，有人可能等到癥狀很明顯、甚至已經(jīng)去看了醫(yī)生之后才使用。不同的時(shí)間點(diǎn)意味著用戶能提供的信息質(zhì)量和完整性差異很大，這會(huì)影響診斷結(jié)果。

第四，很多疾病僅憑語言描述無法確診，還需要體格檢查、實(shí)驗(yàn)室檢測或影像學(xué)檢查。SymptomAI能做到的只是給出鑒別診斷列表，不能替代真正的醫(yī)療檢查。對于慢性病或需要專科檢查的情況，AI的局限性更加明顯。

十、不同人群，AI表現(xiàn)有沒有差異

研究團(tuán)隊(duì)還分析了AI診斷準(zhǔn)確率在不同人群特征中的分布。

從年齡來看，年齡較大的參與者（65歲以上）Top-5準(zhǔn)確率總體高于年輕人。研究團(tuán)隊(duì)認(rèn)為，這可能是因?yàn)槟觊L者有更豐富的就醫(yī)經(jīng)歷，對自己的身體狀況更了解，描述癥狀時(shí)更精準(zhǔn)。

從性別來看，女性參與者的診斷準(zhǔn)確率高于男性。研究團(tuán)隊(duì)引用了一項(xiàng)醫(yī)學(xué)研究的發(fā)現(xiàn)：男性在日常生活中傾向于比女性更少就醫(yī)，對身體癥狀的感知和描述能力相對弱于女性，這可能導(dǎo)致男性用戶在使用AI癥狀工具時(shí)提供的信息質(zhì)量偏低。

從教育程度來看，擁有研究生及以上學(xué)歷的參與者準(zhǔn)確率高于本科及以下。從醫(yī)療信息素養(yǎng)來看，自評"能夠識(shí)別和理解網(wǎng)絡(luò)健康信息"和"能夠使用AI工具解答健康問題"的參與者，比自評信心較低的參與者表現(xiàn)更好。這些規(guī)律都指向同一個(gè)方向：用戶的健康知識(shí)背景和信息表達(dá)能力，是影響AI診斷質(zhì)量的重要因素。

此外，研究還比較了不同版本的Gemini模型（包括Gemini 2.0 Flash、Gemini 2.5 Flash和Gemini 2.5 Pro）在同樣對話內(nèi)容上的表現(xiàn)，發(fā)現(xiàn)更新、更大的模型在診斷準(zhǔn)確率上確實(shí)有一定提升，但提升幅度不算戲劇性。這說明對話策略（主動(dòng)追問與否）的影響，比模型版本本身的影響更為關(guān)鍵。

說到底，這項(xiàng)研究告訴我們什么？

歸根結(jié)底，這項(xiàng)研究的核心信息非常清晰：當(dāng)AI主動(dòng)追問、系統(tǒng)地收集癥狀信息時(shí)，它的診斷能力可以超過有經(jīng)驗(yàn)的臨床醫(yī)生；而當(dāng)AI被動(dòng)等待用戶自說自話時(shí)，它的表現(xiàn)會(huì)大幅縮水。這對我們?nèi)粘Ｊ褂肁I健康工具有直接的指導(dǎo)意義——如果你發(fā)現(xiàn)某個(gè)AI工具只是在被動(dòng)回應(yīng)你，并沒有追問細(xì)節(jié)，那它給出的診斷建議參考價(jià)值有限。

這項(xiàng)研究的意義還不止于此。它用將近1.4萬場真實(shí)對話證明了，大語言模型在面對真實(shí)用戶的真實(shí)癥狀時(shí)，不再只是"實(shí)驗(yàn)室里好看"，而是真的能在實(shí)際診斷中發(fā)揮有意義的作用。在全球優(yōu)質(zhì)醫(yī)療資源分配極度不均、偏遠(yuǎn)地區(qū)和低收入群體嚴(yán)重缺乏專科醫(yī)療支持的背景下，這種可以隨時(shí)隨地、免費(fèi)獲得的AI診斷輔助工具，有著不可忽視的公共衛(wèi)生價(jià)值。

當(dāng)然，有幾個(gè)思考方向值得繼續(xù)關(guān)注。AI的診斷建議應(yīng)該在多大程度上被用戶當(dāng)作"參考"而非"結(jié)論"？當(dāng)AI給出的診斷建議與醫(yī)生的判斷相矛盾時(shí)，用戶應(yīng)該如何權(quán)衡？可穿戴設(shè)備的生理數(shù)據(jù)與AI癥狀評估相結(jié)合，能否真正實(shí)現(xiàn)疾病的早期預(yù)警，還是仍然過于復(fù)雜？這些問題，都在等待更多研究來回答。

如果你對完整的研究細(xì)節(jié)感興趣，可以在arXiv平臺(tái)通過論文編號(hào)2605.04012搜索全文，免費(fèi)獲取。

Q&A

Q1：SymptomAI的診斷準(zhǔn)確率和真實(shí)醫(yī)生相比到底差多少？

A：SymptomAI在Top-5鑒別診斷準(zhǔn)確率上顯著優(yōu)于人類醫(yī)生，賠率比OR=2.47，也就是說AI的診斷列表包含正確答案的概率大約是人類醫(yī)生的2.5倍。在517個(gè)經(jīng)過臨床專家盲評的案例中，專家把AI的診斷列表排為"最佳"的比例超過52.9%，而兩位人類醫(yī)生的列表被排第一的比例分別只有約23.5%和26.7%。不過需要注意，參與對比的醫(yī)生是基于AI問診記錄進(jìn)行診斷，而非自己主導(dǎo)問診，這在一定程度上影響了對比的完全公平性。

Q2：為什么AI追問癥狀比用戶自己描述效果差異那么大？

Q3：Fitbit的生理數(shù)據(jù)能提前預(yù)測生病嗎？

A：研究發(fā)現(xiàn)，急性呼吸道感染（尤其是流感）與Fitbit采集的多種生理指標(biāo)變化高度相關(guān)，且這些變化在用戶主動(dòng)尋求癥狀評估之前就已經(jīng)出現(xiàn)。以流感為例，賠率比超過7，意味著流感患者出現(xiàn)生理異常的概率是普通人的7倍以上。靜息心率升高、心率變異性下降、步數(shù)驟減等信號(hào)在癥狀報(bào)告日前后達(dá)到峰值。這提示未來可能通過可穿戴設(shè)備的生理異常主動(dòng)觸發(fā)癥狀評估，但目前仍處于研究階段，尚未形成可落地的預(yù)警產(chǎn)品。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.