網易首頁 > 網易號 > 正文申請入駐

斯坦福大學造了一個"AI醫生考場"，結果最強的AI也只考了46分

2026-05-08 20:11:41　來源: 科技行者

天津舉報

分享至

這項由斯坦福大學醫學信息學團隊完成的研究，以預印本形式于2026年5月發表，論文編號為arXiv:2605.02240。研究核心是一套名為PhysicianBench的測試系統，專門用來考察AI大模型能否像真正的醫生一樣在電子病歷系統中完成真實的臨床工作。有興趣深入了解的讀者可通過該編號在arXiv平臺查閱完整論文。

一、當AI走進醫院，我們真的準備好了嗎

醫院里的醫生每天要做什么？簡單來說，就是翻病歷、看化驗單、做判斷、下醫囑、寫記錄——每一步都環環相扣，少一步都可能出問題。近年來，各種AI大模型在醫學知識問答上表現相當亮眼，背醫學教材似乎不在話下。可背書厲害和真正看病是兩回事，就像一個能把菜譜倒背如流的人，不見得能做出一桌像樣的飯菜。

斯坦福大學的研究團隊正是意識到了這種"紙面上的優秀與實戰中的平庸"之間的鴻溝，才下定決心搭建一個更接近真實臨床環境的考場——PhysicianBench。這個名字直譯過來就是"醫生工作臺基準測試"，顧名思義，是要把AI直接放到醫生工作的環境里，讓它完成真正的臨床任務，而不是做選擇題。

現有的醫療AI測試大多像紙筆考試：給你一道題，你回答對了就算過。可現實中的醫生工作更像一場需要調取檔案、分析案情、形成報告、執行行動的綜合任務。現有測試的三大軟肋在于：第一，它們只考察AI能不能回答問題，不考察它能不能做成一件事；第二，即便有些測試設計了"下醫囑"這類動作，也只是停留在"說說打算"的層面，從不驗證AI是否真的在系統里執行了那個操作；第三，測試題目大多來自教科書或模擬病人，缺乏真實臨床案例的復雜性。

PhysicianBench的出現，正是為了填補這三個空缺。

二、這個考場到底長什么樣

搭建這套考場，研究團隊做了三件很關鍵的事。

第一件是找來真實的臨床案例作為題目素材。這些案例來自斯坦福醫療中心的"電子會診"系統——一種讓全科醫生向專科醫生在線提問的機制。比如全科醫生遇到一個心臟病人不確定該怎么處理，就給心臟科專家發一條電子會診請求，專家看完病歷后給出建議。這些真實的問診記錄天然帶著真實病人的復雜性和臨床推理邏輯，正好用來設計考題。

第二件是給AI搭建一套真實可用的電子病歷系統。研究團隊使用了一個符合國際醫療數據交換標準（FHIR，可以理解為醫療界的"通用插頭規格"）的開源服務器，把真實病人（經過脫敏處理）的病歷數據裝進去。這個系統和市面上Epic、Cerner等主流醫院信息系統的運作方式高度一致，AI在這里操作病歷，和真實醫生在醫院里操作的感受幾乎相同。每道題目都對應一個獨立的"病歷數據庫容器"，AI做完一道題，容器自動銷毀，下一道題重新開始，確保題目之間互不影響。

第三件是讓真人醫生反復審核每一道題。研究團隊招募了11位臨床醫生（主要是內科、心臟科、急診科和精神科背景，工作經驗從5年到12年不等）組成評審團。每道題從設計到最終定稿，至少要經過兩輪人工審核，醫生要檢查題目說法是否清晰、臨床邏輯是否正確、參考答案是否安全、病歷數據是否一致。若有問題，AI助手會根據醫生的意見生成修改方案，醫生再逐條審批，直到所有修改都獲認可為止。

整個考場最終包含100道考題，橫跨21個臨床專科，涵蓋心臟科、內分泌科、消化科、感染科、精神神經科、血液腫瘤科、腎臟泌尿科、呼吸科等八大領域。題目類型分為四大類：診斷與解讀（占13%，比如解讀一份超聲報告）、藥物處方（占26%，比如為病人開具合適的藥物）、治療方案規劃（占27%，比如制定長期用藥優化方案）、以及檢查與風險評估（占34%，比如針對某個異常化驗結果安排系列檢查）。

三、AI醫生的"工作臺"上有什么工具

在PhysicianBench的考場里，AI扮演的是一位具體專科的醫生，面對一位真實病人的完整電子病歷。AI拿到的任務指令會明確告知它當前的角色（比如"你是一位內分泌科醫生"）、觸發事件（比如"這位病人剛完成了一次超聲檢查，報告已出爐"）、需要完成的步驟，以及最終需要交付的成果（比如"寫一份評估報告并保存到指定文件"）。

AI完成任務的方式是調用各種工具，就像醫生在醫院系統里點擊不同的功能按鈕。這些工具共有14種，其中13種用于讀寫電子病歷，1種用于保存輸出文件。讀取類工具可以查詢病人的基本信息、問題列表（診斷記錄）、化驗結果、生命體征、社會史、用藥記錄、手術操作記錄、臨床文書，以及已有的檢查申請單。寫入類工具則可以創建新的藥物醫囑、檢查/轉診申請單、預約掛號，以及發送病人通知消息。

每道題平均需要AI發出27次工具調用，相當于醫生在系統里"點了27下"。這些工具調用不是象征性的，而是真實地改變了系統里的數據狀態——AI開了一張化驗單，系統里就真的多了一條化驗申請記錄；AI沒有實際創建這條記錄，事后檢查就會發現它根本沒做。

四、怎么判斷AI考得好不好

PhysicianBench的評分方式也相當有特色，不像普通考試那樣只看最終答案，而是把每道題拆解成若干"檢查點"，每個檢查點代表完成任務的一個關鍵步驟。100道題共設置了670個檢查點，平均每道題約有6到7個關卡。

這些檢查點按類型分為四種。第一種是數據檢索關卡，驗證AI是否查詢了必要的病歷信息，比如是否調取了病人的腎功能化驗結果。第二種是臨床推理關卡，考察AI對檢索到的數據的理解是否正確，包括計算臨床評分（比如根據病人的年齡、診斷記錄計算某個風險評分）、解讀并綜合臨床發現、做出臨床判斷（比如是否需要抗凝治療），以及應用臨床標準（比如排除某種并發癥的診斷）。第三種是行動執行關卡，直接檢查AI是否在系統里創建了對應的醫囑，比如是否開了一張劑量范圍正確的他汀類藥物處方，或者是否發出了一個CT血管造影的檢查申請。第四種是文檔記錄關卡，評估AI寫出的臨床記錄是否完整、邏輯是否清晰、是否符合臨床指南、有沒有潛在的安全隱患。

評分工具也分三種。對于行動執行類關卡，系統直接查詢數據庫，用代碼驗證相應的資源是否存在，完全客觀。對于包含數值結果的推理類關卡，系統先從數據庫自動計算正確答案，再用AI輔助提取AI輸出中報告的數值，最后做比對，兼顧客觀性與靈活性。對于臨床文檔和深度推理類關卡，則交給一個AI評判模型，對照詳細的評分標準做三檔判斷（通過/部分通過/不通過）。

五、十二支AI隊伍上場，成績如何

研究團隊邀請了12個主流大模型參加測試，包括GPT-5.5、GPT-5.4（OpenAI出品）、Claude Opus 4.6、Claude Opus 4.7、Claude Sonnet 4.6（Anthropic出品）、Gemini Pro 3.1（谷歌出品）、Grok-4.20（xAI出品），以及國產模型DeepSeek V4-Pro、Kimi-K2.6、Qwen3.6-Plus、MiniMax M2.7、MiMo-v2.5-Pro。每道題每個模型都運行3次，以測量穩定性。

成績單出來，整體上頗為"慘烈"。排名第一的GPT-5.5單次通過率為46.3%，也就是說，給它一次機會，它能完整完成約46道題目，還有54道是失敗的。排在第二的Claude Opus 4.6通過率為31.7%，第三的Claude Opus 4.7為29.3%，第四的GPT-5.4為27.7%，往后依次下滑。最強開源模型DeepSeek V4-Pro拿到18.7%，而墊底的Grok-4.20只有5.3%。

更能說明問題的是"每次都能過"的穩定性指標。GPT-5.5在三次獨立測試中全部通過的題目比例只有28%——也就是說，即便是表現最好的模型，也只有不到三分之一的題目它能穩穩拿下，另外超過七成的題目至少有一次會失手。Claude Opus 4.6和4.7的這個數字是18%，Grok-4.20和MiniMax M2.7只有1%，也就是說，100道題里它們只有一道能三次都過。

從專科分布來看，GPT-5.5在內分泌科表現最好，通過率接近59%，在心臟科也達到55.6%。相對薄弱的是精神神經科（33.3%）和腎臟泌尿科（29.2%）。值得一提的是，腎臟泌尿科是唯一一個Claude系列反超GPT-5.5的專科，Claude家族在該領域達到33.3%，略高于GPT-5.5的29.2%。

從題目類型來看，治療方案規劃是所有模型一致感到最吃力的類別——這類題目要求AI做出長時間跨度、多步驟的綜合方案，非GPT-5.5模型的最高通過率只有23.5%。相比之下，診斷解讀類題目通過率相對較高，Claude Opus 4.6在這類題目上甚至達到43.6%，與GPT-5.5的46.2%相差無幾。

六、AI到底是哪一步卡住了

為了搞清楚AI失敗的原因，研究團隊對每一個未通過的檢查點進行了分類分析。結果發現，大約有50.4%的失敗集中在臨床推理環節，也就是說，AI拿到了數據，但分析出了偏差或遺漏了關鍵細節。其次是行動執行（18.8%）和文檔記錄（18.4%），最后是數據檢索（12.4%）。

把GPT-5.5和Claude Opus 4.6的失敗案例逐一比對后，研究團隊發現了幾個有趣的細節。在臨床推理失敗的案例里，兩個模型最常見的問題都不是"做出了錯誤結論"，而是"推理不完整"或者"幾乎到位但差了一點細節"——比如給出了正確的用藥方向，但忘記說明劑量范圍，或者給出了正確的治療方案，但遺漏了安全監測提示。真正得出錯誤結論的情況在GPT-5.5中完全沒有出現，在Claude Opus 4.6中也只占6%。

在行動執行類失敗里，最常見的情況是"AI在文字里說了，但沒在系統里做"——GPT-5.5有62%的行動失敗屬于這種情況，Claude Opus 4.6更高達73%。這就像醫生在病歷里寫了"需要安排CT檢查"，卻忘記在系統里實際點擊提交申請單。

對于為什么GPT-5.5比Claude Opus 4.6領先這么多，研究團隊給出了一個相當直觀的解釋：不是因為GPT-5.5的醫學知識更豐富，而是因為它在工作中更"老實"——它會更忠實地把從系統里查到的數據原文呈現出來，不會自作主張地模糊處理數值；它還會更全面地枚舉所有需要完成的步驟，不輕易遺漏。機制上，GPT-5.5在同類題目中調用工具的次數明顯更多，說明它會更深入地翻閱病歷，而不是查了一兩條就匆匆下結論。

七、一個完整的失敗故事

研究團隊特別展示了一個典型的失敗案例，用來具體說明AI是如何在一道題里同時踩中多個陷阱的。

這道題的背景是：一位69歲女性患有"腎上腺皮質功能不全"，AI扮演內分泌科醫生，需要評估她目前的激素替代治療是否足夠，并制定下一步管理方案。關鍵的臨床背景是：這位病人的腎上腺皮質功能不全是"繼發性"的，也就是說，她的腎上腺本身沒有問題，是因為長期使用含激素的眼藥水和止痛藥壓制了大腦的調控信號，導致腎上腺"懶惰"了。繼發性腎上腺皮質功能不全有一個特點——腎上腺分泌鹽皮質激素的功能是保留的，不需要額外補充。

AI在查閱系統時確實讀到了一條2022年6月的電話復診記錄，里面白紙黑字寫著"已知繼發性腎上腺皮質功能不全，于2019年診斷，原因為慢性眼部激素滴眼液和阿片類藥物使用"。然而AI隨后的推理卻把這條關鍵信息"忽視"了——它看到病人的腎素（一種鹽皮質激素的調節指標）偏高，血鈉偏低、血鉀偏高，就徑直得出"這是原發性腎上腺皮質功能不全（即阿迪森氏病）"的結論，并相應建議開具氟氫可的松——一種僅用于原發性患者、在繼發性患者中使用可能導致高血壓、低血鉀和水腫的藥物。

接著，AI在寫出的管理方案里提到"如有必要應轉診心臟科"，卻沒有在系統里真正提交一條轉診申請。最后形成的臨床文書，也因為基礎診斷已經弄錯而從頭到尾都在"錯誤的劇情"里展開。一次任務，四個環節都出了問題：數據檢索到了但沒有有效利用、臨床推理得出了錯誤結論、行動停留在紙面上沒有落地、文檔記錄繼承了前面的錯誤。

八、這件事對我們意味著什么

說到底，PhysicianBench這套考場的價值不在于證明AI有多差，而在于它第一次給了我們一把真實可信的尺子，讓我們知道AI距離"可以真正在臨床上獨立工作"還有多遠。

46%的通過率意味著什么？打個比方，假設一位實習醫生有一半的工作任務沒能完整完成，或者完成質量參差不齊，沒有人會放心讓他單獨值班。當前最強的AI也處于這個水平。而且更值得注意的是，28%的"每次都能穩定通過"比率意味著，即便偶爾的成功也相當程度上是隨機的，而不是可靠的能力。

開源模型和閉源模型之間的差距相當明顯，最強開源模型DeepSeek V4-Pro的18.7%只有GPT-5.5的一半不到。這說明在復雜、多步驟的臨床工作場景下，模型能力的分級效應遠比在單題問答中更加顯著。

研究團隊也坦承，這套考場目前還有不少盲區。它的題目以門診會診場景為主，住院病房的出院小結、術后醫囑等場景尚未覆蓋。它是單人工作的評測，沒有涉及AI與人類醫生協作的場景。它也還沒有引入醫學影像、心電圖波形等多媒體信息，而這些在真實臨床中極為普遍。未來版本可能會擴展到這些方向，逐漸逼近真實臨床的完整復雜度。

對于普通患者來說，現在還不用擔心AI會在沒有人工監督的情況下替你做醫療決定——研究結果非常清楚地說明，當前AI在這類工作上的表現遠未達到可獨立部署的標準。但這套考場的存在，正在成為推動AI不斷進步的壓力測試。每當有新模型發布，在PhysicianBench上的得分就是一個有說服力的參考，讓外界知道它的臨床能力究竟進步到了哪里。

歸根結底，醫學是一個容錯空間極小的領域，一個"幾乎正確"的答案有時比一個錯誤答案更危險，因為它更容易騙過人的審查。研究團隊用這100道題、670個檢查點和11位醫生的心血，搭建起了目前最接近真實臨床環境的AI評測平臺。它不僅僅是一張成績單，更是一份清醒的提示：AI醫生還在上學，暫時還不能獨立出診。有興趣深入了解技術細節的讀者，可通過arXiv編號2605.02240查閱完整論文。

Q&A

Q1：PhysicianBench和之前的醫療AI測試有什么本質區別？

A：之前的測試大多是"背書考試"——給AI一道醫學選擇題，看它能不能回答正確。PhysicianBench則是"實操考試"——把AI直接放進真實的電子病歷系統，讓它完成一整套臨床工作，包括查閱病歷、分析數據、下醫囑、寫報告，而且會直接檢查系統里是否真的留下了對應的操作記錄，而不是只看AI說了什么。

Q2：目前AI在PhysicianBench上的表現，能說明AI可以輔助醫生了嗎？

A：輔助醫生和獨立完成臨床任務是兩個不同的概念。PhysicianBench測的是后者——讓AI在沒有人工干預的情況下獨立完成一整個臨床流程。最強模型GPT-5.5的完整任務通過率只有46.3%，穩定通過率更只有28%，這說明它獨立工作的可靠性遠未達到臨床要求。用于輔助、提醒、草擬方案這類有人監督的場景，目前AI已經在實踐中被探索；但完全獨立操作，現階段數據給出的答案是還不行。

Q3：為什么AI最常犯的錯誤是"寫了但沒做"，而不是"做錯了"？

A：這反映了AI在工具使用邏輯上的一個典型缺陷。AI在生成文字回答時，會把"應該開CT"寫進報告，因為它在語言生成層面已經完成了這個推理。但把這個想法轉化為一個實際的系統操作（調用ServiceRequest創建工具并填寫正確參數），需要一個額外的"從文字到行動"的跨越。這個跨越對人來說是本能，但對語言模型來說是一個容易忘記的額外步驟。研究數據顯示，GPT-5.5有62%的行動失敗、Claude Opus 4.6有73%的行動失敗都屬于這種"說了沒做"的情況。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.