數據造假的 AI 模型,已經用到病人身上了
全球多個用于預測腦卒中和糖尿病的 AI 模型,訓練數據可能是假的。
這些 AI 工具已經被引用進 124 篇同行評審論文,至少兩個模型已在醫院里用于真實患者。
疾病預測 AI 靠什么數據訓練?沒人說得清
最近,Nature 披露多個用于訓練疾病預測 AI 模型的所使用的數據集存在造假嫌疑。
醫療 AI 模型通過分析患者的健康信息,預測未來罹患某些疾病的風險。如果數據真實可靠,模型的預測結果本可幫助醫生開展早期篩查與風險評估。
然而,AI 模型的質量高度依賴訓練數據的質量。澳大利亞昆士蘭科技大學研究團隊發現,預測腦卒中和糖尿病的 AI 模型所使用的數據涉嫌造假,與真實臨床情況嚴重不符。
![]()
圖源:Nature
首先,腦卒中預測的 AI 數據集中包含 5110 名患者的健康信息中 BMI 的缺失率僅為 0.3%,其余所有變量則完全沒有缺失值。
在真實的臨床研究中,受試者因錯過隨訪、中途退出乃至死亡等原因,數據缺失幾乎不可避免。
但這個數據的完美程度,在現實中幾乎不可能出現。
面對外界質疑,數據上傳者聲稱數據來自「機密來源」,僅供教育用途,但始終未披露任何具體出處。
另一個是糖尿病預測數據集,聲稱包含 10 萬人的醫療和人口統計數據。
![]()
圖源:kaggle
研究發現,10 萬人的血糖數據里只有 18 個離散取值——在真實人群中,血糖值是連續分布的,這在生物學上根本不可能出現。
此外,BMI 與血糖水平在理論上存在較強的正相關,但這份數據中兩者之間的關聯幾乎為零,與已知的醫學規律明顯相悖。
當數據上傳者被問及數據來源時,以「保密原因」拒絕披露,也沒有回應 Nature 的采訪請求。
涉嫌造假的數據,已被下載超 40 萬次
研究團隊發現,已經有 124 篇經過同行評議的論文,用了這兩個開放獲取的健康數據集來訓練 AI 模型。
其中,卒中數據集被下載了超過 28.8 萬次,有 104 篇論文用它來訓練其他的 AI 模型;糖尿病數據集也被下載了超過 11.4 萬次,21 篇論文拿它來建模。
也就是說,基于假數據得出的研究結論,已經堂而皇之地發表在學術期刊上。而后續研究者如果參考這些論文、繼續在上面疊加新模型,可靠性同樣無從保障。
![]()
圖源:medRxiv
這 126 篇文章中作者來自 32 個國家,其中印度第一,中國第三。
![]()
圖源:medRxiv
更嚴重的是,涉嫌使用假數據的卒中 AI 預測模型已在印度尼西亞某醫院部署,另一項研究暗示該 AI 模型正在美國某心臟診所使用。
甚至,有 AI 模型出現在 2024 年提交的醫療設備專利申請中,還有兩個是公開可訪問的網絡工具,任何人都可以上傳個人信息來檢測患病風險。
當被問及為何使用來源不明的數據時,部分論文作者回復說:「在進行研究和提交稿件時,我們沒有意識到數據集可能是合成或模擬的。」
目前已有至少三篇相關論文被撤稿,撤稿聲明中寫明「對研究中使用的數據的來源和有效性表示擔憂」。
平臺方面則拒絕就是否會對這兩個數據集采取行動作出回應。
來源不明的 AI,不應用在任何地方
這不是抽象的數據質量問題。
AI 模型的性能,完全取決于訓練數據的質量。
如果數據不代表真實人群——不管是因為偽造、還是因為只反映了特定人群,模型學到的模式就是錯的。
用假數據訓練出來的卒中風險預測工具,可能在某些真實患者身上系統性地低估風險,也可能在另一些患者身上系統性地高估。
醫生看到的是「AI 評分」,但這個數字背后是什么,沒有人能追溯。
研究者呼吁,使用來源不明數據集訓練的預測模型,不應在臨床決策中使用。
機構和資助方應強制要求披露訓練數據來源,期刊應拒絕不符合要求的論文,同時建議將這兩個數據集從 Kaggle 下架。
一個模型的可信度,取決于它是用什么數據建立起來的,這件事不應該是事后才去追問的問題。
加入讀者交流群:
![]()
聯 系 我 們 :wbfsh@staff.weibo.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.