網易首頁 > 網易號 > 正文申請入駐

胸片AI靠1.3B參數騙過專家，專精路線跑贏通用大模型

2026-06-21 03:49:11　來源: 全棧遛狗員

北京舉報

分享至

6月17日，一群放射科醫生被請進一間沒有窗戶的讀片室。任務聽起來簡單：看胸片，分辨這張片子是真人拍的，還是AI生成的。醫生們盯著一張張肺野、縱隔、肋骨，勾選“真”或“假”。幾輪下來，數據揭盲，現場空氣突然安靜——這群經驗加起來超過一百年的人，判斷正確率和拋硬幣差不多。更損的是，他們之間互相矛盾，同一張片子，有人咬定是真的，有人斬釘截鐵說是假的，連同一位醫生前后兩次的判斷都對不上。沒有人大呼小叫，因為結果本身就足夠吵了：一個13億參數的胸片生成模型，第一次讓臨床專家在真假鑒別上集體“翻車”。

這個讓放射科醫生集體懵圈的模型名叫RadiT XL，出自一群研究者的論文，被投到arXiv的時間就是6月17日。它不是什么突然崩出來的黑馬，而是一場蓄謀已久的專業化攻擊。當整個圖像生成圈都在拼誰家通用模型能畫更逼真的貓、更炫的風景時，Fabio De Sousa Ribeiro、Emma A. M. Stanley、Charles Jones等一票研究者卻掉頭扎進了一個又窄又硬的領域——胸部X光片。他們用1.3B參數訓練了一個叫RadiT XL的整流流Transformer，從頭到尾只喂胸片，喂了120萬張，硬是喂出了專家級的生成質量。用論文里的話說：“生成的圖像與真實胸片在臨床專家眼中無法區分。”

這句話背后藏著一套“不按常理出牌”的打法。通用圖像模型都在拼參數、拼數據多樣性，可醫療影像不一樣。胸片看似一片黑白灰，細節卻關乎人命。不同醫院、不同設備、不同擺位、不同人群拍出來的片子天生就有分布偏移，導致大量診斷AI“換個醫院就不靈”。通用生成模型哪怕畫得再像照片，一到胸片這種高精度場景就露怯：肋骨紋理稍亂、肺野密度不對、縱隔輪廓生硬，醫生一眼就能拎出來。RadiT XL反其道而行，它不追求會畫萬物，它只畫胸片。這種極致的領域專注，反而讓它捕捉到了通用模型永遠學不到的專業細節。

我們先看看這張成績單的硬數字。RadiT XL是個13億參數的整流流Transformer，訓練所用的數據集叫CXR7-1M，由7個公開胸片數據集融合而成，總數達到120萬張。研究人員不光拼數據量，還邀請了放射科醫生為這些片子做了結構化標注，相當于給每一張胸片貼上年齡、性別、采集視圖、病理標簽等一系列精細的元數據。訓練過程中，模型處理了高達1.6萬億個標記（tokens），這股算力直接喂進了一個專門設計的整流流架構里。整套技術棧還包含了一個叫Rad-VAE的變分自編碼器，訓練時用了一種名為Rad-DINO的感知損失函數，目的就是讓生成的胸片在紋理、對比度、結構逼真度上死摳細節。

可控生成是RadiT XL的另一把手術刀。傳統生成模型你只能讓它“造張肺片”，至于造出什么樣，基本靠抽盲盒。但這個模型能接受精準的“菜譜”：可以指定年齡區間、性別、拍攝視圖（如正位或側位），甚至對12種病理進行條件控制——比如生成一張患有肺炎的60歲男性后前位胸片。這就不是簡單的圖片合成，而是對病理影像特征的定向復現。對醫療AI來說，這種定向合成簡直就是緩解數據饑渴的天降之鹽。過去訓練一個能跨人群、跨機構穩定判讀的胸部AI，最卡脖子的就是缺少多樣化的真實數據，尤其是一些罕見病或特定亞群的數據。RadiT XL能按需造出高質量、多亞組的合成胸片，等于給下游診斷模型開了一條數據增廣的高速路。

回到那場讓醫生頭疼的真假鑒別實驗。論文沒有公開具體準確率數字，也沒有給FID分數，但披露了一個更有意思的指標：Cohen’s κ系數。這個系數衡量的是判斷者之間的一致性，以及同一位判斷者前后兩次判斷的一致性。數值極低，意味著專家內部打架，前后錯亂——這正是高逼真度合成圖像最想看到的療效。如果專家們判斷一致且正確，說明生成圖像有破綻；如果專家們判斷一致但錯誤，說明生成圖像有明顯的誤導特征；恰恰是這種接近隨機水平的混亂，證明生成圖像已經混入真實圖像的水準，讓人類最專業的鑒別系統都失效了。論文把這種狀態稱為“near-chance accuracy”，接近隨機水平的準確率。

從技術理念看，這件事給當下大熱的通用人工智能澆了一盆冷靜的冰水。過去兩年，Meta、OpenAI等公司的通用圖像生成模型進步神速，大家越來越習慣把“大一統”當成終極解法。可胸部X光片用1.3B參數的成績單提醒整個行業：在垂直領域，專心只做一件事的模型，可能比通才更能打。因為通用模型要照顧的分布太寬，沒有辦法像RadiT XL那樣，把所有容量都用來學習肺尖的細微陰影、肋膈角的角度變化、心臟輪廓的模糊邊界。這種“專精化縮放”，靠的不是參數量的蠻力，而是把參數集中用在高價值場景里的巧勁。論文明確指出，現有的胸部影像AI常常在不同患者亞群、不同機構、不同采集環境下表現出泛化問題，而可控生成的高保真合成數據，有可能正是打破這種瓶頸的鎬頭。

更有趣的是數據的“兼容并蓄”。CXR7-1M這個數據集不是一個簡單的藏品陳列，而是從七個來源各異的胸片庫中清洗、對齊、去重后捏合而成的。每個來源的拍攝設備、曝光參數、患者人口構成都不同，研究者專門花功夫做了標準化，又加上了放射科醫生指導的精細元數據。這樣一來，模型學到的就不是某個醫院的特定風格，而是一套跨越設備和人群的胸片本質特征。這種異構性訓練，反而讓生成的結果在多樣性上更逼近真實世界的分布，為解決醫療AI“一院一模型”的碎片化困局提供了思路。可以想象，未來如果需要訓練一個在基層醫院也能穩定運行的肺炎篩查AI，完全可以用RadiT XL按當地人口特征生成一套對癥的訓練數據，而不必苦等經年累月的真實病例積累。

誠然，論文并沒有給出全部成績單。具體的真偽鑒別準確率數字沒有公布，常用的圖像生成質量指標如FID也付之闕如。這給人一種既驚艷又微妙的觀感：驚艷的是臨床專家集體被“騙”的實驗設計，直擊要害；微妙的是，若沒有定量基準，外界很難縱向比較它與其他生成模型在像素級上的差距。不過，在醫學影像生成這個圈子，以人類專家作為終極裁判的信度，本身就比機械的FID更有說服力。畢竟，FID再低，如果醫生一眼能看穿，就毫無臨床價值；反之，即便FID不是最優，只要能騙過醫生眼睛，那它在應用層的卡位就站住了腳。

回看這項工作的名單，作者團隊橫跨多所機構，帶有鮮明的產學研協作味兒。這種跨機構陣容也側面說明，訓練一個十億參數級別的專科生成模型，需要融合數據集資源、臨床標注能力和大模型工程能力，任何單打獨斗都很難成事。1.6萬億個標記的訓練量不是小數目，沒有相當規模的算力支持，整流流Transformer的收斂曲線根本拉不平。這也劃下了一道隱形的門檻：想復現這條專精化縮放路線，數據得集得齊、標注得動、算力撐得住，少一環都轉不起來。

這件事對普通科技從業者的觸動是什么？可能是一個逐漸清晰的新邏輯：大模型的下半場，不一定是比誰更通用，而是比誰更懂某個“犄角旮旯”的專業場景。把1.3B參數砸在一件只有胸片能做的事上，在通用主義者看來可能“浪費”，但從商業和臨床價值來看，它解決了真問題。醫療影像是合規壁壘最高、專業縱深最深的領域之一，一旦生成質量過關，它在數據增廣、隱私保護、算法公平性等方面釋放的能量，遠比畫幾張漂亮的風景照來得厚重。RadiT XL走出的這一步，實質上是給所有垂直領域的大模型應用打了個樣：別老想著做全能選手，先在一個細到不能再細的領域做到人類專家的水平，剩下的壁壘自然會包圍你。

現在再回看那間讀片室里醫生們的錯愕時刻，表面是AI戲弄了人類專家的眼睛，深層卻是技術范式的一次安靜切換。生成模型不再只是做“看起來像”的玩具，它開始滲透進人命關天的專業場景，并且偽裝得讓最老道的眼睛都猶豫再三。這種令人發笑的失敗，才是技術進步最不留情面的掌聲。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.