6月17日,一群放射科醫生被請進一間沒有窗戶的讀片室。任務聽起來簡單:看胸片,分辨這張片子是真人拍的,還是AI生成的。醫生們盯著一張張肺野、縱隔、肋骨,勾選“真”或“假”。幾輪下來,數據揭盲,現場空氣突然安靜——這群經驗加起來超過一百年的人,判斷正確率和拋硬幣差不多。更損的是,他們之間互相矛盾,同一張片子,有人咬定是真的,有人斬釘截鐵說是假的,連同一位醫生前后兩次的判斷都對不上。沒有人大呼小叫,因為結果本身就足夠吵了:一個13億參數的胸片生成模型,第一次讓臨床專家在真假鑒別上集體“翻車”。
這個讓放射科醫生集體懵圈的模型名叫RadiT XL,出自一群研究者的論文,被投到arXiv的時間就是6月17日。它不是什么突然崩出來的黑馬,而是一場蓄謀已久的專業化攻擊。當整個圖像生成圈都在拼誰家通用模型能畫更逼真的貓、更炫的風景時,Fabio De Sousa Ribeiro、Emma A. M. Stanley、Charles Jones等一票研究者卻掉頭扎進了一個又窄又硬的領域——胸部X光片。他們用1.3B參數訓練了一個叫RadiT XL的整流流Transformer,從頭到尾只喂胸片,喂了120萬張,硬是喂出了專家級的生成質量。用論文里的話說:“生成的圖像與真實胸片在臨床專家眼中無法區分。”
![]()
這句話背后藏著一套“不按常理出牌”的打法。通用圖像模型都在拼參數、拼數據多樣性,可醫療影像不一樣。胸片看似一片黑白灰,細節卻關乎人命。不同醫院、不同設備、不同擺位、不同人群拍出來的片子天生就有分布偏移,導致大量診斷AI“換個醫院就不靈”。通用生成模型哪怕畫得再像照片,一到胸片這種高精度場景就露怯:肋骨紋理稍亂、肺野密度不對、縱隔輪廓生硬,醫生一眼就能拎出來。RadiT XL反其道而行,它不追求會畫萬物,它只畫胸片。這種極致的領域專注,反而讓它捕捉到了通用模型永遠學不到的專業細節。
我們先看看這張成績單的硬數字。RadiT XL是個13億參數的整流流Transformer,訓練所用的數據集叫CXR7-1M,由7個公開胸片數據集融合而成,總數達到120萬張。研究人員不光拼數據量,還邀請了放射科醫生為這些片子做了結構化標注,相當于給每一張胸片貼上年齡、性別、采集視圖、病理標簽等一系列精細的元數據。訓練過程中,模型處理了高達1.6萬億個標記(tokens),這股算力直接喂進了一個專門設計的整流流架構里。整套技術棧還包含了一個叫Rad-VAE的變分自編碼器,訓練時用了一種名為Rad-DINO的感知損失函數,目的就是讓生成的胸片在紋理、對比度、結構逼真度上死摳細節。
可控生成是RadiT XL的另一把手術刀。傳統生成模型你只能讓它“造張肺片”,至于造出什么樣,基本靠抽盲盒。但這個模型能接受精準的“菜譜”:可以指定年齡區間、性別、拍攝視圖(如正位或側位),甚至對12種病理進行條件控制——比如生成一張患有肺炎的60歲男性后前位胸片。這就不是簡單的圖片合成,而是對病理影像特征的定向復現。對醫療AI來說,這種定向合成簡直就是緩解數據饑渴的天降之鹽。過去訓練一個能跨人群、跨機構穩定判讀的胸部AI,最卡脖子的就是缺少多樣化的真實數據,尤其是一些罕見病或特定亞群的數據。RadiT XL能按需造出高質量、多亞組的合成胸片,等于給下游診斷模型開了一條數據增廣的高速路。
回到那場讓醫生頭疼的真假鑒別實驗。論文沒有公開具體準確率數字,也沒有給FID分數,但披露了一個更有意思的指標:Cohen’s κ系數。這個系數衡量的是判斷者之間的一致性,以及同一位判斷者前后兩次判斷的一致性。數值極低,意味著專家內部打架,前后錯亂——這正是高逼真度合成圖像最想看到的療效。如果專家們判斷一致且正確,說明生成圖像有破綻;如果專家們判斷一致但錯誤,說明生成圖像有明顯的誤導特征;恰恰是這種接近隨機水平的混亂,證明生成圖像已經混入真實圖像的水準,讓人類最專業的鑒別系統都失效了。論文把這種狀態稱為“near-chance accuracy”,接近隨機水平的準確率。
從技術理念看,這件事給當下大熱的通用人工智能澆了一盆冷靜的冰水。過去兩年,Meta、OpenAI等公司的通用圖像生成模型進步神速,大家越來越習慣把“大一統”當成終極解法。可胸部X光片用1.3B參數的成績單提醒整個行業:在垂直領域,專心只做一件事的模型,可能比通才更能打。因為通用模型要照顧的分布太寬,沒有辦法像RadiT XL那樣,把所有容量都用來學習肺尖的細微陰影、肋膈角的角度變化、心臟輪廓的模糊邊界。這種“專精化縮放”,靠的不是參數量的蠻力,而是把參數集中用在高價值場景里的巧勁。論文明確指出,現有的胸部影像AI常常在不同患者亞群、不同機構、不同采集環境下表現出泛化問題,而可控生成的高保真合成數據,有可能正是打破這種瓶頸的鎬頭。
更有趣的是數據的“兼容并蓄”。CXR7-1M這個數據集不是一個簡單的藏品陳列,而是從七個來源各異的胸片庫中清洗、對齊、去重后捏合而成的。每個來源的拍攝設備、曝光參數、患者人口構成都不同,研究者專門花功夫做了標準化,又加上了放射科醫生指導的精細元數據。這樣一來,模型學到的就不是某個醫院的特定風格,而是一套跨越設備和人群的胸片本質特征。這種異構性訓練,反而讓生成的結果在多樣性上更逼近真實世界的分布,為解決醫療AI“一院一模型”的碎片化困局提供了思路。可以想象,未來如果需要訓練一個在基層醫院也能穩定運行的肺炎篩查AI,完全可以用RadiT XL按當地人口特征生成一套對癥的訓練數據,而不必苦等經年累月的真實病例積累。
誠然,論文并沒有給出全部成績單。具體的真偽鑒別準確率數字沒有公布,常用的圖像生成質量指標如FID也付之闕如。這給人一種既驚艷又微妙的觀感:驚艷的是臨床專家集體被“騙”的實驗設計,直擊要害;微妙的是,若沒有定量基準,外界很難縱向比較它與其他生成模型在像素級上的差距。不過,在醫學影像生成這個圈子,以人類專家作為終極裁判的信度,本身就比機械的FID更有說服力。畢竟,FID再低,如果醫生一眼能看穿,就毫無臨床價值;反之,即便FID不是最優,只要能騙過醫生眼睛,那它在應用層的卡位就站住了腳。
回看這項工作的名單,作者團隊橫跨多所機構,帶有鮮明的產學研協作味兒。這種跨機構陣容也側面說明,訓練一個十億參數級別的專科生成模型,需要融合數據集資源、臨床標注能力和大模型工程能力,任何單打獨斗都很難成事。1.6萬億個標記的訓練量不是小數目,沒有相當規模的算力支持,整流流Transformer的收斂曲線根本拉不平。這也劃下了一道隱形的門檻:想復現這條專精化縮放路線,數據得集得齊、標注得動、算力撐得住,少一環都轉不起來。
這件事對普通科技從業者的觸動是什么?可能是一個逐漸清晰的新邏輯:大模型的下半場,不一定是比誰更通用,而是比誰更懂某個“犄角旮旯”的專業場景。把1.3B參數砸在一件只有胸片能做的事上,在通用主義者看來可能“浪費”,但從商業和臨床價值來看,它解決了真問題。醫療影像是合規壁壘最高、專業縱深最深的領域之一,一旦生成質量過關,它在數據增廣、隱私保護、算法公平性等方面釋放的能量,遠比畫幾張漂亮的風景照來得厚重。RadiT XL走出的這一步,實質上是給所有垂直領域的大模型應用打了個樣:別老想著做全能選手,先在一個細到不能再細的領域做到人類專家的水平,剩下的壁壘自然會包圍你。
現在再回看那間讀片室里醫生們的錯愕時刻,表面是AI戲弄了人類專家的眼睛,深層卻是技術范式的一次安靜切換。生成模型不再只是做“看起來像”的玩具,它開始滲透進人命關天的專業場景,并且偽裝得讓最老道的眼睛都猶豫再三。這種令人發笑的失敗,才是技術進步最不留情面的掌聲。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.