![]()
作者丨論文團隊
編輯丨ScienceAI
現(xiàn)有的通用醫(yī)學(xué)分割模型往往只是「偽全能」,因為它們在沒有人工提示框輔助時幾乎寸步難行。
來自中佛羅里達大學(xué)(UCF), 賓夕法尼亞大學(xué)(UPenn), 倫敦大學(xué)學(xué)院(UCL)等機構(gòu)的研究團隊近日發(fā)布了Medical SAM3,通過全參數(shù)微調(diào)與創(chuàng)新的分層訓(xùn)練策略,在 33 個醫(yī)學(xué)數(shù)據(jù)集上實現(xiàn)了革命性突破:它不再需要醫(yī)生手動畫框,僅憑一句分割「腫瘤」的文本指令,即可在 CT、MRI、內(nèi)鏡等 10 種模態(tài)中實現(xiàn)專家級分割,將零樣本場景下的平均準(zhǔn)確率從 11.9% 暴漲至 73.9%。
![]()
論文鏈接:https://arxiv.org/abs/2601.10880
代碼倉庫:https://github.com/AIM-Research-Lab/Medical-SAM3
![]()
核心痛點:以前的「通用模型」真的通用嗎?
在 Medical SAM3 之前,許多「醫(yī)學(xué)通用分割模型」在實際使用上存在一個關(guān)鍵前提:它們往往高度依賴空間提示(Spatial Prompts)—— 需要人工先提供 Bounding Box(邊界框)或點擊關(guān)鍵點,模型再在提示區(qū)域內(nèi)完成分割。表面上看這只是交互方式的選擇,但它也反映出能力邊界:當(dāng)模型必須先由人把目標(biāo)「圈出來」,其主要貢獻更接近于區(qū)域內(nèi)的像素細(xì)化與邊界優(yōu)化,而非從整幅圖像中完成穩(wěn)定的語義定位與目標(biāo)發(fā)現(xiàn)。
這種設(shè)定在演示場景中可以獲得不錯的效果,但在真實工作流里會帶來明顯的推廣門檻:
- 醫(yī)生并不總能提前精確圈定病灶,尤其是邊界模糊、形態(tài)復(fù)雜或早期難判的病例;
- 在篩查、急診分診或跨模態(tài)閱片等高通量場景下,逐張圖像畫框 / 點選會顯著增加交互成本,難以規(guī)模化;
- 更重要的是,模型性能會對提示質(zhì)量產(chǎn)生強依賴,系統(tǒng)的核心難題 ——「自動語義定位」—— 并未被真正解決。
論文中的診斷性實驗進一步量化了這一現(xiàn)象:當(dāng)移除人工空間提示、僅通過文本詢問(更接近「通用」的使用方式)時,原生 SAM3 在醫(yī)學(xué)圖像上的表現(xiàn)出現(xiàn)斷崖式下降,平均 Dice 降至 11.9%,并在內(nèi)鏡息肉分割等任務(wù)中出現(xiàn) 0.0% 的失效案例。這說明模型在很大程度上把空間提示當(dāng)作了近似「目標(biāo)索引」;一旦失去該索引,它在復(fù)雜背景、低對比度、強噪聲或形態(tài)多變的醫(yī)學(xué)影像中就難以穩(wěn)定定位目標(biāo)。
因此,Medical SAM3 的核心貢獻并非把分?jǐn)?shù)再提高一點,而是試圖跨過這條關(guān)鍵門檻:將醫(yī)學(xué)分割從「提示驅(qū)動的區(qū)域細(xì)化」,推進到「僅憑文本即可觸發(fā)的語義驅(qū)動分割」,讓模型不再依賴人工先驗的空間圈定。
![]()
真正的「語義驅(qū)動」:不僅是微調(diào),更是重塑
為了解決醫(yī)學(xué)影像「語義難對齊、結(jié)構(gòu)極復(fù)雜、模態(tài)差異巨大」這一核心難題,Medical SAM3 沒有走業(yè)界常見的輕量級適配器(Adapter/LoRA)捷徑,而是選擇了一條更艱難但也更徹底的路線 —— 全參數(shù)微調(diào)(Full Fine-Tuning)。團隊的判斷很明確:醫(yī)學(xué)影像與自然圖像之間不僅是外觀風(fēng)格的變化,更是成像物理、噪聲統(tǒng)計、目標(biāo)形態(tài)與語義體系的整體遷移;僅微調(diào)少量參數(shù)往往只能「學(xué)到一點風(fēng)格」,卻難以讓模型真正理解醫(yī)學(xué)場景中那些決定分割成敗的細(xì)粒度概念(例如模糊邊界、低對比病灶、細(xì)長結(jié)構(gòu)的連通性、器官之間的解剖約束)。因此,Medical SAM3 通過全參數(shù)更新,讓模型從底層特征到高層語義都能發(fā)生充分適配,從而實現(xiàn)更可靠的「語義驅(qū)動分割」。
但全參數(shù)微調(diào)帶來的挑戰(zhàn)同樣顯著:一旦訓(xùn)練策略不當(dāng),模型可能會遺忘原有的通用視覺能力,或在訓(xùn)練早期出現(xiàn)不穩(wěn)定震蕩。為此,Medical SAM3 引入了分層學(xué)習(xí)率衰減(Layer-wise Learning Rate Decay, LLRD)策略,以一種「既保守又激進」的方式精細(xì)控制遷移過程:淺層網(wǎng)絡(luò)使用更小的學(xué)習(xí)率,盡可能保留通用的邊緣、紋理與局部對比特征(這些對所有影像都有效);而深層網(wǎng)絡(luò)則使用更大的學(xué)習(xí)率,獲得更強的可塑性,專門去學(xué)習(xí)醫(yī)學(xué)影像中特有的語義與結(jié)構(gòu)規(guī)律,例如「毛玻璃影」的彌散分布、內(nèi)鏡息肉與背景黏膜的微妙邊界、視網(wǎng)膜血管的樹狀拓?fù)渑c連續(xù)走向。最終,這種「淺層穩(wěn)住通用視覺、深層重塑醫(yī)學(xué)語義」的遷移范式,推動模型完成了根本性躍遷:從過去高度依賴點 / 框等幾何提示的交互式分割,轉(zhuǎn)變?yōu)閮H憑文本語義即可穩(wěn)定分割的通用能力。
Medical SAM3 的強大并非只來自訓(xùn)練策略,更來自其構(gòu)建的大規(guī)模、多模態(tài)訓(xùn)練底座。研究團隊整合了覆蓋 10 種成像模態(tài)的 33 個數(shù)據(jù)集,并通過統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)化與接口設(shè)計,使模型能夠在 76,956 張高分辨率醫(yī)學(xué)圖像與 263,705 個精細(xì)掩膜上進行系統(tǒng)學(xué)習(xí)。尤其關(guān)鍵的是,Medical SAM3 采用了統(tǒng)一的 2D 高分辨率視角(Unified 2D Formulation):無論輸入來自 3D CT/MRI 的切片,還是 2D 的眼底、內(nèi)鏡或顯微圖像,均被統(tǒng)一處理為 1008×1008 的高分辨率表示。這一設(shè)計帶來兩點直接收益:其一,它在工程上打通不同設(shè)備與模態(tài)的輸入壁壘,降低跨域部署的不確定性;其二,它讓模型獲得更強的尺度一致性與細(xì)節(jié)表達能力 —— 從胸片中占據(jù)大面積的肺部輪廓,到電子顯微鏡下僅數(shù)十像素的細(xì)胞核邊界,模型都能在同一框架下捕捉關(guān)鍵結(jié)構(gòu),形成真正「跨模態(tài)、跨尺度、跨任務(wù)」的統(tǒng)一分割能力。
![]()
從內(nèi)部精通到外部泛化
為了系統(tǒng)驗證模型的可靠性與可遷移性,團隊構(gòu)建了覆蓋內(nèi)部驗證(in-domain)與外部測試(out-of-domain)的全面評估體系:前者檢驗?zāi)P驮谝迅采w醫(yī)學(xué)分布上的穩(wěn)定性與細(xì)節(jié)還原能力,后者則以「從未見過的數(shù)據(jù)集與模態(tài)」為壓力測試,衡量其真實世界部署最關(guān)鍵的零樣本泛化表現(xiàn)。
在內(nèi)部驗證環(huán)節(jié),Medical SAM3 展現(xiàn)出對醫(yī)學(xué)結(jié)構(gòu)與邊界細(xì)節(jié)的扎實掌握,平均 Dice 從 54.0% 提升至 77.0%。這一提升不僅意味著「更像」,更代表模型在像素級邊界對齊、細(xì)小目標(biāo)召回、低對比度組織分離等方面達到了更可靠的水平。尤其在視網(wǎng)膜血管分割這類典型「高難任務(wù)」中,原生模型常見問題是對細(xì)長結(jié)構(gòu)缺乏連續(xù)性建模,容易出現(xiàn)斷裂、漏檢與噪點粘連;Medical SAM3 則顯著改善了這一失敗模式,將 Dice 從 24.8% 提升至 55.8%。更重要的是,提升并非只體現(xiàn)在分?jǐn)?shù)上:模型不僅能「找到血管」,還能夠更好地復(fù)原血管的連續(xù)走向、分叉拓?fù)渑c樹狀結(jié)構(gòu),這類結(jié)構(gòu)完整性對后續(xù)臨床分析(如血管密度、分支形態(tài)、病變區(qū)域關(guān)系)尤為關(guān)鍵。
在更為嚴(yán)苛的外部驗證環(huán)節(jié)(測試從未見過的數(shù)據(jù)集),模型進一步體現(xiàn)出強大的零樣本泛化能力。面對 7 個全新的外部數(shù)據(jù)集,Medical SAM3 將平均 Dice 從 11.9% 提升至 73.9%,IoU 從 8.0% 提升至 64.4%。這組結(jié)果的意義在于:外部測試通常伴隨顯著的分布偏移 —— 例如不同醫(yī)院設(shè)備、采集協(xié)議、分辨率、噪聲形態(tài)、病灶外觀與標(biāo)注風(fēng)格差異 —— 許多模型在此類場景下會出現(xiàn)「性能斷崖」。而 Medical SAM3 的提升幅度顯示,它并非依賴某一類固定模態(tài)或固定提示形式,而是學(xué)習(xí)到了更通用的醫(yī)學(xué)語義與結(jié)構(gòu)先驗。
更具說服力的是,在部分極端案例中表現(xiàn)出現(xiàn)了從「無法工作」到「可用級別」的質(zhì)變:
- 內(nèi)鏡息肉分割(CVC-Clinic):原生模型由于難以從復(fù)雜背景中理解「息肉」這一語義目標(biāo),Dice 僅 0.0%;Medical SAM3 則達到 87.9%,說明模型能夠在反光、粘液、紋理干擾等情況下仍保持對目標(biāo)語義的穩(wěn)定聚焦。
- 超聲胎頭測量(HC18):超聲天然存在斑點噪聲、邊界模糊與組織對比度弱的問題,原生模型 Dice 為 23.9%;Medical SAM3 提升至 92.6%,體現(xiàn)其對低信噪比模態(tài)下輪廓結(jié)構(gòu)的魯棒提取能力。
- ETIS-Larib:同樣從 0.0% 躍升至 86.1%,進一步表明模型在外部域中不只是「略有改善」,而是顯著降低了原生模型的完全失效概率。
綜合內(nèi)部與外部結(jié)果可以得出一個關(guān)鍵結(jié)論:Medical SAM3 能夠在不依賴人工提示框輔助的情況下,僅通過文本提示驅(qū)動分割,在多模態(tài)、多數(shù)據(jù)分布下保持穩(wěn)定表現(xiàn)。這意味著模型不僅「能分割」,更具備面向真實臨床場景的核心能力:當(dāng)標(biāo)注成本高、交互提示受限或需要快速批量處理時,它仍能依靠醫(yī)學(xué)語義理解與結(jié)構(gòu)先驗,提供一致、可復(fù)用、可遷移的分割輸出。
![]()
未來展望:規(guī)模化與智能化
盡管目前的性能已經(jīng)取得了顯著進展,Medical SAM3 團隊并未止步。為了進一步提升模型的實用性與智能水平,后續(xù)工作將主要集中在以下兩個方向:
1. 數(shù)據(jù)規(guī)模與覆蓋擴展: 團隊計劃持續(xù)擴充訓(xùn)練語料庫,引入更豐富的分割數(shù)據(jù),以增強跨域魯棒性。同時重點補齊臨床中的「長尾空白」,例如罕見病灶、小樣本亞型、低資源模態(tài)以及更復(fù)雜的標(biāo)注形態(tài)(多器官、多病灶、細(xì)長結(jié)構(gòu)等)。通過更大規(guī)模、更多樣化的數(shù)據(jù)「喂養(yǎng)」,進一步降低模型在真實世界場景中遇到分布偏移時的失效概率,讓「給一個術(shù)語就能穩(wěn)定分割」更接近可部署的可靠標(biāo)準(zhǔn)。
2. 邁向 Medical SAM3 Agent: 團隊的目標(biāo)不止于做一個分割模型,而是構(gòu)建面向臨床工作流的 Medical SAM3 Agent。通過集成大語言模型(LLMs),系統(tǒng)將具備更強的任務(wù)理解、步驟化推理與交互協(xié)作能力:例如把醫(yī)生的自然語言需求拆解為可執(zhí)行的分割子任務(wù)(目標(biāo)、范圍、優(yōu)先級),在結(jié)果不確定時主動發(fā)起澄清提問,并把分割結(jié)果進一步組織為可讀的結(jié)構(gòu)化輸出(位置、大小、數(shù)量、隨訪對比等),從而成為醫(yī)生在閱片、測量與報告生成中的真正智能伙伴。
總結(jié)
Medical SAM3 的出現(xiàn)標(biāo)志著醫(yī)學(xué) AI 助手從「交互式工具」向「語義智能體」的進化。它不再要求醫(yī)生充當(dāng)「畫框工」,而是模擬了臨床專家的認(rèn)知過程 —— 先理解診斷術(shù)語,再主動在圖像中搜索病灶。通過建立臨床概念與像素級特征之間的直接映射,Medical SAM3 為未來「即插即用」的自動化醫(yī)療輔助系統(tǒng)奠定了堅實的基礎(chǔ)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.