Medical SAM3：首個真正「純文本提示」驅(qū)動的醫(yī)學(xué)全能分割模型

2026-01-21 15:14:46　來源: ScienceAI

廣西舉報

分享至

作者丨論文團隊

編輯丨ScienceAI

現(xiàn)有的通用醫(yī)學(xué)分割模型往往只是「偽全能」，因為它們在沒有人工提示框輔助時幾乎寸步難行。

來自中佛羅里達大學(xué)（UCF), 賓夕法尼亞大學(xué)(UPenn), 倫敦大學(xué)學(xué)院（UCL）等機構(gòu)的研究團隊近日發(fā)布了Medical SAM3，通過全參數(shù)微調(diào)與創(chuàng)新的分層訓(xùn)練策略，在 33 個醫(yī)學(xué)數(shù)據(jù)集上實現(xiàn)了革命性突破：它不再需要醫(yī)生手動畫框，僅憑一句分割「腫瘤」的文本指令，即可在 CT、MRI、內(nèi)鏡等 10 種模態(tài)中實現(xiàn)專家級分割，將零樣本場景下的平均準(zhǔn)確率從 11.9% 暴漲至 73.9%。

論文鏈接:https://arxiv.org/abs/2601.10880

代碼倉庫:https://github.com/AIM-Research-Lab/Medical-SAM3

核心痛點：以前的「通用模型」真的通用嗎？

在 Medical SAM3 之前，許多「醫(yī)學(xué)通用分割模型」在實際使用上存在一個關(guān)鍵前提：它們往往高度依賴空間提示（Spatial Prompts）—— 需要人工先提供 Bounding Box（邊界框）或點擊關(guān)鍵點，模型再在提示區(qū)域內(nèi)完成分割。表面上看這只是交互方式的選擇，但它也反映出能力邊界：當(dāng)模型必須先由人把目標(biāo)「圈出來」，其主要貢獻更接近于區(qū)域內(nèi)的像素細(xì)化與邊界優(yōu)化，而非從整幅圖像中完成穩(wěn)定的語義定位與目標(biāo)發(fā)現(xiàn)。

這種設(shè)定在演示場景中可以獲得不錯的效果，但在真實工作流里會帶來明顯的推廣門檻：

醫(yī)生并不總能提前精確圈定病灶，尤其是邊界模糊、形態(tài)復(fù)雜或早期難判的病例；
在篩查、急診分診或跨模態(tài)閱片等高通量場景下，逐張圖像畫框 / 點選會顯著增加交互成本，難以規(guī)模化；
更重要的是，模型性能會對提示質(zhì)量產(chǎn)生強依賴，系統(tǒng)的核心難題 ——「自動語義定位」—— 并未被真正解決。

論文中的診斷性實驗進一步量化了這一現(xiàn)象：當(dāng)移除人工空間提示、僅通過文本詢問（更接近「通用」的使用方式）時，原生 SAM3 在醫(yī)學(xué)圖像上的表現(xiàn)出現(xiàn)斷崖式下降，平均 Dice 降至 11.9%，并在內(nèi)鏡息肉分割等任務(wù)中出現(xiàn) 0.0% 的失效案例。這說明模型在很大程度上把空間提示當(dāng)作了近似「目標(biāo)索引」；一旦失去該索引，它在復(fù)雜背景、低對比度、強噪聲或形態(tài)多變的醫(yī)學(xué)影像中就難以穩(wěn)定定位目標(biāo)。

因此，Medical SAM3 的核心貢獻并非把分?jǐn)?shù)再提高一點，而是試圖跨過這條關(guān)鍵門檻：將醫(yī)學(xué)分割從「提示驅(qū)動的區(qū)域細(xì)化」，推進到「僅憑文本即可觸發(fā)的語義驅(qū)動分割」，讓模型不再依賴人工先驗的空間圈定。

真正的「語義驅(qū)動」：不僅是微調(diào)，更是重塑

為了解決醫(yī)學(xué)影像「語義難對齊、結(jié)構(gòu)極復(fù)雜、模態(tài)差異巨大」這一核心難題，Medical SAM3 沒有走業(yè)界常見的輕量級適配器（Adapter/LoRA）捷徑，而是選擇了一條更艱難但也更徹底的路線 —— 全參數(shù)微調(diào)（Full Fine-Tuning）。團隊的判斷很明確：醫(yī)學(xué)影像與自然圖像之間不僅是外觀風(fēng)格的變化，更是成像物理、噪聲統(tǒng)計、目標(biāo)形態(tài)與語義體系的整體遷移；僅微調(diào)少量參數(shù)往往只能「學(xué)到一點風(fēng)格」，卻難以讓模型真正理解醫(yī)學(xué)場景中那些決定分割成敗的細(xì)粒度概念（例如模糊邊界、低對比病灶、細(xì)長結(jié)構(gòu)的連通性、器官之間的解剖約束）。因此，Medical SAM3 通過全參數(shù)更新，讓模型從底層特征到高層語義都能發(fā)生充分適配，從而實現(xiàn)更可靠的「語義驅(qū)動分割」。

但全參數(shù)微調(diào)帶來的挑戰(zhàn)同樣顯著：一旦訓(xùn)練策略不當(dāng)，模型可能會遺忘原有的通用視覺能力，或在訓(xùn)練早期出現(xiàn)不穩(wěn)定震蕩。為此，Medical SAM3 引入了分層學(xué)習(xí)率衰減（Layer-wise Learning Rate Decay, LLRD）策略，以一種「既保守又激進」的方式精細(xì)控制遷移過程：淺層網(wǎng)絡(luò)使用更小的學(xué)習(xí)率，盡可能保留通用的邊緣、紋理與局部對比特征（這些對所有影像都有效）；而深層網(wǎng)絡(luò)則使用更大的學(xué)習(xí)率，獲得更強的可塑性，專門去學(xué)習(xí)醫(yī)學(xué)影像中特有的語義與結(jié)構(gòu)規(guī)律，例如「毛玻璃影」的彌散分布、內(nèi)鏡息肉與背景黏膜的微妙邊界、視網(wǎng)膜血管的樹狀拓?fù)渑c連續(xù)走向。最終，這種「淺層穩(wěn)住通用視覺、深層重塑醫(yī)學(xué)語義」的遷移范式，推動模型完成了根本性躍遷：從過去高度依賴點 / 框等幾何提示的交互式分割，轉(zhuǎn)變?yōu)閮H憑文本語義即可穩(wěn)定分割的通用能力。

Medical SAM3 的強大并非只來自訓(xùn)練策略，更來自其構(gòu)建的大規(guī)模、多模態(tài)訓(xùn)練底座。研究團隊整合了覆蓋 10 種成像模態(tài)的 33 個數(shù)據(jù)集，并通過統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)化與接口設(shè)計，使模型能夠在 76,956 張高分辨率醫(yī)學(xué)圖像與 263,705 個精細(xì)掩膜上進行系統(tǒng)學(xué)習(xí)。尤其關(guān)鍵的是，Medical SAM3 采用了統(tǒng)一的 2D 高分辨率視角（Unified 2D Formulation）：無論輸入來自 3D CT/MRI 的切片，還是 2D 的眼底、內(nèi)鏡或顯微圖像，均被統(tǒng)一處理為 1008×1008 的高分辨率表示。這一設(shè)計帶來兩點直接收益：其一，它在工程上打通不同設(shè)備與模態(tài)的輸入壁壘，降低跨域部署的不確定性；其二，它讓模型獲得更強的尺度一致性與細(xì)節(jié)表達能力 —— 從胸片中占據(jù)大面積的肺部輪廓，到電子顯微鏡下僅數(shù)十像素的細(xì)胞核邊界，模型都能在同一框架下捕捉關(guān)鍵結(jié)構(gòu)，形成真正「跨模態(tài)、跨尺度、跨任務(wù)」的統(tǒng)一分割能力。

從內(nèi)部精通到外部泛化

為了系統(tǒng)驗證模型的可靠性與可遷移性，團隊構(gòu)建了覆蓋內(nèi)部驗證（in-domain）與外部測試（out-of-domain）的全面評估體系：前者檢驗?zāi)Ｐ驮谝迅采w醫(yī)學(xué)分布上的穩(wěn)定性與細(xì)節(jié)還原能力，后者則以「從未見過的數(shù)據(jù)集與模態(tài)」為壓力測試，衡量其真實世界部署最關(guān)鍵的零樣本泛化表現(xiàn)。

在內(nèi)部驗證環(huán)節(jié)，Medical SAM3 展現(xiàn)出對醫(yī)學(xué)結(jié)構(gòu)與邊界細(xì)節(jié)的扎實掌握，平均 Dice 從 54.0% 提升至 77.0%。這一提升不僅意味著「更像」，更代表模型在像素級邊界對齊、細(xì)小目標(biāo)召回、低對比度組織分離等方面達到了更可靠的水平。尤其在視網(wǎng)膜血管分割這類典型「高難任務(wù)」中，原生模型常見問題是對細(xì)長結(jié)構(gòu)缺乏連續(xù)性建模，容易出現(xiàn)斷裂、漏檢與噪點粘連；Medical SAM3 則顯著改善了這一失敗模式，將 Dice 從 24.8% 提升至 55.8%。更重要的是，提升并非只體現(xiàn)在分?jǐn)?shù)上：模型不僅能「找到血管」，還能夠更好地復(fù)原血管的連續(xù)走向、分叉拓?fù)渑c樹狀結(jié)構(gòu)，這類結(jié)構(gòu)完整性對后續(xù)臨床分析（如血管密度、分支形態(tài)、病變區(qū)域關(guān)系）尤為關(guān)鍵。

在更為嚴(yán)苛的外部驗證環(huán)節(jié)（測試從未見過的數(shù)據(jù)集），模型進一步體現(xiàn)出強大的零樣本泛化能力。面對 7 個全新的外部數(shù)據(jù)集，Medical SAM3 將平均 Dice 從 11.9% 提升至 73.9%，IoU 從 8.0% 提升至 64.4%。這組結(jié)果的意義在于：外部測試通常伴隨顯著的分布偏移 —— 例如不同醫(yī)院設(shè)備、采集協(xié)議、分辨率、噪聲形態(tài)、病灶外觀與標(biāo)注風(fēng)格差異 —— 許多模型在此類場景下會出現(xiàn)「性能斷崖」。而 Medical SAM3 的提升幅度顯示，它并非依賴某一類固定模態(tài)或固定提示形式，而是學(xué)習(xí)到了更通用的醫(yī)學(xué)語義與結(jié)構(gòu)先驗。

更具說服力的是，在部分極端案例中表現(xiàn)出現(xiàn)了從「無法工作」到「可用級別」的質(zhì)變：

內(nèi)鏡息肉分割（CVC-Clinic）：原生模型由于難以從復(fù)雜背景中理解「息肉」這一語義目標(biāo)，Dice 僅 0.0%；Medical SAM3 則達到 87.9%，說明模型能夠在反光、粘液、紋理干擾等情況下仍保持對目標(biāo)語義的穩(wěn)定聚焦。
超聲胎頭測量（HC18）：超聲天然存在斑點噪聲、邊界模糊與組織對比度弱的問題，原生模型 Dice 為 23.9%；Medical SAM3 提升至 92.6%，體現(xiàn)其對低信噪比模態(tài)下輪廓結(jié)構(gòu)的魯棒提取能力。
ETIS-Larib：同樣從 0.0% 躍升至 86.1%，進一步表明模型在外部域中不只是「略有改善」，而是顯著降低了原生模型的完全失效概率。

綜合內(nèi)部與外部結(jié)果可以得出一個關(guān)鍵結(jié)論：Medical SAM3 能夠在不依賴人工提示框輔助的情況下，僅通過文本提示驅(qū)動分割，在多模態(tài)、多數(shù)據(jù)分布下保持穩(wěn)定表現(xiàn)。這意味著模型不僅「能分割」，更具備面向真實臨床場景的核心能力：當(dāng)標(biāo)注成本高、交互提示受限或需要快速批量處理時，它仍能依靠醫(yī)學(xué)語義理解與結(jié)構(gòu)先驗，提供一致、可復(fù)用、可遷移的分割輸出。

未來展望：規(guī)模化與智能化

盡管目前的性能已經(jīng)取得了顯著進展，Medical SAM3 團隊并未止步。為了進一步提升模型的實用性與智能水平，后續(xù)工作將主要集中在以下兩個方向：

1. 數(shù)據(jù)規(guī)模與覆蓋擴展：團隊計劃持續(xù)擴充訓(xùn)練語料庫，引入更豐富的分割數(shù)據(jù)，以增強跨域魯棒性。同時重點補齊臨床中的「長尾空白」，例如罕見病灶、小樣本亞型、低資源模態(tài)以及更復(fù)雜的標(biāo)注形態(tài)（多器官、多病灶、細(xì)長結(jié)構(gòu)等）。通過更大規(guī)模、更多樣化的數(shù)據(jù)「喂養(yǎng)」，進一步降低模型在真實世界場景中遇到分布偏移時的失效概率，讓「給一個術(shù)語就能穩(wěn)定分割」更接近可部署的可靠標(biāo)準(zhǔn)。

2. 邁向 Medical SAM3 Agent：團隊的目標(biāo)不止于做一個分割模型，而是構(gòu)建面向臨床工作流的 Medical SAM3 Agent。通過集成大語言模型（LLMs），系統(tǒng)將具備更強的任務(wù)理解、步驟化推理與交互協(xié)作能力：例如把醫(yī)生的自然語言需求拆解為可執(zhí)行的分割子任務(wù)（目標(biāo)、范圍、優(yōu)先級），在結(jié)果不確定時主動發(fā)起澄清提問，并把分割結(jié)果進一步組織為可讀的結(jié)構(gòu)化輸出（位置、大小、數(shù)量、隨訪對比等），從而成為醫(yī)生在閱片、測量與報告生成中的真正智能伙伴。

總結(jié)

Medical SAM3 的出現(xiàn)標(biāo)志著醫(yī)學(xué) AI 助手從「交互式工具」向「語義智能體」的進化。它不再要求醫(yī)生充當(dāng)「畫框工」，而是模擬了臨床專家的認(rèn)知過程 —— 先理解診斷術(shù)語，再主動在圖像中搜索病灶。通過建立臨床概念與像素級特征之間的直接映射，Medical SAM3 為未來「即插即用」的自動化醫(yī)療輔助系統(tǒng)奠定了堅實的基礎(chǔ)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.