<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      賓大與Enable Medicine聯手打造"俳句"AI

      0
      分享至


      這項研究由美國賓夕法尼亞大學醫學院病理與實驗室醫學系、生物工程系、生物統計學系,以及生物技術公司Enable Medicine聯合完成,于2026年4月30日以預印本形式發布于arXiv平臺,論文編號為arXiv:2605.00925v1。

      每當醫生拿到一張癌癥患者的病理切片,他們看到的是細胞的形狀和顏色——這是H&E染色圖像,也是全球病理科每天處理數百萬份的標準工具。但問題在于,這張切片背后隱藏的信息遠不止于此:腫瘤里有哪些免疫細胞在戰斗?哪些蛋白質在異常表達?這位患者的預后如何?這些問題,靠一張染色圖是回答不了的,必須借助更昂貴、更復雜的分子檢測手段。

      于是,一個自然的問題就浮現出來:能不能訓練一套人工智能系統,讓它同時"學會"看懂病理圖像、理解分子信號、讀懂臨床信息,三種語言融為一體,彼此翻譯?這正是這篇論文要解決的核心問題。研究團隊將他們構建的這套系統命名為Haiku(俳句),借用這種日本短詩"以少勝多、以局部見整體"的意境,來描述一個能從局部組織切片中提煉出豐富信息的AI模型。

      接下來,這篇文章將帶你完整走進這項研究,從最基礎的問題出發,一路抵達那些令人眼前一亮的實驗結果。

      一、為什么同時讀懂三種"語言"這么難

      在醫院里,理解一個腫瘤通常需要多種檢測。病理科醫生會看H&E染色切片,判斷腫瘤的形態和分級;分子檢測實驗室會用多重熒光免疫標記(mIF,可以理解為一種能同時點亮50多種蛋白質的高級染色技術)來揭示腫瘤微環境中的分子細節;臨床醫生則掌握著患者的分期、治療反應、生存狀態等信息。這三種信息來自不同的檢測體系,說著不同的"語言"。

      問題在于,現有的人工智能模型大多只會其中一種語言。有些模型擅長分析H&E圖像,有些模型專門處理空間蛋白組學數據,還有一些模型嘗試把圖像和臨床文本對齊。但把這三種語言同時放進一個統一框架里互相翻譯,以前從來沒有人系統地做過。這就像你找到了一個會說中文的翻譯、一個會說英文的翻譯、一個會說法文的翻譯,但你真正需要的是一個三語同傳,而且還能在三種語言之間自由切換、互相補充。

      Haiku要做的,正是這個三語同傳的角色。更關鍵的是,它不僅要"聽懂"三種語言,還要能用一種語言的信息去檢索、推斷另一種語言的內容——比如,只給它一張H&E圖像,它就能去數據庫里找到最相似的分子蛋白圖譜;或者只給它一段臨床描述文字,它就能推斷出組織里可能的分子特征。

      二、一個史無前例的訓練數據集

      要訓練這樣一個三語同傳系統,首先需要大量"配套教材"——也就是同一塊組織同時擁有H&E圖像、分子圖像和臨床信息的配對數據。這本身就極為稀缺,因為大多數醫院里這三種數據是分散存儲的,很少有人把它們完整對齊。

      研究團隊由Enable Medicine提供的數據庫做到了這一點。整個數據集涵蓋7600張多重熒光免疫標記(mIF)組織切片,來自1848名患者,橫跨乳腺癌、肺癌、結直腸癌、腎癌、食管癌、肝癌、卵巢癌等11種器官類型和11種疾病類型。其中,3218張切片同時擁有配對的H&E圖像和患者臨床元數據,正是這批"三重配套"數據構成了Haiku核心對比學習訓練的基礎,貢獻了2669萬個組織圖像小塊。另外3848張僅有mIF數據的切片,則用于專門預訓練分子圖像編碼器。

      為了確保實驗結果的可信度,研究團隊在患者層面進行了嚴格的訓練集與測試集分離:1606名患者(86.9%)的數據用于訓練,剩余242名患者(13.1%)的所有切片完全隔離,專門用于評估。這個分割方式的重要性在于,它防止了同一個患者的不同切片分別出現在訓練和測試中——這是一種常見的數據泄露漏洞,在醫療AI研究中經常被忽視。

      每張組織切片被分割成256×256像素的小方塊(稱為"patch",可以理解為組織的一個小窗口),每個小窗口同時對應三份數據:一個H&E染色的彩色圖像小塊、一個包含多達120個生物標記物通道的mIF圖像小塊,以及一段描述該小塊的文字。文字描述分為兩層:一層是"局部層",描述這個小窗口里各種蛋白質的表達高低和空間分布模式;另一層是"全局層",包含該患者的腫瘤類型、分期、分級、治療反應、生存狀態等臨床信息。這兩層文字被拼合在一起,形成了每個圖像小塊的"文字身份證"。

      三、俳句的架構:一套三模態對比學習系統

      理解Haiku的工作原理,可以借用一個"三面翻譯器"的比喻。這個翻譯器有三個入口,分別接收H&E圖像、mIF分子圖像和文字描述,每個入口都有一個專屬的"編碼引擎"把輸入內容壓縮成一串數字向量。然后,三個入口的輸出都被投射到同一個"共享語義空間"里,在這個空間里,來自同一塊組織的三種信息應該落在彼此很近的位置,來自不同組織的信息則應該彼此分離。

      具體來說,H&E圖像的編碼引擎采用了一個叫MUSK的預訓練視覺模型,這是一個專門為病理圖像設計的視覺變換器,在大量H&E切片上預訓練過,已經學會了識別組織形態的基本特征。文字編碼引擎使用的是BiomedBERT,一個在海量生物醫學文獻上訓練的語言模型,擅長理解醫學專業術語。

      mIF圖像的編碼引擎則更為特殊。由于市面上沒有現成的、在多重熒光免疫數據上預訓練的模型,研究團隊從頭訓練了一個基于VirTues架構的mIF編碼器。這個編碼器有一個聰明的設計:它不僅能處理圖像本身,還為每個生物標記物通道綁定了一個來自ESM-3蛋白質語言模型的蛋白質嵌入向量,作為該通道的"身份標簽"。這樣,即使遇到訓練時沒見過的蛋白質,只要有對應的ESM嵌入,模型就能處理。

      三個編碼引擎各自產生的向量,經過各自的"投影頭"(一個兩層神經網絡)映射到同一個512維的共享空間。訓練時,來自同一塊組織的H&E向量、mIF向量和文字向量被迫靠近,而來自不同組織的向量則被推開——這種訓練方式叫做對比學習,靈感來自OpenAI的CLIP模型,原本用于對齊圖像和文字,Haiku將其擴展到了三個模態。

      訓練時,為了避免破壞已經預訓練好的H&E和文字編碼器,這兩個編碼器只開放最后兩個變換器層進行微調,而mIF編碼器在對比訓練階段則完全凍結,只更新各自的投影頭。學習率也精細分層:H&E編碼器用1×10??,文字編碼器用2×10??,投影頭用1×10??。整個系統在完整訓練數據上訓練25輪,采用先線性預熱5000步、再余弦退火的學習率調度策略。

      四、跨模態檢索:給組織切片建立"三語詞典"

      Haiku訓練完成后,第一個要驗證的能力是跨模態檢索——也就是說,給它一張H&E圖像小塊,它能不能從幾十萬個mIF圖像小塊的數據庫里找出同一塊組織對應的mIF圖像?反過來,給它一段文字描述,它能不能找到對應的mIF圖像?

      這個任務的難度超乎想象。檢索不是在同一張切片的幾百個小塊里找,而是在336張不同患者、不同器官的測試切片的所有小塊里找——這意味著數據庫里有幾十萬個候選對象,而正確答案只有一個。這相當于把一首詩的一行,從十萬本書里找到它的原書,還要找到正確的那一頁。

      評估指標用的是Recall@K,也就是在前K個檢索結果里,正確答案出現的比例。研究團隊測試了K=1、5、10、20、50五個級別。

      結果相當顯著。對于H&E→mIF方向的檢索,Haiku在Recall@50達到了0.611,而作為基準對比的"樸素方法"(把mIF的多通道圖像強行疊加成RGB三通道,然后用H&E編碼器處理)幾乎沒有任何檢索能力,Recall@50僅為0.030。對于mIF→H&E方向,Haiku達到0.604,樸素基準僅為0.012。對于文字→mIF的跨模態檢索,因為文字和圖像之間本身信息差距更大,Haiku達到0.169,這個數字看起來不高,但在如此大規模的跨數據集檢索場景下,已經體現出了有意義的對齊能力。

      更直觀的是定性展示。在一個文字→mIF的檢索例子中,輸入文字描述的是一個乳腺癌患者的切片,文字中提到GranzymeB、CD11c和PanCK表達較高,而Ki67和IFNγ表達較低。Haiku檢索到的前三名mIF小塊,每一個都忠實地反映了這些特征:富集標記物的空間分布和強度都與文字描述吻合,說明系統不僅學會了"對齊",還學會了"理解"文字的語義內容。

      在零樣本分類實驗中,Haiku還展示了一個類似于CLIP的能力:給它一張mIF圖像,再給它10個器官類型的文字提示(比如"一張乳腺組織的mIF圖像"),它能把正確的器官類型排在第一位。在10分類的器官類型任務上,宏平均F1達到0.179,而隨機猜測只有0.067;在11分類的疾病類型任務上,宏平均F1達到0.182,隨機猜測僅為0.059。兩個差異均通過了嚴格的統計顯著性檢驗。

      五、下游任務:從檢索到臨床預測的飛躍

      跨模態檢索是基礎能力,但更重要的問題是:這種對齊學到的特征,對臨床上真正有用的任務有幫助嗎?

      研究團隊針對這個問題設計了一系列實驗,全部在訓練集之外的獨立測試數據上進行。

      在最基礎的分類任務上,團隊從336張測試切片中提取了五類臨床標簽:器官類型、組織類型、腫瘤T分期(反映腫瘤大小和侵犯程度)、N分期(反映淋巴結轉移情況)和腫瘤分級。然后用線性探針方法評估——就是凍結Haiku的編碼器權重,只在其輸出特征上訓練一個極簡單的線性分類器,測試特征本身攜帶了多少有用信息。

      結果表明,Haiku的單模態特征(無論是H&E還是mIF)都明顯超越了對應的基準模型(H&E方向超越MUSK,mIF方向超越VirTues)。更重要的是,當把Haiku的H&E特征和mIF特征拼接在一起形成"融合特征"時,性能進一步提升,在N分期任務上宏平均F1達到0.942,T分期達到0.961,腫瘤分級達到0.942,器官類型達到0.999,組織類型達到0.998。這些融合結果均顯著優于任何單一模態,且統計檢驗均達到顯著性水平(P值均小于0.001或接近這一水平),說明兩種模態確實攜帶了互補信息,融合后能捕捉到任何單一模態都無法單獨提供的內容。

      在更具挑戰性的生存預測和治療反應預測任務上,Haiku的表現同樣令人關注。這兩個任務使用的是完全獨立于Haiku訓練和VirTues預訓練的198張測試切片,來自兩個外部隊列:75例轉移性黑色素瘤患者(均有免疫治療記錄和隨訪數據)和66例結直腸癌患者(均有治療和長期生存數據)。這相當于讓模型在完全陌生的"考題"上接受檢驗。

      在結直腸癌的生存預測任務上,使用了基于注意力機制的多實例學習框架(可以把每張切片理解為一個"證據包",模型學會從包里挑出最有預測價值的小塊,然后綜合判斷患者風險)。Haiku(mIF)特征訓練出的Cox回歸模型,平均一致性指數(C-index,衡量模型把高風險和低風險患者排序正確的能力,0.5是隨機猜測,1是完美)達到0.737,而VirTues基準僅為0.683,提升約5.4個百分點。更直觀的是Kaplan-Meier生存曲線:VirTues區分的高低風險組的統計顯著性P值僅為0.274(不顯著),而Haiku區分的兩組P值達到3.41×10??(顯著),說明Haiku學到的特征能真正把預后不同的患者區分開來。

      在黑色素瘤的治療反應預測任務上,Haiku(mIF)的平均AUROC(接受者工作特征曲線下面積,反映模型區分有效與無效治療反應的能力)達到0.756,而VirTues僅為0.352;AUPRC(精確率-召回率曲線下面積)達到0.660,而VirTues僅為0.333。單折展示中,AUROC和AUPRC分別達到0.920和0.885,差距之大令人印象深刻,且差異均達到統計顯著性。結直腸癌治療反應預測的改善幅度相對較小但方向一致,AUROC從0.721提升至0.730,AUPRC從0.735提升至0.775,統計顯著性未達到傳統閾值,但平均值的改善方向始終穩健。

      六、零樣本融合檢索:讓臨床信息幫助推斷分子特征

      到這里,Haiku已經證明了自己在檢索和分類任務上的價值。但研究團隊還想走得更遠:如果只有一張H&E圖像,再加上一段只包含臨床信息(不含任何蛋白質信息)的文字描述,能不能比單純用H&E圖像更準確地推斷出組織里各種蛋白質的表達水平?

      這個任務被稱為"融合檢索生物標記物推斷"。方法是:把H&E圖像的相似度分數和文字的相似度分數,按照一定權重加權求和,形成一個融合的檢索分數,然后從mIF數據庫里找出最相似的若干小塊,把它們的蛋白質表達值加權平均,作為對查詢小塊蛋白質表達的預測。評估指標是預測值與真實測量值之間的皮爾遜相關系數(PCC,越接近1越好)。

      關鍵的設計在于:這里用到的文字描述是"僅含元數據"的版本,也就是把文字里涉及蛋白質表達的部分全部刪掉,只保留器官類型、疾病狀態、分期等臨床背景信息。這樣做的目的是確保文字帶來的提升純粹來自臨床語義,而不是因為文字本身已經直接告訴了模型蛋白質信息。

      在52個經過驗證的生物標記物通道上,融合檢索(H&E權重0.8,文字權重0.2)的平均PCC達到0.718,而單純H&E檢索為0.710,差異通過了Wilcoxon符號秩檢驗(P=1.46×10??),說明臨床文字信息確實貢獻了獨立于圖像之外的補充信息。更引人注意的是,樸素基準(把mIF通道壓縮成RGB再用H&E編碼器處理)的平均PCC僅為-0.033,幾乎毫無預測能力,說明專用的mIF編碼器加上三模態對齊對這個任務是不可或缺的。

      從各個生物標記物的具體表現來看,這種提升覆蓋了非常廣泛的生物學類別:自適應免疫標記物(如CD3e、CD8、PD-L1)、腫瘤內在標記物(如EpCAM、Ki67)、基質成分標記物(如膠原蛋白IV、CD31)等。這意味著Haiku的跨模態對齊捕捉到的不是某一類生物信號,而是真正跨越了多個生物學程序。

      七、反事實預測:改變一行文字,看腫瘤微環境怎么變

      到目前為止,所有任務都在"描述現實":這張切片對應什么分期?這位患者的預后如何?但Haiku的共享語義空間還開啟了一個更有趣的可能性:反事實推理。

      反事實推理的問題是:"如果臨床情況不同,組織里的分子環境會有什么不同?"例如,同一個患者,同一塊組織,如果把腫瘤分期從T2N0改成T4N2,分子微環境會發生什么變化?或者,同一個肺腺癌患者,如果把生存狀態從"已死亡"改成"存活",組織里的免疫細胞格局會有什么不同?

      這種分析靠傳統模型無法完成,因為傳統模型是單向的:給定輸入,預測輸出,但無法"擾動"某一個屬性再看其他屬性如何聯動。Haiku的共享語義空間讓這成為可能:把H&E圖像的嵌入向量固定不變(代表組織形態保持不變),只修改文字嵌入中的某個臨床屬性,然后用修改前后的"融合查詢向量"分別去檢索mIF數據庫,比較兩次檢索結果的蛋白質表達差異,就可以得到一個"如果分期/預后改變,分子特征會怎么變"的預測。

      研究團隊強調,這些分析是探索性的、假說生成性的,而非機制性結論。單患者的案例研究無法代替大規模驗證,所有結論都需要后續實驗研究來核實。帶著這個前提,團隊做了兩個案例研究。

      第一個案例研究針對乳腺癌進展動態。團隊選取了一位中期乳腺癌患者(T2N0M0,IIA期,2級)的281個組織圖像小塊,只把文字里的分期字段修改為晚期(T4N2M1,IV期,3級),其余所有信息保持不變,然后比較兩次檢索的mIF結果。

      首先,檢索結果的臨床構成發生了顯著變化:原始檢索中,從數據庫檢索到的小塊里有96.6%來自N0期患者,修改后降至88.6%,而N2期患者的比例從1.3%上升至4.9%。T分期的變化同樣顯著。這說明Haiku確實對文字擾動做出了響應,而不是返回固定不變的結果。

      更有趣的是分子層面的變化。研究團隊把281個小塊按照H&E形態聚類成四個組織微環境:富含成纖維細胞的基質(C0,100個小塊)、炎癥腫瘤區(C1,70個小塊)、黏液/ECM重塑基質(C2,39個小塊)和以上皮細胞為主的腫瘤核心(C3,72個小塊)。在每個微環境內部,分別統計反事實條件下蛋白質表達的變化。

      在上皮主導的腫瘤核心(C3)里,晚期反事實擾動帶來了兩類協調的、符合生物學邏輯的變化:泛巨噬細胞標記物CD68上升了69.7%,淋巴管/癌癥相關成纖維細胞標記物Podoplanin上升了99.9%,這兩者在文獻中均與乳腺癌晚期和不良預后相關;同時,乳腺癌管腔分化三聯征GATA3(-22.3%)、Keratin8_18(-23.0%)和E-cadherin(-13.4%)全部顯著下降,與乳腺癌進展中管腔分化喪失的文獻記錄方向一致。

      在炎癥腫瘤區(C1),晚期擾動產生的最強信號是Vimentin上升了73.9%,同時GATA3顯著下降41.1%,這個Vimentin上升/GATA3下降的組合與文獻中乳腺癌上皮-間質轉化的分子標志高度一致。在黏液基質(C2),HLA-DR(抗原呈遞相關蛋白)下降了34.2%,與三陰性乳腺癌中HLA-DR丟失與預后相關的報道方向吻合。在富含成纖維細胞的基質(C0),則出現了協調的B細胞浸潤信號(CD19上升70.5%,CD20上升132.9%,CD79上升142.7%)和CD8 T細胞信號(CD8上升28.9%)。

      還有一個細節值得關注:未成熟T細胞標記物CD45RA在全部四個微環境中均顯著下降(C0下降29.5%,C1下降49.7%,C2下降39.8%,C3下降43.9%),且在腫瘤區下降幅度大于基質區。這與乳腺癌文獻中初始T細胞在腫瘤組織中耗竭、腫瘤免疫微環境隨疾病進展向激活/效應狀態轉變的描述方向一致。

      在成纖維細胞基質(C0)內部,團隊還進行了主成分分析,發現第二主成分(PC2)能區分哪些小塊在反事實擾動下偏向髓系/抗原呈遞方向,哪些偏向上皮/B系方向。把PC2分數與原始mIF測量值相關聯,發現免疫檢查點標記物LAG3和基底/肌上皮標記物TP63的基線值都與PC2有正相關(皮爾遜相關系數均為0.45),說明一個小塊在反事實擾動下"往哪個方向走",是由它自身的基線免疫和細胞類型狀態所決定的——基線LAG3和TP63更高的小塊,傾向于在反事實擾動下向髓系方向偏移。

      第二個案例研究針對肺腺癌的生存相關分子特征。團隊選取了一位肺腺癌已死亡患者(生存25個月,IIIA期,T3N1M0)的154個組織小塊,只把文字里的生存狀態從"已死亡"改為"存活",其他臨床信息(包括分期)保持不變,比較反事實推斷的分子變化。

      同樣按照H&E形態聚類成四個空間微環境:上皮主導的腫瘤核心(C0,42個小塊)、效應細胞富集的腫瘤區(C1,30個小塊)、基質-血管轉運微環境(C2,31個小塊)和腫瘤-基質交界面(C3,51個小塊)。

      在上皮主導的腫瘤核心(C0)里,"存活"狀態下CD8上升50.6%,顆粒酶B(殺傷性T細胞釋放的效應分子)上升38.0%,記憶T細胞標記物CD45RO上升36.8%,同時免疫檢查點分子PD-L1下降61.7%。這個模式與非小細胞肺癌中高密度CD8?T細胞和記憶T細胞與良好預后相關的大量文獻報道方向一致。

      在效應細胞富集的腫瘤區(C1),這是免疫檢查點緩解信號最強的微環境:PD1下降24.6%,PD-L1下降30.7%,VISTA下降34.7%,同時CD8上升89.5%,CD45RO上升35.7%,抑制性髓系標記物CD11c下降35.6%,MPO下降27.5%。這個多重檢查點同時緩解的模式,與免疫檢查點抑制劑有效應答的分子簽名有相似之處。

      在基質-血管轉運微環境(C2),CD8上升35.8%,CD21(濾泡B細胞標記物)上升71.9%,粒系髓系活動(MPO)下降32.1%。值得注意的是,這個微環境里廣譜B細胞標記物CD20反而下降了59.7%,說明B細胞方面的變化不是簡單的B細胞擴增,而更可能是CD21陽性的生發中心樣B細胞亞群富集——這種富含三級淋巴結構的模式在肺癌文獻中與良好預后有關聯。

      在腫瘤-基質交界面(C3),CD8上升13.5%,調節性T細胞標記物FoxP3下降36.1%,細胞外基質蛋白膠原蛋白IV下降23.7%,而Ki67(反映細胞增殖活力)下降24.8%,成為四個微環境中唯一達到統計顯著性的Ki67下降信號(其他三個微環境有同方向趨勢但未達到顯著性)。這個組合指向一個從免疫抑制、纖維化屏障向更開放的免疫接觸界面的轉變,與文獻中促進免疫細胞進入腫瘤的有利微環境特征相呼應。

      整個肺癌反事實分析展現出一個具有四個收斂主題的圖景:效應T細胞擴增、廣泛的免疫檢查點緩解、抑制性髓系清除,以及僅在腫瘤-基質交界面達到顯著性的增殖減少。這些方向性一致的信號,僅通過修改一個"生存狀態"文字屬性就浮現出來,說明Haiku的共享語義空間確實捕捉到了某種與臨床預后關聯的分子組織模式。

      八、局限性與未來方向

      研究團隊坦誠地指出了Haiku目前的幾個局限。首先,當前模型的對比學習訓練只能處理配對數據(同時有H&E、mIF和文字的樣本),而大量現實中的單模態數據(比如只有H&E的大規模切片庫)尚未被充分利用,未來引入混合配對/非配對數據的訓練范式可能進一步提升模型規模和泛化能力。

      其次,Haiku的文字描述是從結構化元數據模板生成的,而非真正的自由文本臨床報告。將模型擴展到處理真實、雜亂的臨床病歷文本仍是一個開放挑戰。

      第三,最重要也最需要強調的:反事實分析目前是單患者的概念驗證(乳腺癌281個小塊來自一位患者,肺腺癌154個小塊來自另一位患者),所有方向性結論都需要在更大規模的患者隊列中驗證,并需要實驗室實驗來確認具體的分子機制。反事實分析工具的價值在于生成假說,而非提供最終答案。

      第四,模型當前在256×256像素的小塊層面工作,要部署到完整的全切片分析場景,還需要與全切片層面的架構整合。

      此外,對比學習的性能很大程度上取決于各模態編碼器的質量,這意味著Haiku可以直接受益于未來更強大的單模態基礎模型的發展,但也意味著當前版本的表現受限于所使用的預訓練編碼器。

      歸根結底,Haiku這個研究做的事情,是把三種原本各說各話的醫學語言——組織形態、分子蛋白和臨床信息——編入了同一本"詞典",讓它們在同一個空間里互相翻譯、互相補充。這不僅僅是一個更好的單一任務模型,而是一個通用的多模態連接框架:一旦這個詞典建好,無論是檢索類似案例、預測臨床結局、推斷分子特征,還是探索"如果臨床條件改變,分子環境會怎樣"這類假設性問題,都能從同一個預訓練模型出發,無需為每個任務重新訓練。對于任何一個從事病理學、腫瘤學或精準醫療研究的人來說,這個框架開辟的方向值得認真關注。有興趣深入了解的讀者,可以通過arXiv編號2605.00925查詢完整論文,代碼和模型檢查點已在GitHub(zhihuanglab/Haiku)和Hugging Face(zhihuanglab/Haiku)公開發布。

      Q&A

      Q1:Haiku模型和普通的病理AI有什么區別?

      A:普通病理AI通常只能處理一種數據類型,比如單純分析H&E染色切片或單純分析分子檢測數據。Haiku的核心區別在于它同時學習了三種數據的對應關系:H&E病理圖像、多重熒光免疫標記(mIF)分子圖像,以及患者臨床信息文字描述。這意味著它可以用其中一種數據去檢索或推斷另一種數據的內容,而不需要每個任務都重新訓練一個專用模型。

      Q2:Haiku的反事實分析是什么意思,能用來預測真實患者的結果嗎?

      A:反事實分析是指固定患者的H&E圖像(代表形態不變),只修改文字里的某個臨床屬性(比如把腫瘤分期改高),然后觀察模型檢索到的分子特征如何變化,從而探索"如果臨床條件不同,分子微環境會怎樣"。這是一種假說生成工具,幫助研究者找到值得驗證的分子信號,但目前不能直接用于預測真實患者的結果,因為這些分析基于單個患者的案例,還需要大規模隊列驗證和實驗室實驗來確認機制。

      Q3:Haiku訓練數據有多大,普通研究機構能復現嗎?

      A:Haiku在超過6200萬個組織圖像小塊上訓練,來自7066張切片、1606名患者,數據由Enable Medicine提供,是私有數據集。完整數據集目前未公開,但研究團隊在Hugging Face上提供了演示數據,代碼和模型權重也已開源,允許研究者在自有數據上使用已訓練好的Haiku編碼器提取特征或進行遷移學習。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      4200點后,焦慮傳遍了所有群

      4200點后,焦慮傳遍了所有群

      販財局
      2026-05-11 18:07:35
      世界杯已“爛尾”,央視不鳥它3億天價轉播費,它居然關停中文網

      世界杯已“爛尾”,央視不鳥它3億天價轉播費,它居然關停中文網

      碼不停蹄
      2026-05-11 18:30:06
      罕見服軟!張本智和賽后公開致歉,坦言日乒與國乒差距懸殊!

      罕見服軟!張本智和賽后公開致歉,坦言日乒與國乒差距懸殊!

      田先生籃球
      2026-05-11 12:40:12
      吳前妻子:希望能被尊重&逼我把內部事情說出來大可不必

      吳前妻子:希望能被尊重&逼我把內部事情說出來大可不必

      狼叔評論
      2026-05-11 17:34:09
      距開賽1個月!FIFA妥協:最新要價1.2億+已降5成 仍高于央視報價

      距開賽1個月!FIFA妥協:最新要價1.2億+已降5成 仍高于央視報價

      我愛英超
      2026-05-11 18:38:20
      美媒:雄鹿&維拉老板艾登斯與46歲華裔女子發生性關系,女方勒索12億美元

      美媒:雄鹿&維拉老板艾登斯與46歲華裔女子發生性關系,女方勒索12億美元

      懂球帝
      2026-05-11 09:41:18
      才火1個月就涼了?莫氏雞煲無人排隊,網友:遲早的事!

      才火1個月就涼了?莫氏雞煲無人排隊,網友:遲早的事!

      雷科技
      2026-05-11 18:05:22
      凌晨外出復印失聯的西寧17歲高中女生已找到,親屬:屬意外溺亡

      凌晨外出復印失聯的西寧17歲高中女生已找到,親屬:屬意外溺亡

      極目新聞
      2026-05-11 19:13:31
      劉雨鑫打卡潮汕天價海鮮!同款瀨尿蝦對標三亞,價格真相大白

      劉雨鑫打卡潮汕天價海鮮!同款瀨尿蝦對標三亞,價格真相大白

      行者聊官
      2026-05-11 12:23:14
      人大代表建議機關事業單位雙休制調整為“大周休3天,小周休2天”

      人大代表建議機關事業單位雙休制調整為“大周休3天,小周休2天”

      細說職場
      2026-05-10 10:34:41
      摩洛哥姑娘嫁江蘇農村小伙,婚禮全程開心大笑,攝影師感慨:拍了七年婚禮沒見過這樣的

      摩洛哥姑娘嫁江蘇農村小伙,婚禮全程開心大笑,攝影師感慨:拍了七年婚禮沒見過這樣的

      可達鴨面面觀
      2026-05-10 13:46:52
      中國政府獎學金留學人員抵達平壤,正式開啟在朝留學生活

      中國政府獎學金留學人員抵達平壤,正式開啟在朝留學生活

      大風新聞
      2026-05-11 08:36:09
      公安局局長張安疆同志離世后,一個令人震驚的消息出現了!

      公安局局長張安疆同志離世后,一個令人震驚的消息出現了!

      李昕言溫度空間
      2026-05-11 21:53:03
      驚天烏龍!比特幣暴跌至2美分,用戶集體炸鍋,有人狂買有人傻眼

      驚天烏龍!比特幣暴跌至2美分,用戶集體炸鍋,有人狂買有人傻眼

      奔跑財經
      2026-05-11 12:16:16
      5月11日譯名發布:毛焦爾·彼得

      5月11日譯名發布:毛焦爾·彼得

      參考消息
      2026-05-11 11:26:34
      OPPO再致歉:從嚴處罰高級副總裁段要輝

      OPPO再致歉:從嚴處罰高級副總裁段要輝

      21世紀經濟報道
      2026-05-11 14:48:08
      傳來大消息,暴漲開啟

      傳來大消息,暴漲開啟

      隔壁老投
      2026-05-11 14:23:42
      俄羅斯無人機核心負責人科扎連科被捕!曾親自向普京匯報

      俄羅斯無人機核心負責人科扎連科被捕!曾親自向普京匯報

      項鵬飛
      2026-05-11 20:08:25
      坑慘OPPO,驚壞華為大疆,武大母校痛心,余思月事后狡辯掉人心!

      坑慘OPPO,驚壞華為大疆,武大母校痛心,余思月事后狡辯掉人心!

      小兔子發現大事情
      2026-05-11 16:17:25
      天舟十號發射成功!中國空間站“超級補給時代”開啟——

      天舟十號發射成功!中國空間站“超級補給時代”開啟——

      海右那人
      2026-05-11 08:45:38
      2026-05-12 00:15:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      8300文章數 563關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      母女二人一年用水量高達400多噸 警方發現背后隱情

      頭條要聞

      母女二人一年用水量高達400多噸 警方發現背后隱情

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個我

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協商解約

      財經要聞

      宗馥莉罷免銷售負責人 部分業務將外包

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      本地
      數碼
      手機
      旅游
      軍事航空

      本地新聞

      用蘇繡的方式,打開江西婺源

      數碼要聞

      5299元起!大疆ROMO 2系列正式發布:無人機同款避障太逆天

      手機要聞

      旗艦靠邊站!華為要把10000mAh+++巨鯨電池,先塞進中端機里

      旅游要聞

      天壇公園5月12日景點暫停開放

      軍事要聞

      特朗普:伊朗的回應“完全不可接受”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 盱眙县| 农村乱色一区二区高清视频 | y1111111少妇无码| 国产精品无码2021在线观看| 亚洲欧美在线看片AI| 久久久久国产精品熟女影院| 国产一区二区三区在线视频| 凤阳县| 亚洲va成无码人在线观看| CaoPorn国产一区二区| 人妻少妇精品视频专区| 国产亚洲精品AA片在线爽| 久久综合色天天久久综合图片| 国产超碰无码最新上传| 免费国产白丝喷水娇喘视频| 久久久久久av| 成人网站免费观看永久视频下载| 人人妻人人做人人爽夜欢视频| 国产成人精品一区二区无| 高清无码啪啪| 老子影院午夜久久亚洲| 无码专区3d动漫精品免费| 欧美成本人视频免费播放| 中文字幕亚洲综合小综合| 97国产在线| 99久久人妻无码精品系列蜜桃| 亚洲精品一,二,三,四区AV| 福利天天看| 最新无码视频| 亚洲一区二区中文字幕| 国产精品中文字幕在线| 洋洋AV| 图片区小说区视频区综合| 亚洲人成网站在线播放小说| 国产精品欧美一区二区三区| 亚洲av综合色区无码专区| 国产一二三四区中| 久久亚洲熟妇熟女| 久久亚洲精品中文字幕馆| 免费又黄又爽又猛的毛片| 好身材主动上位叫声|