撰文丨王聰
編輯丨王多魚
排版丨水成文
人類基因組有著 30 億堿基對,然而,其中僅有大約19500個蛋白質編碼基因,這些蛋白質編碼基因是生物醫學研究的基礎,包括絕大多數藥物研發項目。因此,蛋白質編碼基因的大幅增加會對整個人類生命科學領域產生連鎖反應。
近年來,人類基因組是否擁有遠超 19500 個蛋白質編碼基因,引發了激烈爭論。有研究認為,人類基因組中可能還編碼了數千種“暗蛋白”,它們像暗物質一樣,雖然作用未知,但可能在細胞中發揮著重要作用。
2026 年 5 月 6 日,Máxima 公主兒科腫瘤中心、密歇根大學安娜堡分校、系統生物學研究所的研究人員合作,在國際頂尖學術期刊Nature上發表了題為:Expanding the human proteome with microproteins and peptideins 的研究論文。
該研究基于對 95520 項蛋白質組學實驗的大規模分析,發現在 7264 個非經典開放閱讀框(ncORF)中約有 25%(1785 個)產生了可檢測的肽段。研究團隊建立了將 ncORF 編碼的微蛋白注釋為人類蛋白質的框架,并提出了“肽質”(peptidein)這一新概念,用于描述這些功能潛力尚不明確的微蛋白。該研究還進一步表征了長鏈非編碼 RNAOLMALINC編碼的一個肽質,其在多種人類細胞中表現出“廣泛必需性”。
這項研究表明,人類基因組中的蛋白質編碼基因數量可能被嚴重低估了,它們編碼的數以千計的“肽質”(peptidein)可能在細胞功能或疾病中發揮作用,有望為生物醫學研究和藥物發現開辟新前景。
![]()
被忽視的“暗物質”:非經典開放閱讀框
長期以來,科學家們一直以約1.95 萬個經典蛋白質編碼基因為核心,開展生物醫學研究。然而,人類基因組中還存在著大量“非經典開放閱讀框”(ncORF),它們代表了人類基因組中一片未被充分探索的“暗物質”區域,它們的存在和翻譯改變了我們對基因組編碼能力的認知。雖然鑒定其功能產物充滿挑戰,但這一領域正迅速成為生命科學前沿,有望為理解基本生物學過程和開發革命性療法(尤其是在癌癥和遺傳病領域)開辟全新道路。
最近,由 GENCODE、PeptideAtlas 等多個國際權威組織組成的 TransCODE 聯盟,完成了一項規模空前的分析。他們整合了超過 9.5 萬次蛋白質組學實驗數據,對 7264 個 ncORF 進行了系統性篩查。
結果發現,其中約 25%(1785個)的 ncORF 確實產生了可以被質譜技術檢測到的肽段。這意味著,我們的細胞里可能存在著一個此前未被充分認識的“微蛋白”(microprotein)世界。
肽質:介于蛋白質與非蛋白質之間
面對這些新發現的微蛋白,科學家們遇到了一個分類難題:它們有些證據確鑿,有些則信息有限,難以直接歸入經典的蛋白質家族。
為此,研究團隊提出了一個創新的分類概念——“peptidein”(生物世界將該術語翻譯為肽質),其由多肽(peptide)和蛋白質(protein)兩個詞合并而來,可以將其理解為一種“待定”的蛋白質:它們的確由基因組編碼并由相應的 RNA 翻譯而來,由氨基酸構成,但尚不清楚是否具有任何功能,因此,不不足以斷定它們是一個功能完備的經典蛋白質。
這個概念為那些處于灰色地帶的微蛋白提供了一個分類“身份”,鼓勵科學界對它們進行持續研究和功能驗證。
進化痕跡:揭示微蛋白的“重要性”
如何判斷一個 ncORF 編碼的微蛋白是否重要?研究團隊開發了一個名為“ORF 相對分支長度”(ORBL) 的分析工具。
傳統方法主要看氨基酸序列在進化中是否保守。但很多微蛋白序列變化很大,用老方法容易“漏檢”。ORBL 工具則更聰明:它不只看氨基酸,而是看 ORF 的“框架”本身——比如起始密碼子、終止密碼子以及閱讀框的開放性——在物種進化中是否被保留下來。
分析發現,許多能檢測到肽段的 ncORF,在 ORF 框架層面都顯示出顯著的進化約束痕跡。這說明,自然選擇可能一直在默默維護著這些微蛋白的翻譯能力,暗示它們具有潛在的生物學功能。
免疫系統的“新抗原”寶庫
那么,這些微蛋白都藏在哪?有什么作用?在這項研究中,研究團隊的一個關鍵發現是,它們大量出現在免疫肽組中——即被細胞呈遞到表面、供免疫系統識別的肽段。
在針對 HLA-I 類分子的免疫肽組數據中,研究團隊發現了 3116 條來源于 ncORF 的肽段。更令人驚訝的是,這些微蛋白來源的肽段與經典蛋白來源的肽段一樣,能夠有效地被免疫系統識別和呈遞。
這為癌癥免疫治療等領域打開了新思路:這些來源于基因組“暗物質”的微蛋白,很可能成為全新的、腫瘤特異性的治療靶點。
從“候選”到“正式成員”:建立科學的晉升通道
為了讓后續研究有章可循,研究團隊建立了一套清晰的證據分級和注釋流程:
Tier 1A:證據確鑿,已滿足國際人類蛋白質組組織(HUPO)的蛋白質驗證標準,可直接晉升為新的蛋白質編碼基因,該研究已鑒定出 15 個這樣的強力候選基因。
Tier 1B & 2B:擁有高質量的免疫肽組學證據,證實其蛋白質合成。
Tier 2A:目前只有一條可靠的質譜肽段證據,但可能因為蛋白太小而難以產生更多肽段。
![]()
許多被歸類為“肽質”的微蛋白,未來隨著證據的積累,完全有可能“晉升”為正式的蛋白質編碼基因。
一個來自“垃圾 RNA”的必需微蛋白
研究團隊進一步深入探究了一個來自長鏈非編碼 RNAOLMALINC的肽質。
通過功能基因組學分析,他們發現這個微蛋白表現出“廣泛必需性”——即在多種人類細胞系中,敲除它都會影響細胞的存活和生長。這表明它參與到了細胞的核心功能中,絕不是什么“垃圾產物”。
重新繪制人類蛋白質藍圖
這項研究不僅僅是一份發現清單,它更提供了一套完整的“工具包”和“路線圖”:
1、公開數據庫:所有數據已整合進 GENCODE 和 PeptideAtlas 數據庫,向全球科學家開放。
2、標準框架:建立了 ncORF 和微蛋白的注釋標準與分析流程。
3、新概念體系:引入了“肽質”(peptidein)這一分類,為后續研究奠定了概念基礎。
總的來說,這項發表于Nature的研究標志著我們對人類基因組和蛋白質組的認識邁出了重要一步。那些隱藏在基因組非編碼區域的“微蛋白”和“肽質”,不再是神秘的暗物質,而是等待被探索的功能新大陸。它們很可能在基礎生物學、疾病機制和藥物開發中扮演著尚未被知曉的關鍵角色。
論文鏈接:
https://www.nature.com/articles/s41586-026-10459-x
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.