當前位置:
首頁 > 健康 > 人類的基因到底有多少個?近20年學界「大爭議」帶來最新結論

人類的基因到底有多少個?近20年學界「大爭議」帶來最新結論

生物探索

編者按

早在2000年,人類基因組序列草圖還在製作中時,遺傳學家們就開始對人類基因數目進行估算。近20年後,擁有真實數據的他們仍然無法就這一數量達成一致,這一知識差距阻礙了他們在發現與突變相關疾病上的努力。直至最近,科學家們又發布了最新數據:他們認為人類共有超過2.1萬個蛋白質編碼基因。

gnosticwarrior.com

最新結果使用了數百份人體組織樣本的數據,並於5月29日發布在BioRxiv預印本伺服器上。它包含了近5000個以前未被發現的基因,其中近1200個攜帶了製造蛋白質的指令(carry instructions for making proteins)。總的來說,與先前估計的約2萬個蛋白質編碼基因數目相比,本次統計有所上升,總數為超過2.1萬個。

DOI: https://doi.org/10.1101/332825

然而,許多遺傳學家並不確信,所有新提出的基因都將經得起嚴密的審查。他們的批評也凸顯了識別並定義新基因的難度之大。

領導本次基因數目統計的生物學家Steven Salzberg說:「人們在這方面已經努力了20年,但我們仍然沒有答案。」

01

最終答案?

2000年,隨著基因組學界對人類基因數量的爭論, Ewan Birney(目前為英國Hinxton歐洲生物信息學研究所[EBI]所長)發起了基因競賽。他在每年一度的遺傳學會議上於一個酒吧里進行了第一次投注,這次比賽最終吸引了1000多名參賽者和3000美元的獎金。對基因數量的押注從超過312,000個到略低於26,000個不等,平均約為40,000個。之後,估計的範圍在縮小,大致範圍在19000到22000之間,但仍然存在分歧。

Source: M. Pertea & S. L. Salzberg

基因計數可以根據被分析的數據、使用的工具和剔除假陽性的標準而變化。最新的統計使用了更大的數據集和不同於先前的計算方法,以及更廣泛的基因定義標準。

Salzberg的研究小組使用了來自基因型組織表達( GTEx )項目的數據,該項目對數百具死屍的30多個不同組織的RNA進行了測序(RNA是DNA和蛋白質之間的中介)。為了鑒定編碼蛋白質的基因和那些在細胞中不編碼但仍起重要作用的基因,他們組裝了GTEx的9000億個微小RNA片段,並將其與人類基因組對齊。

然而,僅僅因為一段DNA表達為RNA,並不一定意味著它就是一個基因。所以這個小組試圖用各種標準濾除噪音。例如,他們將研究結果與其他物種的基因組進行了比較,認為遠親生物共享的序列很可能由於進化而得以保留(因為它們具有功能性),而且很可能是基因。

最終,研究小組留下了21,306個蛋白質編碼基因和21,856個非編碼基因,遠遠超過兩個最廣泛使用的人類基因資料庫(由EBI維護的GENCODE基因組包括19,901個蛋白質編碼基因和15,779個非編碼基因以及由美國國家生物技術信息中心管理的資料庫RefSeq列出的20,203個蛋白質編碼基因和17,871個非編碼基因)。

前RefSeq負責人Kim Pruitt認為,造成這種差異的原因一部分是由於Salzberg團隊分析的大數據量;另外一個主要的區別是,GENCODE和RefSeq都依賴人工處理——人為查看每個基因的證據並做出最終決定,而Salzberg的小組則完全依靠計算機程序來篩選數據。

「如果人們喜歡我們的基因列表,那麼也許幾年後我們將成為人類基因的仲裁者。」 Salzberg說。

Illustrated by Jeremy Dimmock. via Pacific Standard

02

何為基因的定義標準?

需要指出的是,許多科學家仍堅稱,他們需要更多的證據才能確信這份清單的準確性。協調GENCODE人工注釋的EBI計算生物學家Adam Frankish說,他和他的團隊已經掃描了Salzberg團隊鑒定的大約100個蛋白質編碼基因。據他們評估,其中只有一個似乎是真正的蛋白質編碼基因。

Pruitt的團隊成員研究了Salzberg小組的十幾個新的蛋白質編碼基因,但沒有發現任何符合RefSeq標準的基因。有些與基因組中似乎屬於侵入我們祖先基因組的逆轉錄病毒的區域重疊;另一些屬於其他重複性延伸(repetitive stretches),很少被翻譯成蛋白質。

但是Salzberg認為一些重複序列可以被認為是基因。ERV3–1就是一個例子,它出現在RefSeq中,並編碼在結直腸癌中過表達的蛋白質。同時Salzberg也承認,他團隊名單上的新基因將需要他們自己和其他人的驗證。」

最令人困惑的是基因定義的變化和不精確。生物學家過去認為基因是編碼蛋白質的序列,但後來發現一些非編碼RNA分子在細胞中有重要作用。這一基因判定的標準爭議也解釋了Salzberg計數和其他計數之間的一些差異。

03

重要意義

準確統計所有人類基因對於揭示基因與疾病之間的聯繫非常重要。Salzberg指出,不計其數的基因經常被忽視,即使它們含有致病突變。但是倉促地將基因添加到主列表中也會帶來風險。一個錯誤的基因將會轉移遺傳學家對真正問題的注意力。

Pruitt補充道:「生物學是複雜的。資料庫與庫之間的基因數量不一致對研究人員來說仍然是個問題,人們還在尋求一個最終的答案。」

責編:浮蘇

End

參考資料:1)New human gene tally reignites debate

本文系生物探索原創,歡迎個人轉發分享。其他任何媒體、網站如需轉載,須在正文前註明來源生物探索。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 生物探索 的精彩文章:

抗癌新證據!高水平維生素D或能降低乳腺癌風險
CDMO「新秀」再次詮釋蘇橋速度,助力「好鄰居」研發ADC藥物

TAG:生物探索 |