人類基因組到底有多少個基因
人類基因組究竟有多少基因兼談Salzberg最新bioRxiv研究
「人,宇宙之精靈,萬物之靈長」。科學家,這一人類中的所謂精英群體自然擔負起了為人類的自負找尋基因證據的重任。早在上世紀六十年代,生物學家就開始了對人到底有多少基因的探索的坎坷之旅。
1964年,來自德國海德堡大學的Friedrich Vogel獨闖龍潭,孤身一人進行了歷史上對於人類基因組數目的第一次計算。為何是1964年?又到底需要多少基因才能創造位居萬物靈長的人類?
Vogel計算的第一個基石源於此前對於人類染色體重量的測量。Mirsky and Ris (1)通過實驗得出人類單倍體的染色體大小為2.72 × 10?12g。綜合其他實驗結果,為簡明,Vogel選擇了3 x 10-12g作為人類單倍體基因組的重量。已知一對核苷酸的質量為1.026 x 10-21g(GC對和AT對相差甚微),據此Vogel估算人類基因組的大小為30億個鹼基對——這一估算與今天的測序結果驚人接近。
Vogel的第二個基礎來自上世紀60年代初對血紅蛋白(hemoglobin)的alpha和beta亞基的氨基酸序列的破解,結果表明它們分別有141和146個氨基酸。Vogel認為,根據斯韋德貝里法則(Svedberg"s law),許多蛋白是多亞基(multi-subunit)結構,每個亞基的分子量大約是17500KDa。而如果20種氨基酸的平均分子量為128KDa,則可以計算出每個蛋白的長度大約為150個氨基酸——這也是Vogel計算的第一個基本假設。當時,克里克等人剛剛提出了密碼子(codon)的規則(2),人們知道一個氨基酸由DNA上的三個鹼基編碼。綜上,Vogel計算出編碼一個人的蛋白大致需要450鹼基。這一數目在今天看來,儘管是低估了,但也過得去。Vogel引用的斯韋德貝里法則的冠名者斯韋德貝里,是大名鼎鼎的膠體理論學家、1926年諾貝爾化學獎得主,大概該結果也代表了當時人類的最高認知水平吧。
如果到此為止,Vogel的這篇文章可以說是沒有什麼破綻的,但大概也不會入Nature挑剔的編輯和審稿人的法眼。為計算人類基因的總數,Vogel進一步作了下面兩假設:一是編碼每個基因的序列都是連續的,二是人類基因組從頭至尾全都是編碼蛋白的序列(也就是不存在所謂的非編碼區)。於是,Vogel得出了人類基因組含有6.7x106個基因的結論。
這一在今天看起來有些滑稽的結果在當年確是合理且引人入勝的。要知道,Vogel做出得一結果的時候距離Sharp和Roberts發現內含子尚有13年之久,且人類對於基因組中非編碼區更是一無所知。總之,這些因素,都嚴重影響了Vogel的計算,導致其極其嚴重高地估了基因數目。
人類基因組的注釋著極為重要的意義,對包括外顯子測序(更多內容請看外顯子測序課程),GWAS,醫學研究,進化及群體遺傳分析等在內的領域都有重要價值。對人類基因組基因數目的估算也在接下來的幾十年間令各國學者趨之若鶩。
1990年,來自美國國家健康中心(NIH)和美國能源部(DOE)的在人類基因組項目報告中進行了另一次計算,作者認為每個基因的長度大概是3萬個鹼基對,且認為非編碼區的長度可以忽略。最終,作者們得到的結論是10萬個基因。
後面,又有多篇paper對人類基因組的數目進行計算,結果大概是5萬-10萬個基因之間(3-5)。2000年6月,來自TIGR(The Institute for Genomic Research)的幾位科學家通過對於EST序列的分析和新演算法的設計,將這一數字提高到了12萬(6)。殊不知,這也是人類對於自己基因數目的最後一次超過10萬的估計。僅半年後,這篇文章的作者們就扇了自己的臉——但沒刪自己的論文——他們通過correction的形式修改了自己的結論,將預測結果縮小到56,960 ~ 81,273。
2001年,人類基因組測序——生物界的阿波羅登月計劃——在激烈的競爭和全世界人民的關注下完成。之所以有競爭,是因為有兩家團隊獨立地展開了對人類基因組的測序。一支是包括我國學者在內來自六個國家的國際合作項目,他們發表在Nature上的文章預測人類基因組含有3萬~4萬個基因(7)。另一邊廂,特立獨行的科學狂人克雷格·文特爾(J. Craig Ventor)由於所提出的鳥槍法(shotgun)思路不被國際合作組織採納,乾脆另立門戶於1998年成立賽雷拉公司(Celera Genomics)槍挑六國聯軍,並迎頭趕上(文章同時刊發在Science上),最後得到的人類基因組大小為26,588「高可信度」(筆者注)加~12000弱支持度(week supporting evidence)基因。這兩個結果,無論哪一個,都讓人類對自己基因數目有了重新認識:它遠比人類早前的想像要小。
2004年,國際合作團隊對人類基因組序列進行了一次重要更新,將自己之前的預測由3-4萬縮小到2-2.5萬(8)。人們驚訝地發現,自己的基因竟然少過當時剛剛完成測序的模式植物、擬南芥(Arabidopsis thaliana)——一種連運動功能都不具備的野草,也同分類學上被人類歸為低等動物、大小僅1-2毫米的秀麗隱桿線蟲(Caenorhabditis elegans)相差不多。生物學家曾經認為生物的複雜性和基因數目成正比,但在如山的鐵證面前,自詡為萬物靈長的人類要改變下自己的思維了。
後來的研究將人的基因數繼續縮小。2009年,人類對於自己的認識達到了最為「謙卑」的狀態(9)——Mammalian Gene Collection團隊稱人類基因組只有18877個基因(10)。不過好在到2017年底,NCBI的refseq資料庫中的最新版本的人類基因組注釋還是讓人基因組的基因數目突破了20000大關(20,054個蛋白編碼基因)。而在另一家常用的資料庫Gencode里,注釋了19817個基因(11)。
5月29日,享有Bowtie之父美譽的著名生物信息學家Steven Salzberg在bioRxiv生物學預印本伺服器上發布了自己團隊的最新成果:通過對9,795個RNA-seq實驗結果的整合、分析,對人類基因組進行了重新的注釋。這項成果實際上也是GTEx項目Genotype-Tissue Expression Project)的一個組成部分。
Btw:Salzberg,這位來自約翰霍普金斯大學的科學家是開放科學(open science)的忠實擁躉,近期就有大量manuscript投放到bioRxiv上,這一點在生信人早前的文章里也有報道(水熊蟲基因組烏龍事件的意義)。
作者採用的分析方法如下圖所示,其中用到的好幾個軟體都打著「Made in Salzberg Lab」的標籤。
圖片來自(11),版權CC-BY4.0
作者首先對收集得到的近10000個RNA-seq樣本進行轉錄組組裝,得到了30,467,424個轉錄本(transcript)。作者用一些列條件定義了protein coding gene,包括TPM閾值,ORF長度、在其他生物種有無BLAST hit等。通過和目前人類基因組注釋的比較,作者發現了1,178個新的蛋白基因。加上和Refseq有overlap的轉錄本,作者們最終得到21,232個編碼蛋白質的基因。作者們接下來對refseq裡面注釋的15,779個長非編碼RNA(lncRNA)進行了「質量檢驗」。作者進行了ORF預測,截取含有較長ORF的lncRNA基因,對它們在其他物種中進行BLAST搜索,如果達到一定標準(E-value of 10-15,75% length)則認為是潛在的protein coding gene。又經過其他一些檢測之後,作者最終得到了21306個編碼蛋白質的基因。
對沒有比對到編碼蛋白基因的轉錄本,作者把它們歸為非編碼RNA。作者找到了3,819個lncRNA基因位點(gene locus)。其中,超過三分之一是反義(antisense)轉錄本,很多來自內含子。把這些lncRNA和之前發現的lncRNA加起來,作者最終得到18,484個lncRNA。再加上其他各種非編碼RNA,最終非編碼RNA的總數是21856。
作者還分析了可變剪切的情況。每個蛋白基因平均含12.5個isoform,而lncRNA只有2.6個。
藉助來自不同組織器官的豐富的RNA-seq樣本,作者用DESeq2對基因的表達情況進行了分析。Breast成為protein-coding gene男女差異最大的器官。
圖片來自(11),CC-BY4.0
而testis則擁有最多上調錶達的編碼蛋白的基因。
圖片來自(11),CC-BY4.0
最後,需要說明的是,基因的定義是有爭議的話題。人們起初認為能表達的就是基因,但後來的轉錄組學揭示了廣泛的非編碼區轉錄現象,而其中的很多轉錄本可能只是轉錄雜訊(transcription noise)。這篇preprint里,作者們以轉錄證據為起點並試圖去除這些雜訊轉錄本,再結合進化證據,也就是說基因要在不同物種中有一定保守性,且在不通個體中都可以看到轉錄(作者稱為reproductivity)。基於以上三點,作者在已有的基因組注釋的基礎上對人類基因組進行了新的注釋。
雖然關於人類到底有多少(編碼蛋白)基因的爭論可以說暫告段落,但科學家們還在對更多與此相關的問題進行著火熱的研究。一方面,RNA科學家雄心勃勃地拓展著lncRNA的版圖;而另一方面,對於已知基因功能的解讀還有漫漫長路。
圖片來源:https://study.com/academy/lesson/what-are-genes-definition-types-function.html
引文
1.Mirsky AE, Ris H. The desoxyribonucleic acid content of animal cells and its evolutionary significance. J Gen Physiol. 1951;34(4):451-62.
2.Crick FH, Barnett L, Brenner S, Watts-Tobin RJ. General nature of the genetic code for proteins. Nature. 1961;192:1227-32.
3.Schuler GD, Boguski MS, Stewart EA, Stein LD, Gyapay G, Rice K, et al. A gene map of the human genome. Science. 1996;274(5287):540-6.
4.Antequera F, Bird A. Predicting the Total Number Of Human Genes. Nature Genet. 1994;8(2):114-.
5.Fields C, Adams MD, White O, Venter JC. How Many Genes In the Human Genome. Nature Genet. 1994;7(3):345-6.
6.Liang F, Holt I, Pertea G, Karamycheva S, Salzberg SL, Quackenbush J. Gene Index analysis of the human genome estimates approximately 120,000 genes. Nature Genet. 2000;25(2):239-40.
7.Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, et al. Initial sequencing and analysis of the human genome. Nature. 2001;409(6822):860-921.
8.Consortium EP. The ENCODE (ENCyclopedia Of DNA Elements) Project. Science. 2004;306(5696):636-40.
9.Pertea M, Salzberg SL. Between a chicken and a grape: estimating the number of human genes. Genome Biol. 2010;11(5).
10.Team MGCP, Temple G, Gerhard DS, Rasooly R, Feingold EA, Good PJ, et al. The completion of the Mammalian Gene Collection (MGC). Genome Res. 2009;19(12):2324-33.
11.Pertea M, Shumate A, Pertea G, Varabyou A, Chang Y-C, Madugundu AK, et al. Thousands of large-scale RNA sequencing experiments yield a comprehensive new human gene list and reveal extensive transcriptional noise. bioRxiv. 2018.
TAG:生信人 |