當前位置:
首頁 > 最新 > DNA元件百科全書計劃,專註解譯基因組裡的「暗物質」

DNA元件百科全書計劃,專註解譯基因組裡的「暗物質」

人類基因組計劃完成之後,人們驚奇的發現,能夠編碼蛋白質的基因只佔全部基因組序列的不到2%,其餘超過98%的基因組序列被稱為「垃圾序列」或者基因組裡的「暗物質」。然而,這些序列的結構和功能正逐步被ENCODE計劃解析。

於2003年啟動的The Encyclopedia of DNA Elements(ENCODE;DNA百科全書計劃)計劃,目的在於對人類基因組進行更為全面而詳細的結構、功能和調節的注釋。經過10多年的研究,科學家發現在人類基因組中的許多DNA片段可以通過各種方式發揮他們各自的功能。DNA序列除了可以編碼蛋白質之外還可以結合蛋白質影響基因的活性;轉錄出RNA行使各種功能;又或者作為各種化學修飾物的底物起到基因沉默的作用等。ENCODE計劃由美國美國國立衛生研究院資助,產生的數據全部公開發布供全球科學家使用,至今已經發布了1萬多套數據。

ENCODE計劃分期展開,目前已經進行到第四期的研究。ENCODE項目組不僅生成高質量的數據,還整合分析注釋這些數據,並提供搜索和可視化這些注釋結果的工具。ENCODE項目組對數據的注釋分析分為兩種級別,一種為直接分析實驗產生的數據的基本分析,主要是單一種類數據的流程性處理;一種為整合多種實驗數據的整合性分析注釋。而整合性分析注釋的核心工作是候選順勢調控元件(candidate cis-regulatory elements,ccREs)的登記註冊(the Registry of candidate cis-regulatory elements),該工作是由麻省大學醫學院翁志萍教授帶領的團隊完成的。翁教授自2011年起擔任ENCODE計劃數據分析工作組聯合主席。2018年6月29日,翁教授受邀到中國科學院北京基因組研究所主講GPB傑出學者論壇,向大家匯總介紹了ENCODE計劃第三期數據分析工作的成果。

翁教授及其團隊,主要利用DNase-seq和組蛋白甲基化(H3K4me3)、組蛋白乙醯化(H3K27ac)、CTCF ChIP-seq四類數據來鑒定ccREs。DNase-seq數據用於表示染色體是否處於開放狀態,處於開放狀態的區域被稱作DNase酶高敏位點(DHSs)。以該數據為基礎,在所有細胞系中根據DHS信號強度,挑選出代表性DHSs(representative DHSs, rDHSs)。如果rDHSs上同時存在H3K4me3、H3K27ac、CTCF三者當中至少一種信號的話,則被稱之為ccRE。通過建立註冊資源庫(registry of ccREs)的方式,研究歸納ccREs,賦予每一個ccRE唯一的編號,方便不同實驗室之間研究結果的比較。根據H3K4me3、H3K27ac、CTCF所代表的功能,將ccREs分為啟動子、增強子、絕緣子三大類。使用這種方法,他們將ccREs分為所有細胞類型中共有的具有啟動子功能,增強子功能,和CTCF結合的絕緣子功能的候選調控元件。對於每種特定的細胞類型,鑒定出細胞特異性的三類調控元件。目前在人類基因組序列當中共鑒定出131 萬個ccREs(約佔整個基因組的20%),在小鼠中鑒定出43 萬個ccREs,有21種人類(11種小鼠)細胞類型具有完整的細胞特異性ccRE分類。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 中國科技網 的精彩文章:

足球里的道道知多少 聊聊歷屆世界盃上的文化與科技

TAG:中國科技網 |