當前位置:
首頁 > 知識 > 設計繪製染色體複雜構象的工具

設計繪製染色體複雜構象的工具

設計繪製染色體複雜構象的工具

受Google Maps的啟發,研究人員可以使用一套工具去繪製染色體的複雜構象。

染色體的功能遠不止保持DNA整齊有序。這種基因組DNA和蛋白質組成的複合物有許多不同的結構和構象,這些結構和構象可能會影響包裹在其周圍的基因的表達。在某些構象中,線性DNA中相距較遠的兩個序列可能實際上非常靠近,並影響彼此的活動;而在其它形式中,這兩個序列可能相距甚遠。

Erez Aiden是劍橋麻省理工學院(Massachusetts Institute of Technology)的研究生,他與其他人共同開發了一種名為Hi-C的技術。該技術首次在基因組水平上揭示了染色體的摺疊方式。Hi-C不僅詳細描述了影響基因表達的DNA環和結構域,甚至還能將複雜的基因組拼接在一起。雖然以2D矩陣呈現的數據詳細記錄了染色質的交互信息,但在2009年的當時,Aiden還沒能找到一種簡單的方法,以探索這些空間構象。所以,他自己開發了一種技術。

據Aiden回憶,當時他只能列印出多個解析度的Hi-C矩陣,這需要用到上百張紙。他還找來最大的會議桌,把列印的所有矩陣都擺放上去,以查看大規模的空間構象。Aiden認為這是一個很好的界面。不過,他也承認,他需要一種更環保的、可持續和共享的方法來觀察染色體構象。

最後他開發了Juicebox,一個基於Java的桌面應用程序。它可以提供Google Maps樣式的染色質交互數據探索,允許研究人員從基因組水平放大或縮小來觀察結構特徵。

Aiden指出,2014年發布的Juicebox大約被下載了14000次,今年推出了一個基於瀏覽器的版本。Juicebox只是一系列探索2D基因組交互數據的免費程序中的一個:一些程序專註於相對狹窄的染色體位點,而另一些則可以進行基因組探索。其中部分程序重點關注由2D矩陣推斷3D結構。這些程序反映了染色質相互作用數據集的日益增長。事實上,4D核組項目(4D Nucleome Project)這樣的大項目更是大規模地促進了染色體交互數據集的爆炸式增長。

馬薩諸塞州波士頓哈佛醫學院(Harvard Medical School)生物信息學家Peter Park指出,因為[數據]變得如此複雜,所以可視化變得尤為重要。

加州大學聖克魯斯分校(The University of California, Santa Cruz, UCSC)開發的Genome Browsers是最受歡迎的探索基因組數據的門戶之一。像大多數基因組瀏覽器一樣,它將序列數據呈現為一維「軌跡」,顯示為表觀遺傳特徵(如組蛋白修飾和甲基化位點)的線性字元陣列。

然而,Hi-C生成的是2D矩陣。該技術鑒定了線性DNA序列中相距很遠,但在3D空間中鄰近的序列。據Aiden解釋,如果你關注基因組中的兩個位置,矩陣會告訴你這兩者之間彼此接觸的頻率。通常,這些數據被轉化為熱圖,而顏色強度則反映了兩點之間的相互作用頻率。

Aiden等人,包括加利福尼亞大學聖地亞哥分校(University of California, San Diego, UCSD)的James Robinson從Google地圖中獲得靈感。Robinson表示,有了Google地圖,用戶就可以從全球視圖無縫切換到街道級視圖。這樣一來,整個數據集是非常巨大的,但Google並沒有一次性提供所有數據。相反,軟體「將世界劃分成不同解析度的瓦片」。在任何一個時間內,用戶只能查看少量的瓦片。這些瓦片被組織起來,使相鄰的瓦片更易被獲取。他還指出,只要你能夠快速地找到4個人,你就可以得到一個互動式的地圖。

類似地,Juicebox的「hic」文件以多種解析度存儲每個可能的染色體對的預先計算的圖塊集。軟體的查詢表可以直接檢索數據,無需搜索,從而加快訪問速度。因此,Juicebox用戶可以無縫探索整個基因組的交互作用,然後放大以查看精細的功能。

用戶可以訪問Aiden實驗室公開提供的數百個預先計算的基因組接觸地圖中的任何一個,或查看自己的數據。他們將自己的數據或公共資料庫得到的數據與Aiden實驗室提供的標準數據(例如基因位置或組蛋白標記)進行比對。例如,DNA結合蛋白CTCF的結合位點,與染色體環高度相關。用戶可以標記和記錄感興趣的特徵。


基因組同步

今年3月,哈佛醫學院(Harvard Medical School)的生物醫學信息學家Nils Gehlenborg開發了基於網路的2D基因組交互可視化工具——HiGlass,它也提供了類似Google地圖的體驗。 與Juicebox一樣,在HiGlass中,研究人員可以導入基因組軌跡來幫助他們了解所看到的內容。此外,HiGlass還允許用戶在一個瀏覽器窗口中打開多個HiGlass視圖,並將它們同步起來,以使它們始終顯示相同的區域。這樣,Gehlenborg指出,研究人員就可以比較不同條件或實驗中的染色體構象了。他還表示,他們為研究者和分析師提供了新猜想的靈感。(Aiden提到,基於瀏覽器的Juicebox版本還允許每個窗口同步多個視圖,桌面Juicebox應用程序的用戶可以跨不同的窗口同步視圖,但不能在單一視圖中進行同步)。

Gehlenborg的團隊已經建立了一個HiGlass伺服器,以挖掘公開的數據。需要分析自定義數據集的研究人員必須在本地安裝該軟體,Gehlenborg團隊為此提供了一個Docker容器。

Juicebox的Web版本和HiGlass都允許用戶創建可分享的URL,指向數據的特定視圖——Aiden把這個功能稱為軟體的「殺手級應用」。他認為,如果用戶注意到基因組結構與特定的1D軌道完全重疊,那麼點擊那個URL,複製它,就可以推送它了。所有接收到該分享的人都可以點擊它,隨後便會得到與分享者軟體相同的參數設置(即參數重用——點開的人,可以看到和分享者同樣的視圖)。

另外兩個可視化軟體——3D基因組瀏覽器(3D Genome Browser)和WashU EpiGenome瀏覽器(WashU EpiGenome Browser)均能提供更多的本地化視圖。用戶可以選擇感興趣的區域,瀏覽器會顯示該區域的基因組交互信息。

Juicebox和HiGlass將熱圖映射成矩形的鏡像,而這些瀏覽器則將熱圖顯示為三角形。UCSD基因組生物學家Bing Ren指出,他們去掉了一半的冗餘信息。(WashU瀏覽器還可以將交互數據顯示為連接交互區域的弧線。)

這種變化可能聽起來不大,但根據賓州賓夕法尼亞州立大學(Pennsylvania State University)的Feng Yue(在博後期間,與Ren合作開發了他的首個3D Genome Browser原型)的研究,這種變化能讓研究人員更容易識別功能區域。例如,3D基因組瀏覽器允許其用戶將來自兩個物種的熱圖相疊,以評估摺疊體系結構的進化保守。這種「虛擬4C」(virtual-4C)模式允許用戶查詢與特定基因組位點相互作用的序列的Hi-C數據集,從而方便研究者觀察基因調控區域之間的相互作用。

另一個非常好用的基因組交互可視化軟體是由UCSD的Sheng Zhong等人開發的GIVE。GIVE允許研究人員使用幾行HTML代碼,將完整功能的基因組瀏覽器(包括2D交互數據查看器)納入其個人或實驗室網頁。Zhong指出,研究人員可以與同事分享數據,發表文章時也可以附上鏈接,整個操作時間大約為20分鐘。

義大利米蘭FIRC分子腫瘤學研究所(FIRC Institute of Molecular Oncology)的計算生物學家Francesco Ferrari使用R編程語言和Bioconductor軟體庫來顯示他的Hi-C數據。這些基於文本的程序缺乏其它軟體的交互性,但是由於該團隊一直都是使用R和Bioconductor進行數據分析,所以據Ferrari指出,這樣更方便。Bioconductor包HiTC以及Python library HiCPlotter均提供了Hi-C可視化工具。

實現3D

最終,2D互動矩陣可以提示3D結構。畢竟,如果兩個區域相互作用,它們可能距離非常接近。越來越多的研究人員正在使用他們的2D數據來直接計算和可視化3D結構。

CsillaVárnai是英國劍橋Babraham研究所(Babraham Institute)的博士後,他參與了今年早些時候單細胞Hi-C研究的3D模型構建工作(http://dx.doi.org/10.1038/nature23001)。她使用一個名為Gromacs的通用分子建模包來將染色體模擬成一條串珠——每個珠代表約10萬個鹼基——然後將串珠進行摺疊,而Hi-C的交互數據則是摺疊時的「約束條件」。

某些軟體則專門被設計用於染色體結構的建模。由奧斯陸大學(University of Oslo)的生物信息學家Jonas Paulsen開發的Chrom3D軟體將Hi-C數據與核包膜距離的信息相結合,以模擬染色體在細胞核中的位置。據Paulsen解釋,這對基因調控來說非常重要。核外圍附近的基因傾向於被抑制,而更位於中心的基因通常是有活性的。MarcMartí-Renom和西班牙巴塞羅那基因組調控中心基因組分析中心(National Center for Genomic Analysis–Center for Genomic Regulation)的Mike Goodstadt開發了另一個3D工具——TADkit。TADkit允許用戶在相應的2D熱圖和1D軌跡旁邊查看3D染色體模型。只要選中一個視圖中的一個特徵,那麼軟體就會自動高亮其它試圖中的同一特徵。(歡迎關注Science微信號:bioeg_cn)

由於大多數Hi-C數據集包含數百萬個細胞,到底3D視圖比2D視圖能多提供哪些信息還有待觀察。麻省理工學院(Massachusetts Institute of Technology)的生物信息學家Leonid Mirny打了個比方,你拍了一堆人的照片,然後將它們平均化,最後得到的照片會跟誰都不像。3D視圖可能也會存在這種問題。Zhong指出,目前還不清楚哪個工具(如果有的話)將成為基因組可視化的金標準,現在這方面的爭論已經很激烈了。

Ren正常,對於基因組生物學來說,可視化是關鍵因素。據他解釋,分析工具是在統計數據的基礎上設計而成的。有時候它們會錯過一些東西,有時它們會推斷出一些壓根不存在的功能。因此,科學家還是要謹慎,自己檢查分析數據非常重要。

來源:生命奧秘/張潔

原文檢索:

Jeffrey M. Perkel. (2017) Plot a course through the genome. Nature, 549 (7670): 117-118.

Science為生物易構旗下媒體平台,歡迎關注我們的微博:生物易構

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Science 的精彩文章:

海歸博士4年成功研發 世界領先癌症抑製劑
能夠「肇事逃逸」的CAR-T療法
中國散裂中子源工程主體完工:中國人有了自己的「超級顯微鏡」
你的導師都快被你坑慘了

TAG:Science |