當前位置:
首頁 > 最新 > 重磅!人類環形RNA資料庫 circBank正式上線

重磅!人類環形RNA資料庫 circBank正式上線

圖1 circBank資料庫首頁

資料庫總體情況

circBank資料庫共收錄了140790條人類circRNA的記錄,每一條circRNA記錄都單獨做了一個詳細信息的頁面。針對每個circRNA的信息主要包括:該circRNA的詳細序列;在小鼠中同源性較高的circRNA及其對應的序列;miRNA結合的預測分析;ORF預測分析;COSMIC記錄的突變和多態性位點匯總;m6A修飾信息。由於miRNA預測的結合位點數據比較龐大,因此單獨做了一個展示的頁面,頁面中的記錄按照打分高低的順序列出。

circBank資料庫還專門開發了一套專用的ID號。相信眾位同行一定會有個苦惱的問題,就是目前circRNA的命名太混亂了,直接用Host gene的名字也不很妥當,因為每個基因所對應的circRNA太多了。circBase的ID號雖然應用比較廣泛,但這個號碼的信息量太少,很難記住更不利於口頭交流。有鑒於此,我們開發了一個全新的ID號,該ID號基於對應的Host gene的名字和所對應的位置,具體的規則下面有詳述。

circBank資料庫提供了多種檢索窗口,可以直接在首頁中輸入相應信息後實現快速檢索,也可以在 「circRNA」和「miRNA」兩個菜單中分別進行高級檢索。為了方便同行交流,資料庫也開闢了數據上傳的窗口,歡迎同行們給資料庫上傳所發現的新的circRNA,我們將會有針對性的對資料庫版本進行更新。

如何在circBank中檢索?

circBank資料庫給出了多個檢索的渠道。包括首頁的快速檢索,「circRNA」和「miRNA」兩個菜單中的高級檢索。

首頁的快速檢索窗口可以通過circBank ID號,circBase資料庫的ID號以及Host gene的Symbol或Ref-seq number進行快速檢索。以HIPK3為例,首頁的快速檢索可以用如下的格式進行檢索:「has_circHIPK3_001」、「has_circ_0021592」、「HIPK3」、「NM_005734」四種格式進行檢索。

在circRNA檢索菜單,可以通過基因名稱(Gene Symbol)、circBank ID、cirBase ID等關鍵詞分別檢索。與此同時,還可以設置保守性、m6A修飾及ORF預測等過濾條件。

圖2 circRNA高級檢索窗口

在「miRNA」檢索菜單下,可以通過miRNA ID、circBank ID、cirBase ID等關鍵詞分別檢索。也可以設置保守性、m6A修飾及ORF預測等過濾條件。

圖3 miRNA高級檢索窗口

單個circRNA記錄頁的信息有哪些?

以HIPK3為例,通過檢索窗口可以得到如下的結果:

圖4 HIPK3檢索頁面

檢索結果顯示,資料庫共收錄了20條HIPK3相關的circRNA記錄。顯示藍色的部分點擊之後會連接進入對應的頁面。以「hsa_circHIPK3_004」為例,左側「hsa_circHIPK3_004」的地方會跳至該circRNA的信息頁面:

圖5 circHIPK3_004信息頁面

可以分別看到該circRNA的詳細序列,小鼠中保守的circRNA和對應的序列,ORF預測打分的情況,COSMIC收錄的突變和多態性信息,m6A修飾的信息。

如果點擊檢索頁面中每一行對應的miRNA的藍色標誌,會跳至該circRNA預測分析所得的miRNA結合的情況。

圖6 hsa_circHIPK3_004預測miRNA的情況

對應於hsa_circHIPK3_004,一共預測到97種可能結合的miRNA分子,排列的順序按照Miranda和targetscan工具打分的情況,打分高的靠前排列。結合保守性,ORF,突變信息及m6A修飾等信息,方便使用者快速鎖定更有價值的分子。

circBank資料庫還給出了直接用miRNA ID進行檢索的功能,可以分析感興趣的miRNA可能結合哪些circRNA分子。以hsa-miR-1283為例,檢索結果如下:

圖7 miRNA ID檢索結果

circBank中circRNA的ID號規則是怎樣的?

我們在circBank資料庫中針對每個circRNA分子構建了全新的ID號,該ID號的格式如下:

hsa_circA_001

其中「hsa」是人類來源的意思,circA代表了從「A」基因來源的circRNA,末尾的數字是根據該circRNA在Host gene中對應的位置排序得到的。還是以HIPK3基因為例,該基因對應的circRNA記錄共有20條,前面的名稱都是「hsa_circHIPK3_xxx」,最後的三位數是依據所有circRNA在HIPK3基因中對應的位置排序得到的,排序的規則是:先看起始位點,再看終止位點。起始位點越靠近前端(5』端)的排血越靠前,起點一致的看終止位點,終止位點越靠前的排序越靠前。示意圖如下圖:

圖8 circBank ID號生成規則概述

如果起始位點和終止位點一致的,可以認為是可變剪切的情況,命名規則為在上述ID的基礎上增加一層編號,編號的原則按照可變剪切的大小,長度越短的編號越小。可變剪切編號格式如下:

hsa_circA_001_V01

所有circRNA的ID號在正式公布的資料庫中永久不變。這樣就存在一個後面發現的circRNA的ID號會跟已有的ID號衝突的問題,解決的辦法是新錄入的circRNA一定要在原有編號的基礎上增加,新增的circRNA的ID號也按照相同的規則依次排列,一旦正式更新資料庫後就確定下來,不再變更。

針對沒有mapping到已知基因(包括lncRNA)的circRNA記錄,根據在標準基因組中的參考坐標從小到大排列,命名格式暫用所在的染色體代替gene symbol。格式如下:

hsa_circChrom1_001

對於融合基因的circRNA,對應的gene symbol由融合後基因的名稱取代,如來源於BCR-Abl融合基因的circRNA如果不是跨越融合位點的,按照各自host gene編號,跨越融合位點的按照「hsa_circBCRAbl_001」的格式編號,其他規則同前。

circBank資料庫的維護和數據上傳

為方便同行的交流,適應不斷發展的circRNA研究進展,我們會針對新發表或用戶上傳的數據進行數據更新。資料庫的日常維護由廣州密碼子基因科技有限公司承擔,數據上傳後也由相關的工作人員進行數據的整理。

關於密碼子

廣州密碼子基因科技有限公司,致力於液體活檢領域核酸提取純化產品研發與生產、疾病早期篩查與診斷產品開發,產品涵蓋體外診斷、高通量測序和生命科學研究等領域。公司成立於2016年9月,位於廣州開發區科學城,依託國家級廣州經濟開發區的區位輻射優勢,以液體檢驗、基因大數據和人工智慧為核心技術驅動,開發更精準的疾病篩查和診斷產品。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 小宋的地盤 的精彩文章:

TAG:小宋的地盤 |