當前位置:
首頁 > 知識 > GSA和BIGD填補我國生物信息資源服務的空白

GSA和BIGD填補我國生物信息資源服務的空白

Genomics, Proteomics and Bioinformatics期刊2017年第一期在線發表了一篇資料庫相關論文「基因組序列歸檔庫」(Genome Sequence Archive,簡稱GSA)。作者來自中國科學院北京基因組研究所大數據中心(BIG Data Center, Beijing Institute of Genomics,簡稱BIGD),文中對他們開發的 GSA 平台作了簡要介紹。該平台旨在收集、整合和發布國內外用戶遞交的原始序列數據。GSA 項目是基因組所大數據中心正在進行的幾個主要研究開發項目之一,該中心由近50位年輕的生物信息學研究開發人員組成。除 GSA 項目外,還開展了多項面向生物信息資源服務的課題。


最近半個多世紀以來,分子生物學取得了長足的進展。DNA 雙螺旋的發現、遺傳密碼的破解、中心法則的提出,為分子生物學研究奠定了堅實的理論基礎。與此同時,費雷德里克·桑格(Frederick Sanger)等先後建立了蛋白質、tRNA 和 DNA 序列測定方法,約翰·肯德魯(John Kendrew)和馬克斯·佩魯茨(Max Perutz)解決了X-射線晶體衍射解析蛋白質三維空間結構的難題。這些開拓性的研究,為日後分子生物學數據積累提供了必不可少的技術儲備。


蛋白質序列資料庫

最早從事蛋白質序列收集的是美國國家生物醫學研究基金會(National Biomedical Research Foundation,簡稱NBRF)的生物信息學先驅瑪格蕾特·戴霍芙(Margaret Dayhoff)博士(https://en.wikipedia.org/wiki/Margaret_Oakley_Dayhoff)。1965年,她把當時能收集到的65個蛋白質信息編纂成冊,並以《蛋白質序列和結構圖冊》(Atlas of protein sequence and structure)為名公開發表,並在以後的幾年中不斷更新再版。這就是國際上第一個蛋白質序列資料庫「蛋白質信息資源」(Protein Information Resource,簡稱PIR)的雛形。基於收集到的蛋白質家族序列,戴霍芙構建了氨基酸替換計分矩陣 PAM,至今仍廣泛用於序列比對和資料庫相似性搜索。PIR 於1984年正式上線,用戶可通過電話網路進行查詢。兩年後,瑞士日內瓦大學在讀研究生埃姆斯·貝洛克(Amos Bairoch)開始對蛋白質序列進行人工注釋(https://en.wikipedia.org/wiki/Amos_Bairoch),為每個序列條目添加功能和相關文獻等信息,並在此基礎上創建了著名的「瑞士蛋白質序列資料庫」(Swiss-Prot)。


蛋白質結構資料庫


第一個蛋白質結構資料庫(Protein Data Bank,簡稱PDB)創建於1971年。與蛋白質序列資料庫分別誕生於美國和歐洲不同,PDB的建立是歐美兩國合作者共同努力的結果。1971年,英國劍橋晶體學數據中心(Crystallographic Data Center)和美國布魯克海文國家實驗室(Brookhaven National Laboratory)在《自然:新生物學》(Nature: New Biology)發布短訊,宣告該資料庫系統開始運行。雙方各自保存相同的數據文件,並免費向用戶發布。1998年,美國結構生物信息學研究協作組(Research Collaboratory for Structural Bioinformatics,簡稱RSCB)成立,負責蛋白質結構資料庫運行,稱 RSCB PDB。


核酸序列資料庫

70年代末,由桑格等建立的 DNA 測序方法日趨成熟,核酸序列開始累積。歐美各國有識之士敏銳地意識到,大規模測序很快就會到來,建立核酸序列資料庫的任務已經提上議事日程。1979年,美國能源部下屬洛斯阿拉莫斯國家實驗室(Los Alamos National Laboratory)沃特·高德(Walter Goad)領導的計算生物學研究組開始利用計算機收集核酸序列,並開發序列分析計算機軟體,著名的序列局部比對 Smith-Waterman 演算法也因此應運而生。獲美國國立健康研究院(National Institute of Health,簡稱NIH)以及科學基金會(National Science Foundation,簡稱 NSF)、能源部(Department of Energy,簡稱DOE)和國防部(Department of Defense,簡稱DOD)等部門資助,核酸序列資料庫GenBank開始運行。就在同一年,位於德國海德堡的歐洲分子生物學實驗室(European Molecular Biology Laboratory,簡稱EMBL)發布了歐洲版的核酸序列資料庫 EMBL-Bank(有時也簡稱EMBL)。


美國國家生物技術信息中心NCBI


八十年代中後期,核酸、蛋白質序列和蛋白質結構資料庫已經積累了相當可觀的數據,而基於中小型和微型計算機的序列和結構分析軟體也不斷湧現。與此同時,由美國科學基金會資助的為科研教育服務的計算機網路NSFNet也開始投入使用。1988年11月,由已故參議員克勞德·裴帕爾(Claude Pepper)提議,位於美國首都華盛頓北郊的美國國家生物技術信息中心(National Center for Biotechnology Information,簡稱NCBI)成立。NCBI 隸屬美國國家醫學圖書館(National Library of Medicine,簡稱NLM),而 NLM 則是 NIH 的一個下屬機構。NCBI 成立初期,僅8名人員,經過近30年的建設,NCBI 已發展成國際上最大的生物信息中心,著名的資料庫搜索軟體 BLAST 主要開發者之一大衛·李普曼(David Lipman)擔任主任至今。NCBI 擁有上百個資料庫和軟體工具,包括著名的生物醫學文獻摘要資料庫 PubMed、參考序列資料庫 RefSeq、資料庫相似性搜索軟體 BLAST 等。1989年,核酸序列資料庫 GenBank 也由 NCBI 接管。


歐洲生物信息學研究所EBI


歐洲生物信息學研究所成立於1994年,坐落在英國劍橋南部12英里維康基金會(Wellcome Trust)基因組園區內。EBI 是 EMBL 的一個下屬單位,主要經費來自歐盟,研究人員主要來自西歐各國。經過20多年的建設,EBI 已經成為僅次於 NCBI 的國際生物信息中心,為歐洲各國和世界各地用戶提供生物信息資源服務,並從事生物信息研究開發。除核酸序列資料庫 EMBL 外,EBI 還有許多特色資料庫,如基因組資料庫 ENSEMBL、蛋白質家族和結構域資料庫 InterPro、基因本體資料庫 Gene Ontology 等。

三大國際資料庫聯盟


由美國政府部門資助的國家級生物信息中心 NCBI 和由歐盟資助的生物信息機構 EBI 的成立,為生物信息資源服務提供了人員和經費保障,促成了國際資料庫聯盟的建立。2003年,EBI的蛋白質結構資料庫 PDBe,日本蛋白質結構資料庫 PDBj 和美國蛋白質結構資料庫 RSCB PDB 共同組成國際蛋白質結構資料庫聯盟 wwPDB(http://www.wwpdb.org/)。2005年,NCBI、EBI 和1987年成立的日本核酸序列資料庫 DDBJ 達成協議,建立國際核酸序列資料庫聯盟(International Nucleotide Sequence Database Collaboration,簡稱INSDC,http://www.insdc.org/)。同年,EBI 的 TrEMBL 與 Swiss-Prot 和 PIR 一起,組成了國際上統一的蛋白質序列資料庫 UniProt(http://www.uniprot.org/)。其中,TrEMBL 是核酸序列資料庫 EMBL 中的編碼區翻譯所得的蛋白質序列。


互聯網誕生和大數據時代到來


20世紀90年代誕生的國際互連網,標誌著信息時代的到來。正如諾貝爾獎獲得者沃特·吉爾伯特(Walter Gilbert)於1991年1月發表在 Nature 上的卓有遠見的文章中指出的那樣,「我們必須把各自的個人電腦接入全球互聯網,以便充分利用日新月異的資料庫資源,並通過網路進行直接交流」。他明確指出,生命科學研究面臨著一個模式的改變。十年後的2001年2月,由政府資助的人類基因組計劃(Human Genome Project,簡稱HGP) 協作組和美國 Celera 公司分別發布了人類基因組草圖,標誌著基因組學研究進入了一個新階段。得益於高通量、低成本的新一代測序技術的快速發展,數以萬計的基因組和宏基因組已經測定。根據基因組在線資料庫的統計數據,265,734個不同個體的基因組測序已經完成或正在進行(GOLD, https://gold.jgi.doe.gov/)。毋庸置疑,大數據革命將在未來幾年中極大地影響分子生物學研究,而數據收集和發布是必不可少的重要步驟。


GSA項目和基因組所大數據中心BIGD

值得慶幸的是,由中國科學院北京基因組研究所大數據中心 BIGD 開發的「基因組序列歸檔系統」 GSA 項目已經啟動。自2015年12月上線以來,國內39個研究機構近200個研究課題已經把他們的數據匯交到 GSA 平台。更加令人欣喜的是,該系統也得到了國際上的認可,美國科學院院報 PNAS 等多個期刊已經發表了匯交到 GSA 的學術論文。GSA 系統只是該大數據中心 BIGD 的主要項目之一 ,資料庫構建、基因組變異圖譜等其它多個項目也已經開始,其特色資料庫涵蓋了基因組、轉錄組、甲基化組等各個方面,而若干重要動植物的基因組變異資料庫也已經上線。此外,國際生物信息資料庫目錄(Database Common)、水稻信息資源維基(RiceWiki)等也是該中心開發的特色平台。


當然,BIGD 還剛剛建立,需要得到政府部門的資助和用戶群體的支持,才能不斷發展壯大,為建立我國國家級的生物信息中心奠定基礎。值得深思的是,BIGD 從事的公益性、服務性的工作,在目前國內「以學術論文論英雄、以影響因子排座次」的評價體系下,很難得到足夠重視,希望 BIGD 近50位年輕的生物信息研究開發人員要有「板凳坐得十年冷」的思想準備。在此,借用英國學者Alan Bleasby的話,聊以共勉:「I don』t think we can get a Nobel prize by what we are doing so, but the Nobel prize winners know what we are doing for」。

您的贊是小編持續努力的最大動力,動動手指贊一下吧!


本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 中科院之聲 的精彩文章:

科研人員利用器官晶元技術仿生構建動態三維血腦屏障模型
天宮二號空間應用系統有效載荷將全面在軌測試
一年中300天都在開花,說它勞模,不服來戰
優勢互補 強強聯合——搭建均相催化與多相催化的橋樑
陝西公王嶺藍田直立人內耳迷路研究獲進展

TAG:中科院之聲 |

您可能感興趣

蘋果加入AMOLED屏資源爭奪 擬投資LG子公司牽制三星
ASP.NET Core Web 資源打包與壓縮
欒娜:ONE TENCENT數字營銷 整合全生態資源
APP STORE和安卓市場上架資源徵集!
跨界,我只服TA!供應鏈上市公司5億元接盤TCL集團再生資源業務
微軟推出全新Azure IoT Edge雲服務:資源分配更智能
RAP資源應用平台
CBERS是中國和巴西聯合開發的資源衛星
NAS群暉DSM進階教程:保護硬碟 使用外接設備下載資源
ACG 以及愛情動作片資源網站 Nyaa 毫無預警的突然關閉
最新國際style效果圖資源包,滿滿的PSD乾貨!
PowerVM+PowerVC 看IBM Power Systems助力企業雲化資源管理
PS4與DMM合作增添海量VR資源 身臨其境看18X寫真
微軟攜Facebook推出開源AI資源分享平台ONNX
微軟發布工具與資源:助企業輕鬆遵循歐盟GDPR新規
TXT小說資源
ERP企業資源管理培訓
LIVALL Helmetphone榮獲環球資源分析師推薦!
美加Google Play影視區開始上線HDR資源