兩斤DNA裝下「全世界」
或許最多10年之後,沒有人會再相信磁帶儲存。圖片來源:Wes Fernandes
對於Nick Goldman來說,在DNA中編碼數據的想法始於一個笑話。
那是2011年2月16日,Glodman和一些生物信息學領域的朋友在德國漢堡聊天,話題是他們如何才能儲存全世界湧來的基因組序列和其他數據洪流。他記得當時談話的科學家因為傳統計算機技術成本昂貴和具有局限性而懊惱不已,他們開始開玩笑說或許可以嘗試科幻方法。「我們想,『有什麼能阻止我們利用DNA儲存信息呢?』」
隨後,笑聲戛然而止。「那是恍然明悟的一刻。」Goldman說,他是英國辛克斯頓歐洲生物信息學研究所(EBI)的一名團隊負責人,那時他們想到的是與硅基記憶晶元讀寫信息的微秒時間量程相比,DNA儲存可能會非常緩慢。它可能需要花費數個小時,通過合成DNA鏈條以形成具體的基礎模式來編碼數據,還會花費更多時間利用一種測序機器恢復這些信息。但是如果採用DNA,整個人類基因組都能夠裝入人類肉眼看不見的一個細胞中。對於信息儲存的純粹密度來說,DNA可能是硅以外進行長期數量級信息儲存的最好方式。
「我們坐在酒吧里拿著餐巾紙和圓珠筆。」Goldman說,然後開始記錄我們的想法:「需要做些什麼讓它發揮作用呢?」研究人員的最大擔心是DNA合成和測序經常發生錯誤,而且比值高達每100個核苷酸基中就會出現一例錯誤。這會讓大規模數據儲存完全不可靠,除非他們能夠找到一種可用的糾錯方法。他們能夠編碼這些信息成為鹼基對從而辨別並解除錯誤嗎?「經過一個晚上的商討。」Goldman說,「我們知道我們可以。」
DNA數據儲存
Goldman和EBI的同事Ewan Birney將這一想法搬進了實驗室,兩年後,他們宣布成功利用DNA編碼了5個文件,其中包括莎士比亞的十四行詩和一小段馬丁·路德·金的《我有一個夢想》的演講。而那時,美國哈佛大學生物學家George Church及其位於馬薩諸塞州劍橋的團隊已經公開了利用DNA編碼的單獨示範。但是當時EBI的文件為739千位元組(kB),直到今年7月,來自微軟和華盛頓大學的研究人員宣稱編成200兆位元組(MB)的文件之前,它一直是曾經編碼的最大DNA檔案。
利用DNA作為儲存介質的最新實驗信號已經超越了基因組學的範疇:全世界正面臨數據傾軋。到2020年,從天文學圖像和期刊論文到YouTube視頻,全球數據檔案預計將達44萬億千兆位元組(GB),是2013年信息儲量的10倍。
這正是為什麼難以獲得的數據現在需要依賴老式的磁碟記錄永久檔案的原因。這些信息媒介儲存比硅的儲存密度大得多,但是讀起來卻非常慢。然而,即便這一方法也變得日益不可持續,華盛頓特區美國情報先進研究計劃署(IARPA)計算神經學家David Markowitz說。
他表示,很難想像一個數據中心的磁帶驅動器上擁有艾位元組(10億GB)的信息。這樣的一個中心將需要10年間花費10億美元來建造和運行,並且需要數億瓦的電量。「分子信息儲存具有將這些條件減少三個數量級的潛力。」Markowitz說。如果信息能被打包成類似大腸桿菌基因的密度,那些全球的信息儲存需求可能只需要大約1公斤的DNA。
實現這一潛在目標並不容易。在DNA能夠作為傳統儲存技術的可行競爭者之前,研究人員需要克服從DNA編碼信息可靠性和恢復用戶需要的信息到讓核苷酸鏈獲得價格低廉、方便迅捷的一系列挑戰。
儘管如此,解決這些挑戰的工作正在進行。北卡羅來納州半導體研究公司(SRC)正在進行DNA信息儲存工作。「10年來,我們一直在尋找硅以外的物質」進行數據儲存,SRC主任及首席科學家Victor Zhirnov說,「它很難置換。」他說,但是DNA作為其中的一名具有實力的候選途徑,「似乎很有可能實現」。
長期記憶
第一個用4個DNA鹼基對繪製1和0等數據信息的人是藝術家Joe Davis,他在1988年曾與哈佛大學研究人員合作。他們在大腸桿菌中插入了DNA序列,編碼了僅僅35個比特。在組成5×7的矩陣後,使所有的1均對應暗像素,所有的零均對應亮像素,形成了記錄生活和女性故事的古德國詩歌。
現在,Davis正在與Church的實驗室合作,從2011年開始探索DNA數據儲存。這個哈佛團隊希望,這一應用有助於減少合成DNA的高成本,正如基因組學已經降低了測序成本那樣。Church在2011年11月與現在加州大學洛杉磯分校工作的Sri Kosuri以及約翰斯·霍普金斯大學基因組專家Yuan Gao合作,進行了概念驗證實驗。該團隊利用許多DNA短鏈編碼了一本Church共同編著的659kB的書籍。每個短鏈的一部分都是一個地址,闡述了這些片段經過測序之後應該如何整理,而其餘的短鏈則包含了數據。最終,在對這些鏈條進行測序之後,Kosuri、Church 和Gao發現了22處錯誤,對於可靠信息儲存來說,這些錯誤顯然過多。
同時,在EBI,Goldman、Birney及其同事也在利用大量DNA鏈條編碼其739kB的數據儲存,其中包括圖像、文本、視頻文件以及Watson和Crick關於DNA雙螺旋結構的一篇標誌性論文的PDF文件。為了避免重複性的鹼基和其他錯誤,ENI團隊採用了更加複雜的方式。通過使用被25個鹼基逐漸改變的相互重合的100個鹼基長鏈,ENI科學家還確保鹼基組件中都有不同的糾錯以及相互對照版本。
儘管如此,具有諷刺意味的是,他們依然丟失了25個鹼基中的兩個。然而,這些研究結果讓Goldman相信,DNA擁有成為價格低廉、長期數據儲存介質的潛力,那將需要極少的能量實現海量數據儲存。「或許最多10年之後,沒有人會再相信磁帶儲存。如果你需要保證文件複本的安全,一旦你能夠將其寫在DNA上,就可以把它丟在一個洞穴里忘掉它,直到你希望重新讀取它的那一天。」
新興領域
自從在2013年訪問英國時聽到Goldman談起DNA儲存之後,這種可能性已經吸引了華盛頓大學計算學家Luis Ceze和雷德蒙德微軟研究公司的Karin Strauss的關注。「DNA的密度、穩定性以及成熟度讓我們對它非常感興趣。」Strauss說。
在伊利諾伊大學香檳分校,計算學家Olgica Milenkovic及其同事已經開發出一種隨機存取方式,可以重新編輯編碼的數據。他們的方法可以在處理DNA長鏈兩端的序列時儲存數據。研究人員隨後或是利用聚合酶鏈反應或是利用CRISPR-Cas9等方法挑選、增加以及重新編寫DNA鏈條。
DNA數據儲存方面面臨的其他挑戰是規模化以及加速合成分子,Kosuri說,他承認因為這些原因,他本人對該方法並不看好。他回憶說,在哈佛大學做實驗的初期,「我們做到了700kB。使其增加1000倍達到700MB,才是一張CD的容量」。而若要真正解決全世界的數據檔案問題,至少需要拍位元組的儲存能力。「這並非不可能。」Kosuri說,「但是人們需要意識到這樣大的規模是建立在提高百萬倍的基礎上。」而這肯定不容易。
Goldman堅信這只是時間問題。「我們的估計是需要使其儲存能力提高10萬倍才能讓這種技術的效益看得見,我們認為它非常可靠。」他說,「過去的表現或許不能說明什麼。現在每一兩年就會出現新的讀取技術。六個數量級的增長對於基因組學來說只是小菜一碟。請拭目以待。」(晉楠)





TAG:科學網 |
※DIY牆架 用牆裝下你的整個世界!
※索泰ZBOX MINI遊戲主機:它小小軀體裝下一塊GTX1080!
※世界上最大的運輸機:安-225可裝下兩個全副武裝的擎天柱
※給我一個圓形包,我能裝裝裝裝裝下全世界
※世界上體格最大的運輸機:安-225可裝下兩個全副武裝的擎天柱
※首架在日本名古屋FACO總裝下線的F-35A揭幕亮相
※一間房間裝下你的全世界
※重磅套裝下月登場!Air Jordan DMP Pack 實物美圖
※2017Chinajoy|為了裝下200個遊戲 希捷給XBOX擴容了8TB
※休閑通勤裝下整個世界,IBoth迷彩包大能耐
※給我一個圓形包,我能裝裝裝裝裝下整個世界!
※給我一個水桶包,我要將全世界裝下!
※這個水陸缸裝下了整個世界!
※他們的家只有12平米,卻裝下了全世界
※航空史上的今天1.18世界上最大的客機A380型飛機總裝下線
※NASA:太陽表面發現巨大黑斑,能裝下上百個地球
※據說NASA的超級孔雀魚很醜?但它能裝下一整架太空梭
※一個會下蠱的老頭兒,足以裝下另一個世界
※日本政府評出十四件頂級國寶,八件來自中國,其中一器可裝下宇宙