當前位置:
首頁 > 知識 > 數百萬幅圖像迫使科學家尋找儲存數據新方法

數百萬幅圖像迫使科學家尋找儲存數據新方法

人工智慧學家


作者:宗華


來源:中國科學報

對於生物和物理學界的研究人員來說,「圖像過剩」的挑戰正日益成為一大負擔。

數百萬幅圖像迫使科學家尋找儲存數據新方法



美國宇航局太陽動力學天文台每天會收集1.5兆兆位元組關於太陽活動的數據。

圖片來源:SDO/NASA


隨著果蠅幼蟲在視頻中向前蠕動,呈裂紋狀的神經活動快速傳導至其半毫米長的身體。當它向後蠕動時,「波浪」朝另一個方向起伏。這段在YouTube上被觀看了10萬多次的11秒長視頻剪輯,以幾乎單個神經元的解析度展現了該幼蟲的中樞神經系統。創建這段視頻的試驗則產生了幾百萬張圖像和幾萬億位元組的數據。


美國霍華德·休斯醫學研究所珍利亞農場研究園區發育生物學家Philipp Keller領導的團隊製作了該視頻。對於Keller來說,這類產生大量圖像的試驗帶來了巨大挑戰。「過去5年里,我們光在用於數據處理的計算方法上便花費了約40%的時間。」問題並不在於儲存圖像——數據存儲的花費並不高,而在於組織和處理圖像,以便其他科學家能理解它們並且獲得想要的東西。


對於生物和物理學界的研究人員來說,「圖像過剩」的挑戰正日益成為一大負擔。Keller和兩個其他領域——天文學和結構生物學——的科學家向《自然》雜誌解釋了他們正如何解決這個問題。


為太陽成像

在新墨西哥州拉斯克魯塞斯市上空地球同步軌道的某個地方,太陽動力學天文台(SDO)追蹤著天空中的一個八字結。該衛星對太陽進行著持續觀察,並利用3台儀器記錄它的每一次「打嗝」。這些儀器通過10個濾鏡對太陽進行成像,記錄其紫外線輸出量並追蹤它的地震活動。隨後,這些數據被傳送到下方的地面衛星接收站。美國宇航局(NASA)的承包商——ADNET系統的太陽科學家Jack Ireland介紹說,SDO每天產生「約1.5萬億位元組的圖像數據」。根據NASA的說法,這一數據量相當於音樂軟體iTunes上約50萬首歌曲。


Ireland表示,為幫助研究人員駕馭這些圖像,ADNET團隊和歐空局一起開發了用於瀏覽SDO圖像的網站Helioviewer以及可下載的應用程序。利用這些工具的研究人員和天文學愛好者看到的並非初始數據,而是其較低解析度的圖像。


每張原始SDO科學圖像是4096像素×4096像素的正方形,大小約有12兆。它們每隔12秒被拍攝下來,迄今已收集了數千萬幅圖像。


用戶可跳轉到自SDO於2010年啟動以來的任何特定時間,選擇濾色鏡並獲取到數據。隨後,他們可放大圖像,瀏覽、裁切,並將其串在一起形成影片,從而使太陽動力學可視化。Ireland介紹說,用戶每天平均創建約1000個影片,而且自2011年起,至少有7萬個影片被上傳到YouTube。


一旦他們選擇了某張圖像或某個被裁剪的區域,比如圍繞特定太陽耀斑的區域,用戶仍能下載初始的高解析度圖像。如果需要,他們還能下載較小的1兆圖像的完整檔案。

更快速的文件格式


對於Keller在珍利亞農場研究園區的發育生物學團隊來說,將他們的數據發布到網上供外部人員獲取並不存在此類問題。如果其他人想要數據,該團隊可利用專門的文件傳輸工具,或者簡單地通過運送硬碟,實現圖像共享。不過,該團隊首先必須管理並分類以每秒10億位元組從實驗室顯微鏡下流出的圖像。「這是一項巨大的挑戰。」Keller說。


Keller實驗室利用顯微鏡向諸如果蠅、斑馬魚、小鼠等小型生物體的大腦和胚胎內發射光。這些生物體經過了基因改造,因此它們的細胞能發出熒光作為回應,從而使該團隊得以數小時對3D下的每個細胞進行成像和追蹤。為儲存這些數據,實驗室在可提供約1拍位元組存儲量的文件伺服器上花費了約14萬美元。


這些伺服器上數百萬張圖像的高度結構化組織,讓團隊成員保持著理智。每台顯微鏡都在自己的目錄內儲存著相應的數據;文件按照樹狀結構排列,而該結構描述著一項既定試驗完成的數據、哪種模式生物被利用及其發育階段、用於可視化細胞的熒游標記蛋白等信息。Keller介紹說,實驗室構建的數據處理管道便按照上述結構行事。

然而,目錄並未包括大多數顯微鏡學家所熟悉的JPEG圖像文件。JPEG格式會壓縮圖像文件的大小,使其更容易處理和傳送,但在讀取並將這些數據寫入磁碟方面要相對緩慢,並且對3D數據來說效率太低。Keller的顯微鏡在收集圖像方面是如此的迅速,以至於他需要一種能像JPEG那樣進行高效壓縮但被讀寫時要快很多的文件格式。由於該實驗室通常研究的是單獨的數據子集,因此Keller需要一種簡單的方法提取特定空間位置或時間點。


Keller及其團隊開發了凱勒實驗室數據塊(KLB)文件格式。它將圖像數據切割成可被多個計算機處理器同時壓縮的組塊。這使文件讀取速度快了3倍,因此KLB在壓縮文件大小方面表現得和JPEG格式一樣好。


共享原始數據


拍攝照片以判定分子結構的生物學家還產生了海量的圖像數據。一項日趨流行因此也產生了更多數據的技術是冷凍電鏡技術(cryoEM)。


CryoEM用戶向快速凍結的蛋白質溶液發射電子束,收集上千幅圖像,並將它們結合起來以接近原子水平的解析度重建蛋白的3D模型。大多數這樣的重建小於10千兆位元組,而研究人員可將它們存放在電子顯微鏡數據銀行(EMDB)中。不過,如此存放用於創建它們的原始數據卻行不通,因為後者比得到的模型要大兩個數量級左右。在英國劍橋附近的歐洲生物信息研究所(EBI)領導EMDB歐洲蛋白質資料庫(PDBe)項目的Ardan Patwardhan表示,成立EMDB並不是為了處理這些數據。再現性因此遭殃:在無法獲取到原始數據的情況下,研究人員既不能驗證其他試驗的有效性,也無法開發新的分析工具。


2014年10月,PDBe啟動一項試點方案:同樣由Patwardhan主導、被稱為冷凍電鏡試驗性圖像檔案(EMPIAR)的原始cryoEM數據資料庫。目前,EMPIAR包括49個條目,其中每個條目的大小平均有700千兆位元組,最大的超過12太位元組,同時整個系列約有34太位元組。總體上,用戶每個月下載約15太位元組。


下載如此大量的數據帶來了自身的問題:用於在電腦間傳輸文件的標準協議FTP不得不應對大規模數據集;連接損耗變得很常見,而下載速度會在長距離內大幅放慢。EBI為EMPIAR用戶支付了獲取兩項高速文件傳輸服務——Aspera和Globus在線的費用。Patwardhan介紹說,兩項服務均以「每24小時若干兆兆位元組」的速度傳輸數據。同樣利用這些服務傳輸大規模基因組學數據集的EBI為這項業務的另一面付出了代價。EBI提供Aspera服務的開支每年高達好幾萬美元。


不過,EMPIAR原始數據已證實了它的價值。弗吉尼亞大學結構生物學家Edward Egelman與別人合作發表了一種被稱為MAVS的蛋白結構。MAVS是一種聚合性的絲狀結構蛋白,而最新發表的成果與此前的另一種模型存在分歧。Egelman通過下載並且重新處理原始數據集,證實此前的結構是錯誤的。EMPIAR的資助將在2017年用完,但Patwardhan表示,cryoEM研究人員告訴他,他們已將EMPIAR視為一種必需,並且想把「試驗性」字眼從檔案的名字中去掉。「他們覺得,這應當被視為生物學界的一份重要檔案。聽上去還不錯。」Patwardhan說。(宗華)


人工智慧學家Aitists


人工智慧學家是權威的前沿科技媒體和研究機構,2016年2月成立人工智慧與互聯網進化實驗室(AIE Lab),重點研究互聯網,人工智慧,腦科學,虛擬現實,機器人,移動互聯網等領域的未來發展趨勢和重大科學問題。


長按上方二維碼關注微信號 Aitists


投稿郵箱:post@aitists.com


請您繼續閱讀更多來自 人工智慧學家 的精彩文章:

Facebook田淵棟:快速迭代的人工智慧
施密特反擊馬斯克AI威脅論:杞人憂天,純屬外行誤導!
谷歌AI的「好奇心」增強了遊戲能力
機器能思考嗎?——2計算主義
霍金修正黑洞理論:黑洞蒸發後信息可逃逸
您可能感興趣

數據科學家與數據工程師
如何成為一名數據科學家
科學家將鈷和鈀合成一種可存儲數據的新材料
如何成為一名數據科學家?
數據科學十大技能
數據科學家最常用的十種演算法
科學家成功研發能存儲數據的類皮膚材料
數據科學家到底能賺多少錢?
百億級別數據倉庫實踐——同程交通數倉建設
一群數據科學家眼裡的面相
數據科學家或將取代專家
經典:數據科學家教你用數據模型來戀愛
科學家實現在DNA裡面存儲數據:1克能存2億GB的數據
大數據與歷史學科學化
科學家用鑽石存儲數據,未來婚紗照將可被存儲在鑽戒中
科學家證明分子級數據存儲可行,存儲能力可達31TB每平方厘米
科學家在細菌 DNA 中儲存視頻數據
熱門工作?數據科學家笑稱自己是數據民工
中國物理研究人員論文數據誇大百倍被撤銷