當前位置:
首頁 > 知識 > 新可視化工具使在線發表更具交互性再現性

新可視化工具使在線發表更具交互性再現性

新可視化工具使在線發表更具交互性再現性

當Benjamin Delory開始關於記錄一種量化植物形態新方法的論文時,他意識到其中的一批數據可能會帶來問題。該論文提出一個「持久性的條形碼」來描述植物根系的分支結構。其中的挑戰是如何解釋它。德國呂訥堡大學博士後Delory說,該條形碼的基礎演算法是「連續和動態的」。而表示動態的最佳辦法「是讓它動起來」。

科學數據被認為是典型的靜態圖像。但這些靜態圖像卻與基礎數據相互分離,這會阻礙讀者更詳細地探索它們,例如放大一些感興趣的特徵。對於那些需要將數百萬個數據點填入僅有幾厘米大的密集視覺效果的基因組學家來說,這會特別棘手。

對於計算機運算領域的研究人員來說也是如此。科學家經常會把軟體放到開源程序庫如GitHub等網站,但讓該代碼正常運行卻是「說起來容易做起來難」。評審人以及感興趣的人經常需要另外的軟體和配置才能讓這些演算法運行。

一些期刊和平台正在通過支撐交互性數據和代碼在彌補這一鴻溝。其中之一是F1000Research(F1000Research是針對生命科學研究者的開放研究發表平台),該平台去年曾與加拿大蒙特利爾計算機企業Plotly和美國紐約的一個機構代碼海洋合作。正是因為這些功能以及F1000Research開放獲取的思想,才讓Delory及合作者把論文遞交到那裡。該成果已在1月發表。


交互出版

讓讀者可以深入到一篇文章中的基本數據的互動式圖表是很多網站上頻繁出現的特徵,比如《紐約時報》和fivethirtyeight.com等網站,但這類圖表在科學出版中卻不常見。

F1000Research高級出版編輯Thomas Ingraham說,該期刊的「活數據」——2014年引入的可持續用新數據升級的交互性圖表不僅製作起來耗時耗力,而且不可伸縮。而Plotly則可讓用戶創建和共享從散點圖和線圖到等高線圖和地圖等可視化內容。其得到的圖像可讓用戶放大數據、平移圖像和移動滑鼠鼠查看所繪值。學生訂閱費用從每年59美元起步。開源程序庫可讓研究人員創建從R、MATLAB、Python到Julia代碼等免費Plotly圖表。

代碼海洋每月向學者免費開放10小時和50吉位元組的存儲空間;付費類則從每月19美元起步。它把代碼、數據、結果和計算環境融合在一起,該計算環境可在一個含有複製作者計算配置的「計算膠囊」中執行任務。其他用戶則可從代碼海洋網站或是論文中的一個部件來下載、修改和運行該代碼。

F1000Research現已經發表了6篇含有Plotly「活圖表」的論文以及含有代碼海洋小部件的5篇論文。今年,該期刊計劃增加對互動式「蛋白質—蛋白質相互作用」地圖的支持,這些地圖是利用網路製圖工具Cytoscape生成的。

研究人員不必為感受到的複雜性困擾。據布魯金斯南達科他州立大學計算生物學家Xijin Ge說,他在自己的一篇論文中就包含了互動式Plotly圖表,創建相關數據僅需要一個額外代碼行數。西澳大利亞大學海洋研究所和地球科學系珊瑚學者Tom DeCarlo已經為多個期刊創建了6個代碼海洋項目,其中包括《古海洋學期刊》《古氣候學期刊》和《生物地球科學雜誌》。「我認為它對於科學交流和再現性非常重要。」他說。


開源方法

對於那些尋求開源計算替代方案的人來說,一個叫作Binder的工具可將任何包含Jupyter記事本(交錯文檔、代碼和數據的文檔)或R代碼的公共GitHub存儲庫轉換為一個包裹,從而可以讓用戶從其瀏覽器一端運行。用戶只需在mybinder.org網站上把記事本存儲庫的地址輸入到搜索欄中,該程序就能創建一個可共享的互動式工作區。聖路易斯奧比斯波加州州立理工大學Binder項目團隊的Carol Willing說:「它真的適用於再現性,並且易於使用。」

瑞士蘇黎世Binder項目團隊成員Tim Head說,類似工具還可以簡化同行評審。Head有點沮喪,因為此前他受邀審閱一篇期刊文章時不能使用該軟體。「如果他們當時給我發送了Binder的連接,那麼我們現在已經完成了。」他說。

開源選擇方案也可用於創建互動式圖像,包括bokeh、htmlwidgets、pygal和ipywidgets等。這些大多數都是以編程方式使用的,通常在R或Python代碼中使用,這在科學中應用地很普遍。例如,程序員可以使用ipywidgets將交互的三維繪圖、地圖和分子可視化到Jupyter記事本中。另一個用JavaScript編寫的選擇是Vega-Lite。由於該語言在科學上的使用度不那麼廣泛,加州州立理工大學的Brian Granger和西雅圖華盛頓大學的Jake VanderPlas開發了一個叫作「Altair」的Python介面,使它變得更易訪問。

這些工具中大多數都傾向於為特定的圖表類型提供函數,Vega-Lite和Altair都類似於靈活的「語法」,它們可用於描述變數如何映射不同的視覺特性,如顏色或形狀等。它們還讓圖表產生關聯,如此一來當用戶選擇一個繪圖區域時,其附近的顯示就會相應地更新。華盛頓大學計算機學家Jeffrey Heer(其所在團隊開發出Vega-Lite)說:「實際上,它可以讓我們以多維方式探索相關性。」

另外兩款產品則可以讓研究人員創建可利用小部件的互動應用程序,如可用於混合數據、圖表和代碼的下拉菜單和滑塊控制項,包括馬薩諸塞州波士頓的RStudio製作的用於R編程的Shiny以及Plotly的用於Python編程的Dash。它們通過把用戶的小部件的動作傳遞給一台遠程伺服器起作用,遠程伺服器可運行基礎代碼並更新頁面。

由此產生的應用程序可讓那些不喜歡編程的研究人員獲得相關數據和工具。例如,以色列特拉維夫大學研究生Tal Galili與同事合作,開發了一個基於Plotly的工具箱,並據此從上傳的數據集中構建互動式熱地圖,Shiny的一個界面可在幕後運行該代碼。北卡羅萊納州杜克大學統計學家Mine Cetinkaya-Rundel為本科統計學課程建立了Shiny資源,以幫助其在課堂上解釋一些有難度的概念。「這種感覺非常好,把它停下來然後說,『好,現在我們已經介紹完了,當我們移動小部件時會發生什麼呢?』」她說。

在期刊網頁上發表這樣的集成需要對編輯工具、編輯流程和基礎設施做改變。它還涉及到把科學數據交付給不能永遠保證其表現的第三方。

為了解決這一問題,開放獲取出版商eLife產品開發負責人Giuliano Maciocci說,eLife的「可再現文檔堆棧」項目旨在創建一個端到端工具包,用於編輯、提交和發表在計算上可再現的文檔。他說,該計劃旨在把一篇論文的多個核心科學「產品」——其文本、數據、代碼、圖表和計算環境等——壓縮到一個可下載的對象中。為了鼓勵使用,該期刊已將堆棧設置為開放資源。


大步向前

其他若干家雜誌和出版商也在支持代碼海洋的集成,包括GigaScience、IEEE、SPIE、劍橋大學出版社和Taylor&Francis等。《細胞生物學期刊》的JCB DataViewer基於開源性OMERO軟體,可讓讀者探索原始的顯微鏡圖像,而非通常看到的經過處理的壓縮文件。一個相關的工具——圖像數據資源,可為發表在任何期刊的論文提供類似功能。《自然》雜誌也發表了交互性的數據,例如一篇描述「DNA元素百科全書」項目的論文。一位發言人稱,該雜誌正在研究若干其他交互代碼和數字的選擇方案。與此同時,研究人員經常從其文章鏈接到外部的可視化效果。

得克薩斯州休斯敦貝勒醫學院的Erez Lieberman Aiden說,隨著越來越多的期刊擁抱交互性,科學信息的在線呈現方式很可能會從根本上發生變化,它代表著可再現性的勝利。Aiden近日在《細胞》雜誌的一項成果中發表了交互性的核染色質互動地圖,他表示靜態圖標只是數據的一個方面。「有洞察力的讀者需要具備能力得出自己的結論。」他說,「1974年閱讀一篇論文的行為不應該與2017年閱讀一篇論文的行為相同。」

來源:科學網

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Science 的精彩文章:

20款經典生物在線工具匯總
《Nature Methods》公布 2017 生命科學領域年度技術

TAG:Science |