一次分析數百萬篇科學論文的好方法
每年會產生超過一百萬篇新的科學論文,想要一直跟進最新的研究似乎成為了不可能的任務。所以越來越多的科學開始使用計算機對成千上萬的論文進行篩選來尋找原始數據和文本。
現在,在最大規模的文本和數據挖掘研究中,科學家們表示,他們已經確定了進行這種搜索的最佳方法,這可以改善從新的藥物靶向到未詳細研究的基因的追捕。
在文本和數據挖掘領域一直存在爭議:是通篇搜索更好,還是通過總結或摘要進行更短更簡單的搜索好一些。很明顯,通篇搜索可以得到更好的結果,但是研究人員認為這樣做的話也會獲得很多無用的冗餘信息,而摘要則已經包含了所有需要的信息。而且對全文進行搜索也面臨著獲取和格式化的挑戰,所以對摘要進行搜索是可取的。
為了平息這種爭議,丹麥技術大學生物信息學家S?ren Brunak和同事們對1823年至2016年間出版的超過1500萬篇英文科技文章進行了分析。他們分別為這些文章的全文和摘要建立了兩個資料庫,之後研究人員們對比了對這兩個數據進行挖掘的結果。這些論文的全文來自於出版商Elsevier和Springer,以及在線信息庫PubMed Central。這些論文的摘要來自MEDLINE(美國醫學索引)。MEDLINE與PubMed Central類似,得到美國國立衛生研究院的資助。
研究團隊於本月在預印本網站bioRxiv報告稱,對全文進行挖掘的結果比對摘要進行挖掘的效果更好。在一次測試中,研究人員們通過全文搜索比通過摘要搜索發現了基因和一些疾病之間存在著更多的相關性,而這對未來的研究目標來說是非常寶貴的。
美國賓夕法尼亞大學的生物數據科學家Daniel Himmelstein說,這項研究非常令人信服地表明,應該利用全文來進行數據挖掘。
研究人員之一,哥本哈根大學的生物信息學家Lars Juhl Jensen說,現在很多研究人員只使用摘要。相比全文來說,這些總結性的內容更容易理解,而且使用的法律限制也更少,也更容易被計算機讀取,因為它們的格式更簡單。
鑒於這些優勢,使用文本挖掘的研究人員們不會很快地從摘要搜索中轉變。Himmelstein指出,另一個障礙是出版商對文章的全文設置了很多限制,研究人員無法分享他們所下載的文章資料庫,也無法進行文本挖掘,這使其他人很難復現他們的研究。
Brunak承認,與出版商談判許可權非常具有挑戰性,可能會因此花費了同事們數個月的時間。但是他說,最費時間的事情是將出版商提供的PDF全文轉換為機器可讀的文本格式。
Jensen說:「這也是為什麼在過去沒有人能夠大規模地進行全文挖掘的原因。我們花費在提取PDF文本上的計算資源也許比真正進行文本挖掘的時間還要多。」 Jensen警告說,如果研究人員們不熟悉這個步驟,那麼在轉換文件的時候可能會遇到非常多的令人不快的錯誤。
Jensen說,一種解決方案是由出版商來確保論文的全文可以被容易地搜索。他非常希望出版商們可以共同制定一種合適的格式,可以被全行業使用,而不是各個期刊只考慮自己使用的格式。Jensen指出,PubMed Central資料庫所使用的XML文本格式是一個不錯的選擇。
們的平台上,發表和介紹國內外原創的科研成果。
本公眾號由中國科學院微生物研究所信息中心承辦
微信公眾號:中國生物技術網
點擊展開全文
※關於床單:多久洗一次?不洗會怎麼樣?
※國家農業基因組科技創新聯盟在深成立
※南非一艾滋患兒接受抗逆轉錄病毒藥治療,病毒被抑制逾八年
※我國在11個疾病領域建成32個國家臨床醫學研究中心
※低碳水還是低脂?新研究表明這並沒有什麼關係
TAG:中國生物技術網 |
※澳媒:一年三千多篇論文,中非科研合作火了
※一篇思路清晰的學術論文,由幾部分組成?
※細胞污染使3萬多篇醫學論文作廢,數十億美元資助可能打水漂
※被維基百科引用280萬次的論文長什麼樣?
※論文撤稿是科學進程的一部分
※醫學論文英文摘要的分類
※科技論文的選題方法
※科技部:評價基礎科學研究不應「數論文」「數評獎」
※英國博士論文代寫產業曝光,5萬多塊錢一篇
※人類歷史上最牛的五篇博士論文
※什麼是傳統書法?一千八百年前書法史上第一篇專業理論文章告訴了我們
※中國學術論文數首次超過美國 外媒:終結一個時代
※美科學家31篇論文涉嫌篡改數據,引發學術界震蕩
※十餘篇論文被撤卻仍獲學術大獎,如何評價一個「毀譽參半」的科學家?
※學妹問:如何讀完數十頁的學術論文啊?
※一個不存在的人,發了 6 篇學術論文
※世界熱點論文分析:個性化醫學時代來臨
※他熱愛科研,發表五篇「學術論文」獲多項獎金,3所名校為他保研
※如何寫一篇倫理學論文?
※史上最全AI開源項目集結,近萬篇附代碼的論文分門別類整理好