當前位置:
首頁 > 最新 > 論文圖片查重費時費力,機器學習演算法能否扭轉乾坤?

論文圖片查重費時費力,機器學習演算法能否扭轉乾坤?

原文以Researchers have finally created a tool to spot duplicated images across thousands of papers為標題

發布在2018年2月23日的《自然》新聞上

原文作者:Declan Butler

出版商需要聯合起來,應用圖片查重軟體檢驗各種文獻。

光學顯微鏡可以捕捉細胞與組織的顯微照片,而這類照片在科學文獻中可能重複出現。

來源:Mikhail Tereshchenko/TASS/Getty

三名科學家表示,現在計算機軟體可以快速檢查大量研究文獻,發現其中的重複圖片。

Daniel Acuna是美國紐約雪城大學的一名機器學習研究人員,他所領導的一支團隊於2月22日在預印本伺服器bioRxiv上提交了一篇論文原稿,介紹使用一種演算法檢查幾十萬篇生物醫學論文,搜索其中存在的重複圖片。如果期刊編輯也採用類似的方法,那麼就有望更輕鬆地在論文出版之前篩查圖片——目前這項工作需要大量投入,而且只有少數出版物採取了這一措施。

Acuna說他們的研究表明,利用技術手段進行圖片查重是有可能的。他沒有公開演算法,但是已經和芝加哥西北大學研究誠信辦公室主任、美國研究誠信官員聯合會副主席Lauran Qualkenbush進行了討論。「這對研究誠信辦公室非常有用,」她說,「我非常希望今年我的辦公室可以成為Daniel這項工具的試點單位。」

2015年初,Acuna與兩名同事以當時PubMed生物醫學文獻資料庫開放獲取子庫中的76萬篇論文為對象,運用一種演算法提取了其中的260多萬張圖片,包括細胞與組織及凝膠印跡顯微照片。當時,該演算法將重點放在特徵最豐富的區域——顏色和灰度差異最大的區域——提取每一張圖片最顯著的數字「指紋」。

團隊剔除箭頭或流程圖要素等圖形後,最終得到了約200萬張圖片。他們只比對第一作者及通訊作者一樣的論文裡面的圖片,避免每張圖片都要和所有其它所有圖片進行比對而導致計算負載過大。即使圖片被翻轉、調整大小,對比度或顏色被更改,該演算法也能發現其中潛在的重複圖片。

之後,三人手動檢查了約3750張被演算法標記出來的圖片樣本,以確定這些重複圖片是否可疑或是偽造的。根據檢查結果,他們估計資料庫中約1.5%的論文包含可疑圖片,0.6%的論文包含偽造圖片。

美國達特茅斯學院的計算機科學家Hany Farid指出,研究人員尚未能基準測試該演算法的準確性,因為目前沒有包含已知為重複或非重複科研圖片的資料庫可以讓他們進行對比測試。但是,對於Acuna三人應用現有技術檢查現實圖片並試圖將該工具交到期刊編輯手中的做法,他深表讚賞。

費時費力

目前,許多期刊都會對一些圖片進行檢查,但是極少數擁有自動化檢查流程。舉例來說,《自然》對收到的稿件執行隨機抽樣檢查,而且要求作者提交未經編輯的凝膠圖片用作參考。目前,《自然》正在審查其圖片檢查流程。(《自然》新聞團隊與其期刊團隊在編輯上相互獨立。)

以Journal of Cell Biology和The EMBO Journal為代表的一些期刊正帶頭對投稿中的大部分圖片進行手動篩查,但是The EMBO Journal主編Bernd Pulverer說,這個過程非常耗時,遲遲未能見到一個常規性的自動化流程。

愛思唯爾的研究誠信主管IJsbrand Jan Aalbersberg認為,若要檢查文獻中的圖片復用情況,出版商需要建立一個共享資料庫,裡面收錄所有已發表出來的圖片,然後以之為基準比對將要發表的論文里的圖片。

之前,已有這類合作的先例。2010年,學術出版商為打擊剽竊,展開了全行業範圍內的服務合作。非營利合作組織Crossref(包括約10,000家商業出版商和學術團體出版商)推出CrossCheck服務——利用加州Turnitin公司製作的剽竊檢測軟體iThenticate核對成員出版商出版的論文全文。這項服務之後更名為「Similarity Check」,幫助使剽竊檢測成為出版行業的一項常規做法。

Crossref的執行總監Ed Pentz表示,目前公司並沒有推行適用於全出版商的圖片檢測系統的計劃,一部分原因是相關技術尚未成熟。但是,他說Crossref會密切關注業內的相關進展。

愛思唯爾則表示支持開展類似Similarity Check的圖片檢測計劃。兩年前,愛思唯爾與柏林洪堡大學達成為期3三年、總價100萬歐元的合作項目,旨在進行研究論文挖掘,鑒定研究不端行為。1月25日,該項目宣布計劃根據被撤稿出版物中的圖片創建一個資料庫。這個資料庫可被用作一個測試圖片庫,幫助研究人員開發自動化工具來篩查出版物中的圖片。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

更高效的機器學習將顛覆AI現有的模式
ARM推出了兩款新的人工智慧晶元設計,以駕馭機器學習浪潮

TAG:機器學習 |