論文造假醜聞頻發，公開研究材料能夠解決這一問題嗎？

最新 04-18

3月30日，國際權威學術期刊Science雜誌在線報道稱，美國俄亥俄州立大學教授、癌症科學家陳慶士因於2006年到2014年發表的8篇論文造假，被俄亥俄州立大學勒令辭職。令人不安的是，這8篇造假論文已被引用了300多次，但目前還不能確定這些引用對相關論文結果的影響。

造假醜聞爆出前，陳慶士的學術生涯發展得非常順利：發表過近200篇論文，年度科研經費超百萬美金，還曾任台灣「中央研究院」生物化學研究所所長。圖片來源：台灣《聯合報》

在俄亥俄州立大學發布的一份長達75頁的調查報告中, 調查人員指出在某些案例中，陳慶士的實驗室人員「沒有保留實驗日誌，僅有個人的每周進度報告」，從而懷疑研究數據造假（In some cases,…there were no laboratory notebooks kept by members of the lab, rather individuals only had weekly progress reports and no daily records of the experiments they conducted.）。

學術界一直存在呼籲研究者公開研究材料的聲音，希望以此杜絕學術不端行為的發生。那麼，公開研究材料真的能從根本上解決學術不端行為嗎？其實，論文的數據以及其他相關的研究材料是否應該被公開，在某種意義上也是對是否需要進行可重複性檢驗的討論。

到底什麼是可重複性研究呢？在英漢詞典里，單詞「reproducibility」和「replicability」都可翻譯成「可重複性」。但實際上，它們的含義並不相同。根據美國國家科學基金委員會（NSF）的一篇文章[1]，replicability是指其他研究者沿用原先的研究方法對新的數據進行分析，能得到同樣的結果；而reproducibility的要求相對較低，只需能使用相同的研究材料和方法得到相同的結果。

顯然，具有replicability的研究能更容易讓人信服。但在實際工作中，常常會出現由於獲取新數據成本過高或者十分耗時，很難進行replicability檢驗的情況。因此一般研究者可能更多的是進行reproducibility的檢驗（除非特殊說明，下文中的可重複性一律是指reproducibility）。而進行可重複性檢驗的前提就是能獲得原始研究者的研究材料，比如生物和醫學研究使用到的實驗器材、心理學的實驗材料和數據、統計建模的數據和代碼等，不同學科涉及的研究材料會有所差異。

可重複性研究一向是醫學、心理學研究領域的阻礙。2013年由Elizabeth Iorns發起了「癌症生物領域重複性工程」。該工程挑選出2010年至2012年間30篇高影響力的腫瘤生物學相關研究論文，驗證這些論文的可重複性。為了可重複研究的嚴謹性，實驗根據原始數據、同等質量的實驗資源進行重複性實驗。2017年1月19日，eLife雜誌在線出版了第一階段的研究成果：5篇重複性研究論文[2]，結果表明研究成果的可重複性非常差。

之所以很多人呼籲研究者公開自己的研究材料，使得第三方能夠對其研究進行可重複性檢驗，主要有以下幾點原因。

可重複性是「評判研究成果的最低標準」【3】

如果研究成果不能被重複，不管發現有多麼驚人，都是沒有實際價值的。要麼是有意的造假行為，要麼存在未被排除的干擾因素。尤其是隨著科學研究的複雜性增加，干擾因素對實驗結果的不利影響可能會愈發被放大。

歷史上這樣的案例屢見不鮮。比如「聚合水」，一開始科學家以為發現了一種新的物質，科學界也掀起了近十年的聚合水研究熱潮，但最後發現，那只是被汗液和油脂等雜質污染了的水。再看看最近幾年：14年日本科學家小保方晴子的「萬能細胞STAP」、 16年鬧得沸沸揚揚的韓春雨NgAgo基因編輯技術，這些一開始被人捧為「諾獎級」的研究成果，最終都以實驗結果不能被重複、論文撤稿而告終。

小保方晴子（左）和導師笹井芳樹（右）在介紹STAP細胞。笹井芳樹在論文撤稿一個月後上吊自殺，年僅52歲。圖據網路。

「韓春雨事件」以韓春雨研究團隊主動撤稿暫告一段落。

圖據網路。

可重複性研究可以提高研究者的研究質量【4】

試想一下，如果你是一名數據科學方面的研究者，有一天被要求將論文的源代碼全部公布在網上，你會不會首先整理一下代碼的格式，使其美觀、明了，再發布在網上？要求研究者公開數據和代碼其實也是一種幫助他們養成良好的研究習慣、理清研究邏輯的手段，最終使其工作更為高效、準確。除此之外，相比不可重複性研究，可重複性的研究能受到學界更多的關注，從而擴大學術影響力。

可重複性研究有助於防止學術欺詐【5】

可重複性是科學研究的基礎，通過要求作者在發表論文時一併提交原始資料來提高研究的可重複性，其好處之一就是有助於防止學術欺詐。偽造數據和捏造結果都是統計造假。偽造數據以獲得相應的結論屬於道德問題。但如果公開數據集或說明數據源，能夠在很大程度上消除數據造假行為。對於捏造結果，期刊可以對論文提出可重複性要求，根據作者提供數據、代碼或實驗過程，用以檢驗整個分析是否可以被重複生成。

研究的可重複性是研究者唯一能對研究做出的保證【6】

雖然一項研究即使能被重複也不一定能代表其正確性（correctness）或者有效性（validity），但約翰霍普金斯大學 Roger Peng教授仍舊錶示：「研究的可重複性是研究者唯一能對研究做出的保證」，畢竟「沒有研究者可以保證他們的結論完全正確，除非他們只給出了描述性分析。」

研究的可重複性之所以重要不是說它能保證研究結果一定正確，而是在於它確保了研究的公開透明，使得其他研究者能夠有理由去相信這份研究成果。研究成果是否正確還需要經過時間的檢驗，但研究是否能被重複卻是科學界現在可以得知的。

近幾年，可重複性的研究得到了越來越多人的重視，但實施起來仍存在不少困難，其中一點就是如何激勵研究者分享他們的源代碼和原始數據。Science上一篇新聞直接報道了數據缺失對AI研究復現的阻礙。AI研究人員發現很難重現許多關鍵結果，最基本原因是研究人員通常不會分享他們的源代碼和數據，有些研究者分享的只是有限的測試數據和演算法總結。

兩次人工智慧大會上發表的論文中提出的400種演算法中。只有6％的演講者分享了演算法的代碼。30%的演講者分享了測試數據，而54%的演講者分享了「偽代碼」，即演算法的有限總結。圖片來源：Science.

雖然可重複性研究是目前科學界的主流思想，但仍有部分學者持反對意見。他們認為進行重複性驗證就意味著要開展大量的重複性工作，耗費時間、人力和財力。某些實驗科學因為對研究條件要求較高，很難實現重複。並且一項研究不可重複並不意味著其結果為假，可能是因為其再現性和應用能力較差，很難將該實驗進行推廣。而如果僅僅是因為實驗過程的不嚴謹導致的研究結果不可重複，會無端招來很多質疑。

此外，許多研究的數據和代碼屬於商業機密，不得隨意公開。例如企業的研究人員在進行研究時會被要求籤署保密協議，不得泄露實驗數據和研究細節，損害企業的利益。大數據時代下，數據是企業重要的資產。企業研究大多基於企業經營數據，而該類數據收集途徑有限，且容易被其他人濫用，使企業在競爭中處於不利地位。因此許多研究者不能也不願意公開數據和代碼。

同時，有些高校的學者也顧慮公開研究細節後，自己的成果會被其他公司盜用。學者相對於公司處於劣勢，公司拿到論文相關代碼、數據或研究細節後，用於商業用途，很難說清科研成果版權問題。

不論是可重複研究的支持者或有異議者，他們對學術研究的態度都是嚴謹的，學術界都是希望研究者們要恪守學術道德，學會對自己的研究內容負責。支持者希望通過倡導可重複性研究的發展，鼓勵更多的學者公開數據、代碼或實驗方法，讓某一領域的研究有更多的受益者，提升學術研究的可靠性。有異議者同樣也希望能把更多的資源放在其他方法和思路的研究上，可以從不同角度對問題進行探討，促進學科的研究進展。

文末彩蛋

最後，介紹一個可以幫助大家進行可重複性研究的一個神器：R語言中的knitr包[7]。它的開發者相信很多熊粉並不陌生，是統計之都的創始人謝益輝。研究者使用knitr包，可以將數據分析的源代碼和正文整合在一個文檔里，knitr編譯會輸出代碼的運行結果，並將結果與之前的正文結合在一起，生成一份報告。因此研究者只需維護包含源代碼的源文檔，用knitr包實現自動化報告，而無需手動將代碼運行結果複製粘貼到文檔里。這樣的好處除了能提高工作效率、避免過多的複製粘貼帶來錯誤外，最主要的是能促進研究的可重複性：不同的研究者可以基於源代碼讀數、建模、輸出結果，同時可以查看到統計分析的各個過程，排除人為篡改結果的可能。

Knitr包可以結合LaTex、Markdown以及HTML使用。相比而言，Markdown的用法最為簡單，適合新手入門（開發者謝益輝也是首推Markdown入門）。狗熊會曾經推送過一篇關於R Markdown的使用介紹（點擊這裡查看詳情），感興趣的熊粉們可以學習一下~

審稿：水媽

參考文獻

[1]K. Bollen, J. T. Cacioppo, R. Kaplan, J. Krosnick, J. L. Olds,Social, Behavioral, and Economic Sciences Perspectives on Robust and Reliable Science(National Science Foundation, Arlington, VA, 2015).

[2]http://www.medsci.cn/article/show_article.do?id=1e098e87586

[3] Peng, R. D. "Reproducible research and Biostatistics. "Biostatistics, 10.3(2009): 405-408.

[4] Gandrud, Christopher.Reproducible research with R and RStudio. CRC Press/Taylor & Francis Group, 2014.

[5] https://cosx.org/2010/11/reproducible-research-in-statistics

[6] https://simplystatistics.org/2014/06/06/the-real-reason-reproducible-research-is-important/

[7] https://bookdown.org/yihui/r-ninja/auto-report.html

識別下方二維碼成為狗熊會會員！

友情提示：

個人會員不提供數據、代碼，

視頻only！

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！