假論文能否杜絕？答案在四百年前就有了

知識 08-06

一個為追求真理而研讀科學著述的人，他的義務就是與自己讀到的所有東西為敵……並從各個方面加以質疑。他還應該在批判審查這些東西時，對自己持懷疑態度，這樣，他才有可能避免落入偏見或寬容的陷阱。

——伊本·艾爾-海什木（Ibn al-Haytham，公元965-1040年）

你知道嗎？科學正陷於一場數據危機之中。

去年，單是生物醫學領域發表的新論文就超過了120萬篇，這使得同行評審的生物醫學論文總數突破了2,600萬篇。然而，科學家每年平均只能閱讀大約250篇論文。與此同時，科學文獻的質量一直在下降。一些最新的研究發現，絕大多數生物醫學論文都是不可重複的，也就是說第三方無法加以驗證。

論文數量太多而質量太差，這種雙重挑戰的根源在於，人腦的神經能力是有限的。隨著人類積累的知識不斷增多，科學家藉以推導假說的知識在總體知識中所佔的比例越來越小。

其結果是，他們提出錯誤問題的頻率越來越高，或者，他們越來越多地發現，自己提出的問題已經被解答過了。而且，人類的創造力似乎越來越依賴於過往經歷的隨機性——也就是特殊的生活事件讓研究人員注意到了被其他人忽視的東西。雖然運氣一直是科學發現中的一個因素，但它目前起到的作用已經遠遠超出了應有的水平。

要解決當前的危機，一種很有前景的策略是，把機器和人工智慧整合到科研過程中。與人腦相比，機器的記憶力和計算力更強。

如果科研過程能夠實現自動化，我們獲得科學發現的速度也許會大為提高。它甚至可能開啟另一場科學革命。而這個意義重大的可能性能否實現，則要取決於一個同樣重要的問題：科學發現真的能實現自動化嗎？

我認為是可以的，只需一種我們已經熟知了數百年的方法。這個問題的答案可以在弗朗西斯·培根的著作中找到，這位17世紀的英國哲學家，同時也是現代科學的重要始祖。

人類首次對科學方法做出論述，可以追溯到好幾百年前的穆斯林思想家，比如伊本·艾爾-海什木，他同時強調了經驗論和實驗法的重要性。不過，培根才是第一位正式確立科學方法，並使其成為一個研究課題的人。

在1620年出版的著作《新工具》中，培根提出了一種用於科學發現的模型，它的另一個名字你或許更加熟悉：培根歸納法。培根反對把三段論邏輯（3.29）用於科學的演繹推理，他認為這種邏輯是不可靠的。

他提出了另一種方法，主張系統地收集某種特定現象的相關觀察結果，列成表格，並利用歸納邏輯進行客觀分析，以此得出可推而廣之的概念。在他看來，只有脫離了不完整的（因此是錯誤的）公理的束縛，才有可能發現真理。

培根歸納法試圖消除觀察和概念化過程中的邏輯偏差，辦法就是通過劃定演繹推理的每一個步驟，並對每一步分別進行優化。培根的想法是，利用觀察者組成的社群收集關於自然的巨量信息，然後整理成可用歸納邏輯進行分析的集中式記錄。

他在《新工具》中寫道：「經驗主義者就像螞蟻，它們只會積累和使用；理性主義者如同蜘蛛，它們只憑自己的材料織網。蜜蜂的方法是最好的，它們走的是一條中間道路，採集現有的材料並加以利用。」

培根歸納法如今已經很少被用到。事實證明，這種方法太費力，而且成本過高；其技術應用不甚明朗。不過當時，一種科學方法的正式確立已然標誌著革命性的進步。在那之前，科學是形而上學的，是屬於少數學者的特權，他們大多出身貴族。

而通過挑戰古希臘先哲的權威並劃定科學發現的步驟，培根創造了一幅藍圖，憑藉這幅藍圖，任何人都有機會成為科學家，無論其出身背景如何。

培根還揭示了一個被隱藏的重要事實：科學發現的過程本質上是演算法式的。它是有限數量的步驟經過重複，直至得出有意義結果的過程。培根在描述自己的方法時，明確使用了「機器」一詞。

他的科學演算法包括三個主要步驟：

第一步，收集關於現象的觀察結果，並整合成一個知識總庫；

第二步，利用新的觀察結果，提出新的假設；

第三步，通過精心設計的實驗來驗證假設。

而如果科學是演算法式的，那它必定具有實現自動化的可能性。過去數十年中，信息和計算機科學家一直不曾涉足這個充滿未來主義的夢幻，這主要是因為，科學發現的三個主要步驟位於不同的層面。

觀察是感知性的，提出假設是思想性的，實驗則是機械性的。科研過程的自動化需要將機器有效地整合到每一步中，並保證這三步之間的銜接順暢無礙。而至今，還沒有人知道如何做到這一點。

我們近來的大多數重要進展都是在實驗層面取得的。例如，製藥業使用自動化的高通量篩選平台進行藥物設計，這一做法已成為常態。一些初創公司，比如美國加州的Transcriptic和Emerald Cloud Lab正在開發系統，旨在讓生物醫學研究人員的幾乎所有體力任務都實現自動化。科學家現在可以在線提交實驗方案，將其轉換成代碼，並饋入機器人平台，在那裡進行一系列生物實驗。

這些解決方案對那些需要大量實驗的學科最有幫助，比如分子生物學和化學工程學。不過，類似的方法也可以應用到其他數據密集型領域，甚至擴展至理論學科。

芝加哥大學教授唐·斯旺森（Don Swanson）

相比之下，假設提出層面的自動化水平就沒有那麼先進了。不過，唐·斯旺森（Don Swanson）上世紀80年代的一項研究幫助我們向前邁出了重要一步。他證明了，在科學文獻中，不相關的想法之間存在著隱藏的聯繫；利用一種簡單的演繹邏輯框架，他可以把來自不同領域、引用上毫無重疊的論文聯繫在一起。

通過這種方式，斯旺森得以對食用魚油與雷諾氏病之間的聯繫提出新的假設，而不用開展任何實驗，也無需熟知任一領域。近年來出現的其他方法則依賴於數學建模和圖形理論。

研究人員把大型數據集整合在一起，知識在其中被投射成網路，網路的節點就是概念，而網路的連線則代表了概念之間的聯繫。通過發掘節點之間未被發現的連線，我們就能得到新的假設。

在科研過程自動化的問題上，最具挑戰性的一步是，如何大規模收集可靠的科學觀察結果。在觀察層面上，目前還沒有一個集中式的資料庫將人類所有的科學知識囊括在內。自然語言處理已經發展到不僅可以自動從科學論文中提取聯繫，而且還能理解上下文關係。

然而，主要的學術出版商都對這樣的文本挖掘做出了嚴格限制。更重要的是，論文的文本可能因為科學家的解讀（或誤讀）而發生偏差，並且可能包含難以提取和量化的複雜概念和方法論。

儘管如此，計算技術和網路資料庫的最新進展使得培根歸納法有史以來第一次變得切實可行。即便在科學發現能夠實現自動化之前，在當下，純粹還原論接近其效用邊際之時，推行培根歸納法也是有價值的。

在大數據時代，人腦已無法足夠有效地重構高度複雜的自然現象。一種現代化的培根歸納法可以改變我們對世界的理解。它通過數據挖掘來整合還原論思想，然後通過歸納式計算模型對這些信息進行分析。

憑藉此種方法，我們可以提出更有可能得到證實的新假設，同時也使驗證過程更加便捷，從而填補人類知識的空白。此外，它還起到了一種警示作用，這正是當今科學界迫切需要的，它提醒著我們勿忘科學的真諦：追尋真理，挑戰權威，崇尚自由。?

本文作者是哈佛醫學院分子癌症生物學家Ahmed Alkhateeb。他的研究工作聚焦於開發分析平台，以提升生物醫學的研究效率。

翻譯：何無魚

來源：aeon

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自造就的精彩文章:

※SHF黑髮貝吉塔2.0隨拍
※你想過嗎，宇宙或許是有意識的
※一口讓你去見上帝！盤點世界上十大最毒的生物
※中德學者製備出新型「人工反鐵磁體」有助於提升雲計算
※若把性命託付給人工智慧，它應該遵守人類的道德嗎？

TAG:造就 |

您可能感興趣

※如果扶蘇不死，秦國能否延續百年？答案一定是這樣
※如果把張無忌換成張三丰，能否一人破掉金剛伏魔圈？有人說出答案
※古代將軍能否以一當百？專家終於說出答案，跟你想得不一樣
※喬峰再練二十年，功力能否超過掃地僧？答案終於被人說出！
※項羽力大無窮，究竟能否以一敵千？答案或許和你想的不一樣！
※神鵰後期的四絕，能否打得過王重陽？周伯通終於說出了答案！
※楊過武功能否達到五絕之首？黃藥師早給出了答案，真相讓人沒想到
※又一家明星餐廳出事了，不知杜海濤能否給我們一個答案
※古代猛將能否以一敵百？一個實驗過後，答案揭曉，軍迷徹底醒悟了
※張三丰百年功力，能否打得過張無忌的九陽神功？終於有答案了！
※九陰真經的實力到底如何？金書中能否進前五？答案終於被說出！
※別再有疑惑，中國十萬軍人退伍後，三年內能否出國，這次有答案了
※項羽如果在鴻門宴上除掉劉邦，能否成為一代帝王？答案其實很簡單
※怎樣的八字才會有二婚？一婚不幸，二婚能否找到正緣？
※從天龍到倚天，喬峰能否打得過張無忌？答案終於被人說出！
※霍金之前的預言都不夠準確，那麼第四次預言能否成功？
※若張三丰到了射鵰中，能否打得過喬峰？答案終於被人說出！
※女人能否修鍊《葵花寶典》？答案就在金庸五十年前的書里！
※如何判斷一個男人心裡有沒有你？就看他能否為你做到這3件事！
※單論武藝，林沖能否敵的過盧俊義？答案說出來你可能不信！