層出不窮的科研評估指標，令人眼花繚亂

最新 06-06

原文以Reviewers are blinkered by bibliometrics為標題

發布在2017年4月26日的《自然》評論上

原文作者：Paula Stephan, Reinhilde Veugelers& Jian Wang

科研評委會還在依賴糟糕的指標來評判一項科研的質量和影響，這只會帶來越來越多的「安全」研究。

科研評委會成員表面上讚賞的研究和他們實際上支持的研究是割裂的。我們曾參加過多個評委會，聽過許多人抱怨研究者不願做有風險的研究。但是我們也看到，做出抱怨的這些評委自己也在規避風險，他們依賴文獻計量指標來做評估，儘管眾所周知，這些指標是不完美的。

插圖： David Parkins

雖然發明期刊影響因子（JIF）的初衷是為了評估期刊，而不是單獨的論文，但是評審人習慣用被評審對象論文發表的期刊來為自己的評價作辯護。科研評委會成員用谷歌學術搜索的結果來評價候選人，用引用量來給新研究計劃打分。即使在歐洲研究委員會（ERC）一類的機構里，這類行為也很普遍，要知道歐洲研究委員會是禁止評審人檢索文獻計量指標的。

作為研究科學與創新的經濟學家，我們看到根深蒂固的評審程序與眾人所珍視的目標背道而馳。我們採訪的科學家常說，他們在經費申請書里不敢提出大膽的研究項目，部分原因是因為怕別人期望他們在高影響因子的期刊里源源不斷地發表論文。實際上的情況可能比想像的還糟糕。我們對15年的引用數據的分析表明，常見的文獻計量指標依賴短期的數據，它們低估了冒險的研究。

那麼我們怎樣才能將宣言付諸實踐，讓評閱人放棄那些對大膽研究不利的文獻計量指標呢？

偷偷摸摸的文獻計量指標

捷克、比利時北部的弗蘭德斯地區以及義大利的一些資助機構明確要求申請人在論文列表邊上羅列期刊影響因子數據。但是這種要求並不常見，歐洲研究委員會、中國國家自然科學基金、美國國家科學基金會（NSF）和美國國立衛生研究院（NIH）並不要求申請人報告文獻計量數據。

但是申請人還是會這麼做。加拿大自然科學與工程研究理事會（NSERC）的經費申請人可以選擇性地提供論文引用量、期刊影響因子以及其他指標，如H指數（由引用量計算而得）。申請人報告期刊影響因子以及論文引用量是很稀鬆平常的事；支持他們申請的大學和機構常常建議他們這麼做。

當研究人員被要求挑選出自己最有分量的論文時，他們的標準常常是期刊影響因子以及短期引用量，而不是對研究價值的更細緻入微的評價。這可以理解，因為如果沒有文獻計量指標，評閱人也會在做出決定前下載這些數據。

在涉及招聘和升職決策時，文獻計量指標承擔了更為重大，也往往更正式的角色。在西班牙，「六年」評估（根據科研生產力漲工資的評估）嚴重依賴期刊影響因子指標來進行排名。在義大利，對每一個升職候選人，評閱人都握著一套正式的文獻計量指標履歷。

在歐洲、美國和中國的許多大學校園裡，教職員工手上都有一套期刊列表，列表裡的期刊在評估升職候選人時占的權重最大。在一些國家，尤其是中國，科研人員的獎金和論文發表的期刊聲譽直接掛鉤。

在我們自己的大學裡，在委員會討論候選人的研究價值時，院長和系主任要對候選人的論文引用量和期刊影響因子指標進行總結，這已然成了標準程序。在年輕教職員工的晉陞遴選中，同事和外部評閱人一般會參考他們的文獻計量指標。招聘委員會在挑選候選人時可能也特別看重這些指標，因為指標好的候選人能為機構吸引科研經費。

背後的原因顯而易見。政府資助機構用這些指標來決定如何給大學分配資源。接著，大學用這些指標來給各個系分配資源。比如在比利時弗蘭德斯地區，為大學分配經費的公式里包含了以期刊影響因子為權重的論文發表數量。在巴西，Qualis（由巴西教育部下屬官方機構管理的科研產出評價系統）就用期刊影響因子來決定經費的分配。英國的研究卓越框架（Research Excellence Framework， REF）算是少有的例外，因為它公開宣稱不使用JIF指標。

研究的影響力

對浮誇論文的追求迫使科學家們一擁而上，做內容相似而競爭激烈的項目；或者迫使他們鋌而走險，或誇大研究發現的重要性。關於這些問題的討論已卷帙浩繁。我們認為問題實際上更嚴重：廣受歡迎的短期文獻計量指標會阻礙冒險的研究，而這些研究有可能拓寬科學知識的邊界。

我們利用Web of Science的資料庫分析了在2001年發表的超過66萬篇論文的引用數據。我們想要分析冒險的研究的期刊影響因子以及引用量的變化。我們對冒險的研究的界定是，一篇論文的參考文獻是否包含了新鮮的期刊組合，同時我們將這種組合的各種可能也考慮在內。比如，發表在《生物化學雜誌》（Journal of Biological Chemistry）上的一篇論文顯示某個知名抗精神病藥物和某種蛋白質發生了反應，並且用這個現象來識別其他的生物效應。

在它的參考文獻中，《基因表達》（Gene Expression）首次和其他期刊，如《臨床精神醫學雜誌》（Journal of Clinical Psychiatry）以及《神經精神藥理學》（Neuropsychopharmacology）搭配在了一起。實際上，它的42個參考文獻可以組成861個期刊組合，其中9個是全新的。

我們發現89%的論文的引用期刊沒有新的組合。而在11%的那些出現了新組合的論文中，大多數（54%）只有1個新組合。

我們用這些分析把論文分成「低創新性」、「中創新性」和「高創新性」三類，然後比較這些論文從2001年到2015年的引用量變化。我們的考察時間比期刊影響因子計算的時間段要長得多。和同領域的低創新性論文相比，高創新性論文要麼一鳴驚人，要麼默默無聞。那些一鳴驚人的論文則需要時間才能得到認可。

在論文發表後的頭三年里，高創新性論文成為高引用論文的前1%的概率小於低創新性論文；但在三年以後它們就能實現趕超。我們並不是說低創新性論文並不重要或沒有影響力，而是說目前的評價系統低估了那些可能具有更高的、更長期的影響力的研究。在發表15年後，高創新性論文成為高引用論文的前1%的可能性比低創新性論文幾乎高60%。而高創新性論文也傾向於發表在影響因子較低的期刊上。

總之，我們的發現說明，我們越依賴短期的定量指標，就越不可能回報那些有希望改變科學疆界的研究以及科學家。我們希望我們的研究結果能夠獲得科學界的共鳴並推動改革。

現在怎麼辦？

想要鼓勵科學家做冒險的研究，就要減少短期文獻計量指標的使用。我們開出的藥方聽起來很耳熟，但是我們的經驗表明這種呼籲還遠遠不夠。

研究者：停止單純依賴短期引用量和期刊影響因子來指導研究課題的選擇和發表的期刊。別在經費申請書中羅列這些指標。

資助機構：堅持使用多種方式來評價申請人和機構的論文。別讓申請人提供短期引用量和期刊影響因子指標。在申請書中把它們劃掉，並禁止在評閱會議中討論它們。邀請主要領域外的專家加入評閱小組，用五年甚至十年的時間窗口定期考察申請人的績效。雖然歐洲研究委員會成立不久，還無法在評估中實施長期考察窗口，但是它迫切希望在未來嚴格地落實這種做法。

評閱人：控制自己別去搜索指標，也別依賴它們，特別是那些考察窗口期在3年以內的指標。

期刊編輯：拒絕那些評價期刊的劣質指標，倡導使用考察期更長的指標來評估期刊。《研究政策》（Research Policy）期刊就是這樣做的，幾個著名出版商（包括《自然》在內）的編輯在一份聯合倡議書中也是這樣建議的。

大學：要求評審委員會閱讀候選人的研究論文，並將這個程序定為標準。REF就是這樣操作的。在評估候選人時要強調研究人員的研究方法。

如果要真正地給出更「客觀」的評估，我們所有人（從職業生涯早期的研究者到資助機構的領導）都需要負責任地使用定性和定量工具。如果我們想要拓寬知識的邊界，我們就必須要避免使用那些不利於潛力最大的研究者和項目的指標。

Naturedoi:10.1038/544411a

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 Nature自然科研 的精彩文章:

※掌握全球一半財富的8位美國人為何都熱衷於慈善？
※木乃伊DNA分析表明古埃及人與古中東人親緣關係更近
※動則2米長的DNA，為什麼不像耳機線那樣容易打結？
※相似的天文學論文，一作為女性的引用比一作為男性低10％
※長春與昆明雖然距離遙遠，但是面對的科研挑戰卻很近似

TAG:Nature自然科研 |

您可能感興趣

※不用亂猜了技術指標正暗示你下跌目標位
※診斷高血脂，得看這2個指標，希望你不會「中標」
※不同糖尿病人，控制血糖的指標也不同！快看看你的血糖達標了沒
※比竇娥還冤的美國戰鬥機！指標樣樣達標，為何卻被怒罵高價低能？
※降糖藥用的對不對，這些指標數值告訴你
※懷孕後，什麼樣的指標才算正常？超出這個指標真的很難瘦
※不同人群控糖目標各不同，這裡的參考指標值得收藏！
※遠離心梗威脅，這項指標別太高！好多人卻不認識
※生產率是評估未來最好的指標
※炒股研究指標，操盤手直言不諱告訴你，都是他做的數據給你看
※胃癌的診斷及預後評估有了新指標！
※美國竇娥戰鬥機！指標樣樣達標，為何卻被怒罵高價低能？
※血脂高不高看哪些指標主要看這三大指標
※肌酐是評估腎臟排毒能力的指標，超過這個數，腎損傷已經很嚴重了
※血脂高不高，主要看這四項指標
※顯示器的主要技術指標之一是解析度
※尿滲透壓，一個被忽視的腎病惡化預測指標！夜尿多的人尤其注意了
※一項指標掌握肝的「生死」，指標升高，說明肝已壞！
※高血壓糖尿病人控制好血壓血糖的同時，還有四項指標你達標了嗎？
※馬上預產期了，順產還是剖宮產？醫生評估一個指標或給出建議