可視化NIPs等AI頂級會議影響力：大約20%論文從未被引用

新聞 09-28

1新智元編譯

可視化NIPs等AI頂級會議影響力：大約20%論文從未被引用

兩個關鍵概念

可視化NIPs等AI頂級會議影響力：大約20%論文從未被引用

Citation flow（引文流）：上面的彩色扇形，概括了某個領域的會議（中間的灰色點）的論文總體引用數量以及被引用的該領域中top 25的其他會議或期刊。從左到右：機器學習領域的NIPS，編程語言設計和實現領域的PLDI，web搜索和數據挖掘領域的WSDM。

所有Citation flow：http://cm.cecs.anu.edu.au/post/citation_flow/

可視化NIPs等AI頂級會議影響力：大約20%論文從未被引用

Citation survival：上圖中，具有線性趨勢的橙色點表示引文生存率（citation survival rates），即一個會議的論文中，在論文發表後至少X年或更長時間裡被引用過至少一次的比率。這個名字是Jacob Eisenstein創造的。從左到右：自然語言處理領域的ACL，編程語言設計和實現方面的PLDI，計算生物學的ISMB。

了解更多Citation survival：http://cm.cecs.anu.edu.au/post/citation_survival/

下面解釋一下本研究的動機、方法和應用。詳細的引文圖表可以參閱這個頁面：http://cm.cecs.anu.edu.au/tags/citation/

研究動機

一個會議的學術影響力來自哪裡？如果你在一個會議發表過論文，或參加過某個會議，或者即將要進入一個圍繞學術會議的研究社區，你可能會想知道這個社區的知識遺產是什麼。
在學術圈子的集體記憶中，有多少篇論文被記住？被記住多長時間？曾經有一場激烈的討論說：兩年內是否80%的論文就被遺忘了？劇透：對於我們的研究中涉及的大多數會議來說不是這樣，但是大約20%的論文根本就從來沒有被引用。
在過去的幾年裡，引用的行為模式有發生變化嗎？劇透：是的，尤其是在2005年或2006年之後，我們可以會將其命名為「學術搜索效應」。

以上是我們做這項研究的動機問題。

數據和方法

我們的數據源是Microsoft Academic Graph（MAG），具體來說是2007年2月發布的版本。我們按venue將論文進行分組，並利用MAG標註所有論文的引用和被引用。分析時間主要是從2015年底到2016年。數據處理，繪圖和報告生成的代碼在這個存儲庫中共享：https://github.com/lexingxie/academic-graph

發現

在大多數會議中，論文被引用的比例(即在發表後，被引用至少一次)是80%左右。例如，SIGMOD是81%，SIGIR是78%，NIPS是83%。也有例外，SIGGRAPH是47%，CRYPTO是89%。
論文發表20年或以上之後，被引用論文占所有論文的比例，從10%（NAACL），20%（OOPSLA），到40%（ACL），60%（CRYPTO）各不相同。這個統計數據與會議的歷史高度相關——大多數會議只有20多年的歷史，而且20年前發表的論文數量(也就是1995年以前)的數量是相當少的。一個極端的例子是ISIT，1973年有兩篇論文，直到1991年才再次有論文發表。
集體學術記憶的長尾：對於大多數會議來說，top25的會議中有60%~70+%的本會議內或其他會議論文的引用，但是不管是參考（reference）還是引文（citation）的總數都在1000~2000左右。
學術搜索效應（scholar search effect）：在2005或2006年之後，對舊論文的引用變得更多。這可能是因為學術搜索引擎變普及，查找舊論文變得更容易了。

示例：NIPS（1987-2015）會議引用模式數據和圖示

數據：

29年歷史（1987-2015），共計6483篇論文。
共計38246次列入參考文獻，平均每篇論文被列入參考文獻5.9次

-1498個不同的參考文獻來源，top 25的佔了64%

共計131082次引用，平均每篇文章被引用20.22次

-3275個不同的引用來源，top 25的佔了57%

-引文生存率：當年0.83；10年0.60；20年0.32

可視化NIPs等AI頂級會議影響力：大約20%論文從未被引用

上圖左是NIPS會議論文中引用和被引用論文的截圖。（詳見圖4）右圖生存率表示在發表x年之後還活躍／被引用的論文比率。（詳見圖10）

本頁中的其餘圖示大體可歸為幾下幾類：

圖1-圖3：論文的基本數據，被列為參考文獻的次數、引用次數。
圖4-圖5總結了這些年間所有的引用，分類為引用（incoming citation，該會議論文中引用的文獻）和被引（outgoing citation，該會議的論文被其他來源的論文引用）。
圖5和圖6通過年份來分解引用和被引的情況。
圖7和圖8分解了在NIPS會議上，當年被引用的參考文獻。對大多數會議來說，存在「谷歌學術」效應，就是說年代越久遠的論文被引用的次數越多。
圖9-圖11探討了「在最少x年後，還有多少論文仍被引用」以及哪些論文從未被引用過。

可視化NIPs等AI頂級會議影響力：大約20%論文從未被引用

圖1：整體論文數據。左側是每年發表的論文數量；右側是每年發表論文被列作reference和citation的平均數。

可視化NIPs等AI頂級會議影響力：大約20%論文從未被引用

圖2：整體reference數據。左側是每年發表的論文被列作reference的總數；右側是NIPS發表的論文被列為reference的數量。

可視化NIPs等AI頂級會議影響力：大約20%論文從未被引用

圖3：整體引文數據。左側是每年發表論文被列作引文的總數；右側是NIPS發表的論文被列為citation的數量。

可視化NIPs等AI頂級會議影響力：大約20%論文從未被引用

圖4：top-k的incoming/outgoing引用。節點顏色：引用率（outgoing ideas,紅色）vs參考文獻（incoming ideas，藍色）。節點大小：在任一方向，引用和參考文獻總數。藍色邊緣的厚度由離開既定會議的參考文獻數量決定；紅色邊緣的厚度由流入既定會議的參考文獻數量決定。節點由左到右，由incoming/outgoung引用的方式分類。

可視化NIPs等AI頂級會議影響力：大約20%論文從未被引用