當前位置:
首頁 > 新聞 > 用兩萬篇論文告訴你:機器學習在過去五年中發生了什麼

用兩萬篇論文告訴你:機器學習在過去五年中發生了什麼

arXiv.org 是一個專門收集物理學、數學、計算機科學與生物學論文預印本的網站。數據顯示,截至 2014 年底的時候,arXiv 已經達到了一百萬篇以上的論文藏量,並且還在以每月 8000 篇的速率增長。算是目前全球最具規模的論文資料庫之一。

近日,來自斯坦福大學計算機學院的博士畢業生、OpenAI 的高級科學家 Andrej Karpathy 基於一份 arXiv 機器學習論文大數據,從論文數量、開源框架、數學模型和優化演算法等多個方面對過去五年中的機器學習變化趨勢進行了詳細分析,並將分析結果發布在個人博客上。以下內容整理自該博客,雷鋒網編譯。

想必你一定聽說過谷歌趨勢(Google Trends)或者百度指數這種工具,任意輸入一個關鍵詞,就能立刻看到關於該詞在過去幾個月甚至幾年之內的變化趨勢。受此啟發,碰巧我手邊正好有一份 arXiv 論文數據集,它收集了過去五年中機器學習相關的 28303 篇論文。那麼與谷歌趨勢類似,從這些論文中,我們能否看到一些機器學習領域的科研發展趨勢呢?我就此進行了詳細的數據分析,發現這個結果相當有趣,因此在這裡把它分享出來。

論文總量

首先我們看一下論文數量。在過去五年中,arXiv 收集的機器學習論文數量變化情況如下圖所示。

用兩萬篇論文告訴你:機器學習在過去五年中發生了什麼

從上圖可以看到,論文總數在 2017 年 3 月出現了一次激增,從時間上看可能是由於 NIPS 和 ICML 等大型會議的論文提交截止日期正好在 3 月。而且有一點需要說明的是,arXiv 的論文數據集雖然全面,但也並不能完全代表整個機器學習行業的變化趨勢,因為畢竟不是所有人都習慣於將自己的論文投遞到 arXiv 網站上。不過,從上圖我們仍然可以看到一個明顯的上升趨勢,這說明機器學習的熱度的確在持續地上升中。

下面我們將以這些論文作為研究材料,看看其中包含著怎樣的變化趨勢。

深度學習框架

首先看看深度學習框架的情況。這裡我記錄了在 2017 年 3 月上傳的所有論文中(包括參考書目和論文內容)提到的機器學習框架情況:

用兩萬篇論文告訴你:機器學習在過去五年中發生了什麼

可以看到,在 2017 年 3 月份提交的所有論文中大約有 10% 都提到了 TensorFlow。當然,並不是每一篇論文都聲明了框架的使用,但是如果我們假設論文以某一固定的概率分布來聲明框架,並且這個概率與框架本身無關的話,那麼大概有高達 40% 的社區都在使用 TensorFlow(如果也算上用 TensorFlow 作為 Keras 後端的論文,這一比例將會更大)。下面是這些框架隨時間變化的趨勢:

用兩萬篇論文告訴你:機器學習在過去五年中發生了什麼

可以看到,Theano 已經高速發展了一段時間了,但近期它的增速正在放緩。Caffe 從 2014 年前後開始快速爆發,但在過去幾個月中已經被強大的 TensorFlow 反超。Torch(以及最近的 PyTorch)也處於上升期,雖然增速略顯緩慢,不過增長穩定。我估計再過幾個月再來看這個結果會更有趣,因為根據我的估計,未來 Caffe 和 Theano 將會緩慢衰落,而由於 PyTorch 的崛起,TensorFlow 的增速可能會放緩。

卷積神經網路模型(CNN)

下面再看一下卷積神經網路的情況,從下面的圖表中可以清楚地看到,作為 CNN 領域裡重要里程碑的 ResNets(深度殘差網路)在 2016 年底的激增情況,在 2017 年 3 月提交的所有論文中甚至有大約 9% 都提到了 ResNets。

用兩萬篇論文告訴你:機器學習在過去五年中發生了什麼

另外,這裡還能看到在谷歌 InceptionNet 之前,實際上已經有論文提到了 inception 的概念。

優化演算法

在優化演算法方面,Adam 演算法可以算是應用最多的一個,大約有高達 23% 的論文都提到了它。這裡需要說明的是,在實際使用中 Adam 演算法的採用率可能更高,因為許多論文都不會顯式地聲明優化演算法,更有一部分論文甚至不會闡述關於神經網路優化的內容。另外,從圖表中還能看出,在 2014 年 12 月 Adam 優化演算法被正式提出之前,實際上也有一些論文提到了 「Adam」 關鍵詞,它的概率大約維持在 5% 左右,我猜想可能是因為有許多作者的名字也叫 Adam 的緣故。

用兩萬篇論文告訴你:機器學習在過去五年中發生了什麼

研究者

這裡我還很好奇地研究了一下深度學習領域各位大牛的名字在論文中的變化情況,結果如下圖所示。需要說明的是,這裡的僅根據關鍵詞統計的方式很粗糙,另外我還做了一些歸一化操作。

用兩萬篇論文告訴你:機器學習在過去五年中發生了什麼

從圖表中可以看到,在所有提交的論文中,大約有 35% 提到了 bengio,但這裡實際上有兩個人: Samy 和 Yoshua,圖中是兩人加起來的結果。另外需要特別指出的是,在所有新論文中有超過 30% 都提到了 Geoff Hinton 大神,這一點很強大。

關鍵詞

最後一部分是關鍵詞。這裡我首先統計了所有一元關鍵詞和二元關鍵詞在論文中的出現情況 ,並對當下和一年之前這些辭彙的最大採用率做了對比。這裡我作為基準採用的論文都是一些近兩年被引用次數最高的優秀論文。以下是一些排名靠前的關鍵詞:

用兩萬篇論文告訴你:機器學習在過去五年中發生了什麼

以 ResNet 舉例來說,它的相對熱度之所以是 8.17,是因為它在 2016 年 3 月所有論文中的採用比是 1.044%,而到了今年 3 月,它的採用比則增長到了 8.53%,用兩個百分比相除,就得到了 8.17。

從以上圖表可以看出,在過去一年中最火熱的機器學習創新技術包括:ResNets、GAN、Adam 和 BatchNorm。在研究方向上熱詞包括:風格轉換(style transfer)、深度強化學習(deep RL)、神經網路翻譯以及圖像生成等。最後,在模型方面可以看到:全卷積網路(FCN)、 LSTMs/GRUs、Siamese Nets 以及 Encoder decoder nets等熱詞。

用兩萬篇論文告訴你:機器學習在過去五年中發生了什麼

與之相反,哪些關鍵詞在過去一年中出現了下滑,變成了最冷門的關鍵詞?我整理了以下排名:

用兩萬篇論文告訴你:機器學習在過去五年中發生了什麼

可以看到,fractal(分形) 和 bayesian(貝葉斯)相關的內容在近一年的時間中熱度衰減嚴重

總結

話說,看完了所有的分析結果,你不趕緊寫一篇基於全卷積神經網路、BatchNorm、ResNet 和 GAN 技術,通過 Adam 演算法優化,並應用於風格轉換的論文么 :)

來源:medium,雷鋒網(公眾號:雷鋒網)編譯

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

雲計算正在向邊緣計算轉移
L3級別自動駕駛、全新車架材料,「柴油門」陰影下的奧迪要用新一代A8入局今秋市場
普華永道最新調查:金融科技再轉型,最能留住客戶的因素有哪些?
阿木擔任樂視移動CEO 馮幸離職要坐實?

TAG:雷鋒網 |

您可能感興趣

任天堂這款機器已經20年了,現在它出了4K版
童年經典《哆啦A夢》,機器貓說了什麼,日本網友都怒了
在日本,這四款家用機器人據說賣的最好!
那些年我們錯過的好遊戲系列01-第三次機器人大戰,還有那些回不去的童年
一篇文章帶你徹底了解什麼是機器學習
發霉啦:今天,我跟一個智能機器人吵了起來
14歲就開發出一款聊天機器人是什麼樣的體驗
有一天發現你家的娃是個機器人,千萬別慌!
20年後,史上首個「敗給機器的大師」出版了他的回憶錄
我這日子都過成這損樣了,我的後代還沒有送機器貓過來……
時代變了:兒童在4歲就應該開始學習機器人
谷歌大腦實習一周年:50 篇論文看機器學習、計算機視覺趨勢
機器學習決策樹的分裂到底是什麼?這篇文章講明白了!
叫爸爸,過年我就給你買這個機器人
圍觀史上最沒用的機器人 第一個我就給跪了
機器人醫生的時代即將到來——深度學習採用腦掃描圖預測老年痴呆
2016年,這十篇論文讓「軟體機器人」不再遙遠
那些年,你中了幾個像大白、瓦力這樣萌萌噠機器人的毒?
《資本論》第一卷出版150年講座 機器會解放人類嗎?