2016機器學習與自然語言處理學術全景圖:CMU排名第一
選自marekrei
作者:Marek Rei
機器之心編譯
隨著 2016 年結束,劍橋大學高級研究員 Marek Rei 對人工智慧行業的 11 個主要會議和期刊進行了分析,它們包括 ACL、EACL、NAACL、EMNLP、COLING、CL、TACL、CoNLL、Sem / StarSem、NIPS 和 ICML。本次分析對目前在機器學習與自然語言處理領域的各類組織與院校的科研情況進行了對比。分析顯示,在論文數量上,卡耐基梅隆大學(CMU)高居第一位。
以下各圖所用到的信息均來自網路,每份文件的機構組織信息都是由論文的 pdf 文件中獲取的,並不保證完全準確。
在你看完這份分析,得出自己的結論之前,請注意一個前提:論文的質量遠比數量重要,而論文質量並不在本次分析的範圍內。我們的分析來源於這樣一個動機:我們希望展示深度學習和機器學習領域在過去的一年裡發生了什麼,大公司和院校正在做什麼,希望它能夠為你提供一些幫助。
首先是 2016 年最活躍的 25 個機構:
卡耐基梅隆大學僅以一篇論文優勢擊敗谷歌。2016 年,微軟和斯坦福也發表 80 多篇論文。IBM、劍橋、華盛頓大學和 MIT 都抵達了 50 篇的界線。谷歌、斯坦福、MIT 以及普林斯頓大學明顯關注的是機器學習領域,論文發表幾乎都集中在了 NIPS 和 ICML 上。實際上,谷歌論文幾乎佔了 NIPS 所有論文的 10%。不過,IBM、北大、愛丁堡大學以及達姆施塔特工業大學(TU Darmstadt)顯然關注的是自然語言處理應用。
接下來,看看作者個人情況。
Chris Dyer 繼續他驚人的論文發表勢頭,2016 年共發表了 24 篇論文!我很好奇為什麼 Chris 不發 NIPS 或 ICML,但他確實在每一個 NLP 會議都有一篇論文(除了 2016 沒有開的 EACL)。緊跟之後的是 Yue Zhang (18)、Hinrich Schütze (15)、Timothy Baldwin (14) 和 Trevor Cohn (14)。來自哈爾濱工業大學的 Ting Liu 在 COLING 上就發了 10 篇論文。Anders S?gaard 和 Yang Liu 在 ACL 上都有 6 篇論文。
下面是 2016 年最高產的第一作者:
三位研究者發表了六篇第一作者論文,他們是 Ellie Pavlick(賓夕法尼亞大學)、Gustavo Paetzold(謝菲爾德大學)和 Zeyuan Allen-Zhu(普林斯頓大學高級研究所)。Alan Akbik(IBM)發表了 5 篇第一作者論文,還有七位研究者發表了四篇第一作者論文。
另外有 42 人發表了三篇第一作者論文,231 人發布了兩篇第一作者論文。
接下來看看在時間序列上的排布,首先,在不同會議上發表的論文總數:
NIPS 一直以來每年都有一場規模很大的會議,今年看起來更是不得了。另外,COLING 今年的表現超過了預期,甚至超過了 ACL。這是自 2012 年 NAACL 和 COLING 合并以來的第一次。
下面是每個組織機構的歷年來的論文數量:
在 2015 年超過微軟之後,CMU 繼續領跑。但是谷歌也大步跨越,幾乎快追上來了。斯坦福的表現也很搶眼,後面跟著 IBM 和劍橋大學。
最後,讓我們來看看個人作者:
在圖上可以看到,Chris Dyer 有一條非常明顯的上升曲線。其他過去五年來一直保持增長的作者:Preslav Nakov、Alessandro Moschitti、Yoshua Bengio 和 Anders S?gaard。
最後,我也決定做一張關於主題建模(topic modeling)的論文的圖。首先,我提取了所有論文的純文本,將其表徵化和小寫化,並移除了 stopword。接著,我使用 LDA 對其進行了處理以發現 10 個隱主題(latent topic)。然後我使用 t-SNE 可視化了最靠前的作者,並基於它們的隱主題相似度將其做成了一張二維圖。最後,我手動為每一個聚類標註了一個詞(根據 LDA 找到的排名最高的術語)。下面是前 50 位作者的可視化圖:
我也為組織機構做了一張同樣的圖,但不打算用簡單的單詞做標記,因為重點大學會在不同的子領域發表研究。你可以自行分析這些內容:
※前沿 | Nature:量子計算機或將在2017年走向實用化
※理論引導的數據科學:一種用於科學發現的新範式
※強化學習教父Richard Sutton:也許能在2030年之前實現強人工智慧演算法
※Yoshua Bengio研究生科研指導演講:解讀人工智慧全貌和下一個前沿
※Nature 2017 年十一大展望:繼續探索事件視界
TAG:機器之心 |
※現場:ACL 2017 Day 0, 計算機語言學思想碰撞的浪潮開啟 | ACL 2017
※2017年6月TIOBE編程語言排行榜:Java穩居第一
※Mike Long 2015《第二語言習得與任務型教學》
※x86彙編語言進階-i386(1)現代CPU架構
※ECMAScript 2017 語言規範發布
※2017年最值得學習的編程語言TOP,10
※SSCI期刊《語言與文學》主編McIntyre在2017年第九屆國際語料庫語言學大會的主旨發言「語料庫文體學」
※2017年最值得學習的編程語言TOP
※2017年6月TIOBE編程語言排行榜:Kotlin進入Top 50
※2017同等學力中國語言文學《中國古代文學》備考特刊02期
※自然語言處理領域的前沿技術:EMNLP 2017最佳論文公布
※2017年7月TIOBE編程語言排行榜:Go飆升首次進入Top 10
※2017 最佳編程語言 Top 10
※學習筆記TF021:預測編碼、字元級語言建模、ArXiv摘要
※2017年6月TIOBE編程語言排行榜:Python熱度持續上升
※2017年ACL的四個NLP深度學習趨勢(一):語言結構和辭彙嵌入
※Python成為2017年最受歡迎的編程語言:排名第一
※「BigBang」「新聞」170618 GD澳門演唱會完美落幕,中英韓三國語言甜蜜表白
※2017年C語言C加加學習路線圖 珍藏此文足夠了