「ACL 2017 七大看點」北大、清華、中科院、復旦5 篇傑出論文
1 新智元報道
國際計算語言學協會 (ACL,The Association for Computational Linguistics),是世界上影響力最大、最具活力的國際學術組織之一,其會員遍布世界各地。ACL 會議是計算語言學領域的首要會議,廣泛涉及自然語言的計算方法及其各類研究領域。ACL 2017 除了主要會議之外,還如同其他頂級會議一樣包含研討會、專題報告、研習會和演示等。第 55 屆國際計算語言學協會(ACL)年會將於北京時間 7 月 31 日—8 月 5 日在加拿大溫哥華舉行(當地時間比北京時間晚 18 小時)。
接收論文:IE QA 文本挖掘應用佔比最高
本屆會議共收到 1419 篇投稿(長文 829篇,短文 590 篇),有 1318 篇文章(長文 751 篇,短文 567 篇)被發送出去接受審稿。最終,接收論文 302 篇(長文 195 篇,短文 107 篇),錄取率 22.91%,與往屆大致持平。
在整理投稿的過程中,我們可以發現一些很有趣的數字,也反映了一些很有趣的情況。
1. 提交時間
長文提交時間表:在截稿時期的最後 24 小時,提交數量陡增。
看見這個表,ACL 2017 的程序主席 Regina Barzilay 撰文表示,ACL 2017 委員會在大約還有 24 小時就要截稿的時候非常擔心,因為那時候才僅僅收到 342 篇投稿,這次似乎邀請了太多的審稿人。但是很快,他們的心就放了下來——在截稿時間最後 24 小時,提交數量驟增。Barzilay 不禁感嘆,看上去拖延症(或者說得好聽些,追求完美)深深根植於 ACL 研究群體……
2. 投稿熱門子領域
下面再來看看排名前 10 的子領域。
上圖是根據投稿數量製作的餅圖。可以看出,
排名第一的是「信息提取、檢索、問答、文檔分析和自然語言處理應用」,有 308 篇投稿(長文 192 篇,短文 116 篇),佔據了總投稿數量的 23.4%
第二是語義,159 篇投稿(長文 100 篇,短文 59 篇),佔比 12.1%
第三是機器翻譯,108 篇投稿(60 篇長文,短文 48 篇),佔比 8.2%
機器學習以 93 篇投稿(55 長,38 短)排名第 4,佔比 7.01%
下面是各個子領域具體投稿數量,其中列出了預期投稿數(第一欄綠色鋪底,其中紅色數字代表了領域出現了意外的增長)。
可以發現,「對話和交互系統」在今年 ACL 投稿中的熱度——有了超出 59.7% 的增長,這可能與亞馬遜 Echo 和 Google Home 等智能音箱產品走熱有關。其次是機器人視覺基礎(Vision Robots Grounding),出現了 41.9% 的增長。機器學習以 34.4% 排在第三。
組委會將 2017 年的投稿情況與 2014 年的做了對比(見下),僅僅相差 3 年,在 ACL 2017 排名第 5 的 Summarization & generation,在 ACL 2014 連前 10 都沒有進。
3. 接收論文
接收論文 302 篇(長文 195 篇,短文 107 篇)。其中,各子領域的情況與投稿情況大致相同,也是 IE QA 文本挖掘應用排第一,語義、機器翻譯列第二、第三。社交媒體類的論文在被接收論文中數量排名第四。
生物醫學:3篇(0.99%)
認知建模與心理語言學:4篇(1.32%)
對話交互系統:16篇(5.30%)
語篇語用學:16篇(5.30%)
摘要生成:20篇(6.62%)
IE QA 文本挖掘應用:56篇(18.54%)
機器學習:19篇(6.29%)
機器翻譯:27篇(8.94%)
多學科論文:10篇(3.31%)
多語言論文:9篇(2.98%)
音系形態學詞分割:8篇(2.65%)
資源評估(Resources Evaluation):11篇(3.64%)
語義學:39篇(12.91%)
社交媒體:22篇(7.28%)
語音:3篇(0.99%)
標註塊語法分析(Tagging Chunking Syntax Parsing):20篇(6.62%)
機器人視覺基礎:7篇(2.32%)
情感分析和觀點挖掘:17篇(5.63%)
ACL 2017 還有 21 篇 TACL 論文展示,以及 21 個軟體演示。
上面的結果可以有直觀的表示:
接收論文數量:藍色代表長文,綠色短文。(紅色和紫色分別代表軟體演示和在 TACL 發表的論文。)可以發現,IE QA 文本挖掘應用在接受論文中數量第一,其次是語義學,機器翻譯排第三(長短文數量總和)。
研討會、研習會:機器學習和深度學習是絕對關鍵詞
ACL 2017 共有 32 個 workshop,其中有首次舉辦的「神經機器翻譯」、「網路語言濫用」等 workshop,也有第 21 屆北歐計算語言學大會和第 11 屆語言注釋(Linguistic Annotation)這些超過 10 年的 workshop。
根據官網最新公布的信息,ACL 2017 有 6 場 tutorial,其中有 4 場都冠名機器學習和深度學習,分別是:①多模式機器學習:整合語言、視覺和語音,②語義構成中的深度學習,③對話系統中的深度學習,④多單詞表達和搭配中的深度學習,可見計算語言學中興起的機器學習和深度學習浪潮,尤其是深度學習。
ACL 2017 還有 23 場 Student Research Workshop,這裡的內容涵蓋就很全面了,從分散式表示到 Attention 再到 Twitter 顏文字都有,但大部分都同時提到了機器學習或深度學習。
大會主旨演講
ACL 2017 有兩場 invited talks,一場偏理論,一場偏應用。
第一場:Noah Smith(華盛頓大學)
計算語言學和自然語言處理社區如今興起了表示學習(representation learning)熱潮。我將介紹在自然語言模型中使用表示學習的新方式。需要注意,一個數據驅動的模型總是有一個假設的理論(不一定是好的),我將論證語言相適應的歸納偏差(language-appropriate inductive bias)對結合了表示學習的語言模型的好處。這種偏差通常表現為模型中蘊含的假設,受限於推理演算法或應用於數據的語言分析。事實上,幾十年的語言學研究(包括計算語言學)使我們現在能很好地發現歸納偏差,而新的模型又可能使我們得以探索以前不可用的偏差形式,產生語言學的新發現。我將重點關注新的文檔模型和語義結構,也會強調抽象的、可重複使用的組件及其假設(而非應用)。
第二場:Mirella Lapata(愛丁堡大學)
近年來,人們開發了大量計算工具來處理和生成自然語言文本。其中許多都變得廣為人知,比如網路搜索,問答,情緒分析,尤其是機器翻譯。網路的普及可以進一步增強這種處理,其應用不僅在不同語言之間(例如,從英語到法語)進行翻譯,也包括在相同的語言之間,在不同的模式之間或不同的數據格式之間進行翻譯。由於大多數檢索工具對文本數據進行操作,所以網路中的非語言數據(例如視頻,圖像,源代碼)不能被索引或搜索。
在這個演講中,我會討論為了使個人和計算機的電子數據更易於訪問需要開發的新的翻譯模型。我將重點介紹三個示例,文本簡化,源代碼生成和電影摘要生成。我將說明如何擴大深度學習的最新進展,以便引導不同模式的一般表述,並學習如何在這些和自然語言之間進行翻譯。
中國大陸 5 篇傑出論文:清華、北大、復旦、中科院自動化所
今年早些時候,ACL 2017 公布了傑出論文,共有 22 篇。其中,有 6 篇第一作者是華人。在這當中,又有 4 篇來自中國大陸,清華、北大、復旦和中科院自動化所各有一篇入選。
下面根據每篇傑出論文在 ACL 2017 上展示的時間來排列:
論文:神經機器翻譯的可視化及理解(Visualizing and Understanding Neural Machine Translation)
作者:丁延卓、劉洋、欒煥博、孫茂松(清華大學)
論文:了解和檢測有爭議問題的各種支持論證(Understanding and Detecting Diverse Supporting Arguments on Controversial Issues)
作者:Xinyu Hua and Lu Wang(美國東北大學)
論文:一種用於文本層面話語分析的兩段解析方法(A Two-stage Parsing Method for Text-level Discourse Analysis)
作者:Yizhong Wang, Sujian Li and Houfeng Wang(北京大學)
論文:用於抽象文檔總結的基於圖的注意力神經模型(Abstractive Document Summarization with a Graph-Based Attentional Neural Model)
作者:Jiwei Tan, Xiaojun Wan and Jianguo Xiao(北京大學)
論文:通過一種基於新穎的打標籤方案,對實體和關係進行聯合提取(Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme)
作者:Suncong Zheng, Feng Wang, Hongyun Bao, Yuexing Hao, Peng Zhou and Bo Xu(中科院自動化所)
論文:命名實體識別和提示檢測的本地檢測方法(A Local Detection Approach for Named Entity Recognition and Mention Detection)
作者:Mingbin Xu, Hui Jiang and Sedtawut Watcharawittayakul(加拿大約克大學)
論文:中文詞分割的對抗多標準學習(Adversarial Multi-Criteria Learning for Chinese Word Segmentation)
作者:陳新馳、施展、邱錫鵬、黃萱菁(復旦大學)
主席團隊:華人學者分布在 18 個領域中的 9 個領域
ACL 2017 的大會主席是賓夕法尼亞大學的 Chris Callison-Burch,兩位程序主席是上面說過的 Regina Barzilay(MIT)和新加坡國立大學(NUS)的 Min-Yen Kan 教授。
由於論文的生殺大權基本掌握在領域主席手裡,我們專門用一小節來看 ACL 2017 的領域主席。本屆大會有 61 位領域主席,分布在 18 個子領域,各領域主席人數與投稿數量基本相符。其中,華人學者分布在下面 9 個子領域,不乏中國大陸學者的身影。
Discourse and Pragmatics: Yangfeng Ji, 李素建(北京大學)
Information Extraction and NLP Applications: Chia-Hui Chang, Jing Jiang, 劉康(中科院自動化所), 劉鐵岩(MSRA)
Machine Learning: 王威廉
Machine Translation: 劉洋(清華大學),Minh-Thang Luong,米海濤(中科院計算所), 熊德意(蘇州大學)
Sentiment Analysis and Opinion Mining: Lun-Wei Ku
Social Media: 劉知遠(清華大學), Shimei Pan
Speech: Chia-ying Lee
Summarization and Generation: Wenjie Li(香港理工大學)
Tagging, Chunking, Syntax and Parsing: Yue Zhang, 趙海(上海交通大學)
其他子領域,比如認知建模與心理語言學、對話和交互系統,沒有華人主席的就沒有列出。
贊助企業:BAT 齊聚,還有華為、搜狗、今日頭條
大會的贊助商從一定程度上反映了與產業界的聯繫,從中也能看出學術成果的產業轉化情況。ACL 2017 的贊助商數量雖然不如剛結束的 CVPR 2017 那樣多,但列出來看還是很有重量——國外巨頭如谷歌、亞馬遜、Facebook、微軟、IBM,國內有 BAT、華為、搜狗、今日頭條——而中國企業(尤其是 BAT)已經在其中佔據了重要位置。
白金贊助商有 7 家:
金牌贊助商:
銀牌贊助商:
銅牌贊助商:
支持單位:
特設環節:本屆 ACL 將為預印版論文制定評審政策
本屆大會還在第二天中午特意開設了一個「meta conference」環節,討論雙盲評審以及 ArXiv 預印版相關話題。
許多研究表明,當工作的客觀價值保持不變時,單盲評審會導致評審人更偏向於某些類型的研究人員。因此,所有 ACL 會議和大多數研討會都使用雙盲評審制度。而以 ArXiv 為代表的在線預印伺服器的流行,在一定程度上威脅到了雙盲評審過程。本屆 ACL 會公開討論一個針對預印版的政策。不僅如此,大會針對 ArXiv 的使用情況也做了調研。
根據報告《Report on ACL Survey on Preprint Publishing and Reviewing》,調查於 2017 年 6 月進行,收到了 623 份完整的回復。絕大多數受訪者(93%)是現任或前任 ACL 成員,樣本占協會成員總數的 20% 左右,在地域、性別和學術背景等方面均具有代表性。
受訪者構成(從左到右):地域、性別和角色。17% 來自亞太地區,美洲 36%;72% 為男性;教授 28%,研究生 32%。
結果顯示,有近半數受訪者(53%)很少或從未使用預印伺服器來託管他們的研究論文,近五分之一(22%)經常或總是這樣做。
不願意將論文放在預印刷伺服器上的作者,多是因為打算在會議或期刊上發表,並希望確保雙盲評審制度。而經常將研究論文放在預印伺服器上的作者,有 28% 的人傾向於在接到通知前就上傳,另外 43% 的人願意等到論文被接收後再上傳。那些還沒接到通知就上傳論文的人主要是想宣傳自己的研究,或者是想搶論文發布的時間點(自己最早發表)。
至於是否閱讀或引用預印版論文,結果顯示,絕大多數調查對象(86%)有時會讀,較少一些(54%)有時候會引用。那些不傾向於引用預印版論文的人幾乎一致表示自己更願意引用發表過的論文(如果有的話),同時認為預印版未經同行評議因此可靠性存疑。
最後,在被問及對未來 ACL 會議評審預印版論文政策時,絕大多數受訪者(88%)認為在 ACL 會議上進行雙盲評審至關重要。這些人中的約 75%(總受訪者的 65%)認為雙盲評審比能夠提交預印本更重要。只有少數人(9%)認為預印出版比雙盲評審更重要。
總結起來,很多受訪者都表示雙盲評審十分重要,同時預印版也加快了學術交流和傳播。許多受訪者認為,解決預印版和雙盲評審之間衝突的最佳方式是讓預印版伺服器臨時屏蔽作者身份(其他方面保持不變)。
還有很多受訪者表示論文評審質量的下降表示了擔憂。
更多調查信息可以查看報告:https://www.aclweb.org/portal/sites/default/files/SurveyReport2017.pdf
ACL 2017 將在北京時間 8 月 3 日公布最佳論文及終身成就獎等獲獎信息,請關注新智元後續報道了解更多。
※「了不起的晶元」IEEE 盤點27款震撼世界的晶元,你認識哪些?
※「薦書」DeepMind哈薩比斯狂推的神經科學,入門需要看什麼書?
※「裴健當選SIGKDD主席」研究被引超7萬次,他還有一個遺憾|專訪
※沈向洋宣布微軟開發 AI 晶元HPU,劍指英偉達等晶元巨頭軟肋
※「CVPR 2021主席出爐」譚鐵牛、虞晶怡當選,未來4年6位華人主席
TAG:新智元 |