當前位置:
首頁 > 最新 > 阿里巴巴人工智慧機器閱讀理解能力創新紀錄

阿里巴巴人工智慧機器閱讀理解能力創新紀錄

近日,阿里巴巴iDST-NLP團隊提出的模型SLQA+ (ensemble) (Semantic Learning Question Answering)在斯坦福大學發起的SQuAD(Stanford Question Answering)挑戰賽中,取得了第一名並歷史性地首次超越人類閱讀理解,打敗了包括騰訊、微軟亞洲研究院、艾倫研究院、科大訊飛與哈工大聯合實驗室(HFL)、Salesforce、浙江大學、Facebook、谷歌、卡內基·梅隆大學和復旦大學等在內的全球學術界和產業界的研究團隊。

下圖是 SQuAD 榜單排名,其中 EM 表示預測答案和真實答案完全匹配,而 F1 用來評測模型的整體性能。人類在 SQuAD 數據集上的性能分別為 82.304 和 91.221,阿里巴巴提出的模型在EM 值上達到82.440超過82.3的人類水平。 在成績榜單上,可以看到就在不久前的12月28日,同樣是阿里巴巴iDST-NLP提交的模型SLQA+ (single model)在單一模型中效果也最好的, 經過短短一周的迭代集成演算法版本的模型SLQA+ (ensemble)就取得了超越人類的水平。

在SQuAD官方斯坦福大學挑戰賽負責人在推特發文稱:

A strong start to 2018 with the first model to exceed human-level performance on SQuAD"s EM metricl Next challenge:the F1 metric.where humans still lead by~2.5points!

一個強勁的開始,在2018年機器模型首次在精確匹配超越人類,下一個目標就是要在模糊匹配上超越人類。

SQuAD比賽簡介

教機器學會閱讀是自然語言處理領域的研究熱點之一,也是人工智慧在處理和理解人類語言進程中的一個長期目標。 SQuAD挑戰賽被譽為「機器閱讀理解界的ImageNet」,比賽通過眾包的方式構建了一個大規模的機器閱讀理解數據集(包含10萬個問題),可將一篇幾百詞左右的短文給人工標註者閱讀,讓標註人員提出最多5個基於文章內容的問題並提供正確答案;短文原文則來源於500多篇維基百科文章。參賽者提交的系統模型在閱讀完數據集中的一篇短文之後,再來回答若干個基於文章內容的問題,然後與人工標註的答案進行比對,得出精確匹配(Exact Match)和模糊匹配(F1-score)的結果。

SQuAD是一個持續性的挑戰賽,參賽者可以進行調優提交。然後主辦方再定期更新成績。SQuAD向參賽者提供訓練集用於模型訓練,以及一個規模較小的數據集作為開發集,用於模型的調優和選型。與此同時,SQuAD還提供了一個開放平台供參賽者提交自己的演算法,由SQuAD官方利用隱藏的測試集對參賽系統進行評分,並在SQuAD官方確認後將相關結果更新到官網上。

在該輪測試中,阿里巴巴iDST NLP團隊提交的系統模型——SLQA+(ensemble) (Semantic Learning Question Answering+,語意理解問答),主要是使用「基於分層融合注意力機制」的深度神經網路模型,大體上分為這幾步,第一步做問題文檔編碼(Question Document Encoding),第二步進行問題文檔注意力機制(Question Document Attention),第三步可以進行Document Self-Attention,最後一步就是預測輸出層,採取pointer network指導答案區域選擇和分類交叉墒損失(Cross Entropy Output Prediction)。這裡面最核心的問題就是設計這個Attention或者Fusion函數。阿里巴巴iDST-NLP團隊在Attention這部分做得很細緻,積累了很多經驗,從而在全球自然語言理解研究領域脫穎而出躍居頭名。

得益於SQuAD所提供的龐大數據規模,參與該項挑戰賽的選手不斷地對成績進行刷新,SQuAD挑戰賽也逐步成為行業內公認的機器閱讀理解標準水平測試。在今年的ACL大會(自然語言處理領域最頂尖的會議之一)的投稿里,有非常多的論文就是關於這項挑戰賽的研究,其影響力可見一斑。從ACL 2017論文主題的可視分析中可以看到,「reading comprehension(閱讀理解)」是ACL錄取論文中最熱門的關鍵詞和任務,廣受自然語言處理領域研究人員的關注。

阿里巴巴iDST(數據科學研究院)是阿里巴巴專門負責人工智慧的研究機構,隸屬於剛剛成立的阿里巴巴達摩院。其中,iDST 自然語言技術 (NLP) 團隊致力於學術界、工業界一起創新自然語言技術,團隊內的成員普遍擁有10年以上自然語言處理研發經驗,40%以上有博士學歷(如CMU,伯克利,普林斯頓,清華,北大等)。 團隊多次在國際自然語言技術競賽中取得冠軍成績(2016年CIKM Cup 電商搜索,2017年IJCNLP語法糾錯,2017年美國標準計量局信息提取等),在每年的頂級國際會議上都會有一些paper產生。

參考鏈接:

1.https://www.leiphone.com/news/201707/jWVmsN0JICSOzdkp.html

2.https://www.msra.cn/zh-cn/news/features/machine-text-comprehension-20170508

-END-

專 · 知

人工智慧領域主題知識資料查看獲取【專知薈萃】人工智慧領域26個主題知識資料全集(入門/進階/論文/綜述/視頻/專家等)

同時歡迎各位用戶進行專知投稿,詳情請點擊

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 專知 的精彩文章:

深度學習需要了解的四種神經網路優化演算法

TAG:專知 |