當前位置:
首頁 > 新聞 > 接連刷新SQuAD紀錄,阿里、MSRA機器閱讀理解準確率超越人類

接連刷新SQuAD紀錄,阿里、MSRA機器閱讀理解準確率超越人類

雷鋒網 AI 科技評論消息,2018 年對於 NLP 領域、特別對於中國 NLP 研究來說,想必是不平凡的一年。在斯坦福大學發起的 SQuAD(Stanford Question Answering Dataset)文本理解挑戰賽上,以阿里巴巴、 微軟亞洲研究院(下稱 MSRA)為代表的中國研究團隊在近日相繼刷新了 SQuAD 紀錄,機器閱讀能力的準確率首次超越人類。

官網顯示,阿里巴巴與 MSRA 目前並列 SQuAD 榜單的第一名。

阿里巴巴 iDST NLP 團隊於 1 月 5 日提交的 SLQA + 在 EM 值(Exact Match, 表示預測答案和真實答案完全匹配)上也獲得了 82.440 的優秀成績,F1 值(F1-score,評測模型的整體性能)則為 88.607。

MSRA 自然語言計算組於 2018 年 1 月 3 日提交的 R-NET 模型在 EM 值上獲得了 82.650 的成績,在 F1 值上的表現為 88.493 。

兩個團隊的 EM 值成績都超越了人類在該項目上的得分——82.304,這也標誌著,機器閱讀理解準確率超越人類這一看似困難重重的目標,在 2018 年已經成為現實。

接連刷新SQuAD紀錄,阿里、MSRA機器閱讀理解準確率超越人類

SQuAD(Stanford Question Answering Dataset)是行業內公認的機器閱讀理解領域的頂級水平測試,被譽為機器閱讀理解領域的 ImageNet。它構建了一個包含十萬個問題的大規模機器閱讀理解數據集,選取超過 500 篇的維基百科文章。機器在閱讀數據集內的文章後,需要回答若干與文章內容相關的問題,並通過與標準答案的比對,得到精確匹配(Exact Match)和模糊匹配(F1-score)的結果。

在最新榜單中,包括騰訊、科大訊飛在內的中國研究團隊也有著不俗表現,成績取得了相應的大幅提升。科大訊飛與哈工大聯合實驗室(HFL)、微軟都曾經刷新過 SQuAD 的紀錄,雷鋒網 AI 科技評論也曾做過相關報道。

機器閱讀理解技術擁有廣闊的應用場景,比如在精準問答上能為用戶提供極大的幫助;另外,它也能推動很多 NLP 相關領域的進步,如知識的表示、上下文篇章理解、知識推理等。

阿里巴巴自然語言處理首席科學家司羅表示,未來希望能向終極目標邁進,即機器真正對通用內容「能理解會思考」。

據了解,阿里巴巴 iDST NLP 團隊在本次 SQuAD 的榜單上獲得第一,主要得益於其提出的「基於分層融合注意力機制」的深度神經網路模型。這一模型能夠模擬人類在閱讀理解中所產生的行為,包括審題、帶著問題閱讀文章,對文章進行標註等。

這樣一來,模型能夠在找尋問題與文章關聯的同時,藉助分層策略,逐步集中注意力,使答案邊界清晰;另外,採用「融合方式將全局信息加入注意力機制」,以確保關注點正確。

這一技術實際上已被應用於阿里巴巴內部,例如顧客在雙十一期間對活動規則進行諮詢,阿里小蜜通過機器閱讀理解技術,幫助顧客進行相關問題的解答。又如,這一技術能夠幫助顧客閱讀商品詳情頁,智能提取信息,為顧客直接解答基礎問題等。

MSRA 副院長、自然語言計算組負責人周明博士也第一時間對研究院的優秀成績表示祝賀:「祝賀中國的自然語言理解研究已經走在世界前列!整個領域的進步需要大家共同的努力和投入來推動。自然語言處理長路漫漫,讓我們共勉。」

關於 MSRA R-NET 的技術細節,可以理解為一個多層的網路結構,對整個閱讀理解任務的演算法進行建模。具體包括如下步驟:

  • 閱讀文章及審題:最底層做表示學習,採用多層的雙向循環神經網路,給問題和文本中的每一個詞做一個表示,即深度學習里的向量。

  • 尋找問題與文中內容的關聯,綜合全文進行驗證:通過注意力機制(attention),將問題中的向量和文本中的向量做一個比對,找出問題和哪些文字比較接近。然後,再將結果放在全局中比對。

  • 精篩,選出正確答案:針對挑出的答案候選區中的每一個辭彙進行預測,哪一個詞是答案的開始,到哪個詞是答案的結束。這樣,系統會挑出可能性最高的一段文本,最後將答案輸出出來。

整個過程就是一個基於以上層面的神經網路的端到端系統(見下圖)。

接連刷新SQuAD紀錄,阿里、MSRA機器閱讀理解準確率超越人類

關於 R-Net 的詳細內容,可參考 AI 科技評論往期文章《從短句到長文,微軟研究院如何教計算機學習閱讀理解?》。

更多精彩內容,敬請關注雷鋒網 AI 科技評論。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

領航3C新征程 康得新發起成立全球SR聯盟

TAG:雷鋒網 |