當前位置:
首頁 > 新聞 > 訊飛與哈工大聯合實驗室刷新SQuAD成績,兩項指標均大幅提升

訊飛與哈工大聯合實驗室刷新SQuAD成績,兩項指標均大幅提升

雷鋒網AI科技評論按:科大訊飛與哈工大聯合實驗室(HFL)在 SQuAD 上又刷新了成績,不僅在精確匹配(Exact Match,下稱 EM)指標上超過人類平均水平,模糊匹配(F1-score,下稱 F1)指標也首次達到 89.281 。

訊飛與哈工大聯合實驗室刷新SQuAD成績,兩項指標均大幅提升

SQuAD(Stanford Question Answering Dataset)為斯坦福大學發起的文本理解挑戰賽,是行業內公認的機器閱讀理解領域的頂級水平測試,它構建了一個包含十萬個問題的大規模機器閱讀理解數據集,選取超過 500 篇的維基百科文章。

在閱讀數據集內的文章後,機器需要回答若干與文章內容相關的問題,並通過與標準答案的比對,得到 EM 和 F1 的結果。

在 2018 年 1 月初,以阿里巴巴、微軟亞洲研究院(下稱 MSRA)為代表的中國研究團隊相繼刷新了 SQuAD 的 EM 紀錄,機器閱讀能力的準確率首次超越人類。 而在今天,科大訊飛與哈工大聯合實驗室也在 SQuAD 上獲得了超越人類的 EM 分數,並在 F1 上也獲得了第一名的成績。

早在 2017 年 7 月,科大訊飛與哈工大聯合實驗室( HFL )在 SQuAD 上提交的系統模型就曾奪得第一,這也是中國本土研究機構首次取得該比賽的冠軍。為此,雷鋒網 AI 科技評論專訪了科大訊飛研究院副院長王士進,當時他指出,成為世界第一,只是閱讀理解系統萬里長征的第一步。

雖然國內研究機構所提交的系統相繼在 SQuAD 中超過了人類平均水平,相比往期毫無疑問是一個巨大的進步,但這並不能代表機器在閱讀理解任務上「完全」戰勝人類。畢竟在認知推理層面,機器仍然沒有達到人類所具備的真實能力。

閱讀理解是 NLP 領域裡一個公認的難題,也是未來一個非常重要的趨勢。據了解,訊飛與哈工大聯合實驗室提交的融合式層疊注意力系統(Hybrid Attention-over-Attention Reader)融合了基於上下文的文本表示、自適應轉隨機梯度下降的優化方法等前沿技術。王士進在此前的採訪中表示,在 7 月份向 SQuAD 提交結果前,科大訊飛與哈工大聯合實驗室團隊在該數據集中花了四個多月的時間,主要採用的方法還是主流的深度學習。


原來的做法是,系統會給出一些訓練集,包括包括篇章、問題和對應的答案,然後通過神經網路去學習,自動構建找到問題和答案的對應關係的一個方式。但我們做法有兩點不一樣的地方:

  • 一個是我們的「基於互動式層疊注意力模型」,一開始她可能先鎖定住一些片段,然後通過多輪迭代的方式進行過濾,進一步鎖定篩選出更精準的一些內容,去除整篇文章的干擾,最終得出問題的答案。

  • 第二,我們採用了模型融合的方式。對於問題我們會提出不同的模型,然後對這些模型進行一個融合(ensamble)。因為我們知道,一般來說單一模型的性能並不是特別好,我們其實研究的是如何把多個不同機理的模型融合和在一起產生最好的效果。

詳細的技術細節分析與趨勢探討,可參考雷鋒網 AI 科技評論的往期報道《成為世界第一,只是閱讀理解系統萬里長征的第一步》。

更多精彩內容,敬請關注雷鋒網AI 科技評論。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

TAG:雷鋒網 |