Google發布新的問答語料庫，專攻篇章級的NLU問題

科技 01-25

譯者 | Linstancy

整理 | Jane

出品 | AI科技大本營（ID:rgznai100）

開放域的問答（QA）是自然語言理解（NLU）中的一項基本任務，旨在模擬人是如何通過閱讀和理解完整的文檔，從而尋找信息、發現問題的答案。例如，對於「天空為什麼是藍色的？」這一問題，QA 系統應能夠閱讀相關網頁 (如維基百科頁面) 並給出正確答案，即使答案有點複雜和冗長。

然而，目前還沒有大規模、公開可用的自然表述問題數據源（即那些尋求答案的人所提出的問題）以及可用於訓練和評估 QA 模型的答案數據源。這是因為要收集用於問答研究的高質量數據集需要大量的實際問題，而構建正確答案還需要大量人力。

NQ 數據集

NQ 是第一個使用自然表述問題的數據集，並且可通過閱讀整個頁面來查找答案，而不是從某一段落中提取答案。為了創建 NQ 數據集，研究者從用戶向 Google 搜索引擎提交的真實、匿名、匯總的問題開始。然後，讓注釋者通過閱讀整個維基百科頁面來尋找答案，就像問題是他們所提出的那樣。而注釋器既會查找長篇幅的答案，涵蓋有助推斷答案的信息，也會查找使用一個或多個實體回答的簡單答案。測試 NQ 語料庫中注釋質量的準確率達到了 90%。

為了促進 QA 領域研究的進展，Google 研究團隊近期開源了一個用於訓練和評估開放域問答系統的大規模語料庫 Natural Question （NQ），這也是第一個複製端到端問答流程的語料庫。NQ 是一個很大的資料庫，包括 300000 個自然表述問題，以及來自維基百科頁面的人類標註的答案信息。同時，它也是專門用於訓練 QA 系統的一個語料庫。

此外，研究者還加入了 16000 個示例，相同的問題由 5 個不同的注釋器提供答案，這對於評估 QA 系統的學習性能非常有用。相比回答一些計算機已經能夠勝任的無關緊要的問題，回答 NQ 語料庫中的問題則需要對問題有更深入的理解。因此，Google 官方還發布了一項基於這些數據的挑戰項目，來幫助推進自然語言理解領域的研究。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI科技大本營 的精彩文章:

※機器學習開源項目Top10
※研發投入超876億的華為，將如何進擊雲＋AI？

TAG:AI科技大本營 |