斯坦福齊鵬、陳丹琦解讀兩大新QA數據集：超越模式匹配的機器閱讀理解

知識 03-07

近日，斯坦福大學博士齊鵬和陳丹琦發表博客，介紹了二人分別參與創建的兩個 QA 數據集：HotpotQA 和 CoQA 數據集。這兩個數據集嘗試囊括超越常見模式匹配方法所能回答的問題，增加機器閱讀理解和問答的難度，從而促進相關研究的發展。

你是否曾經在谷歌上隨意搜索過一些問題？比如「世界上有多少個國家」，當你看到谷歌向你展示的是準確的答案，而不只是鏈接列表時，你是否感到十分驚訝？這個功能顯然很酷炫也很有用，但是它仍然有局限。如果你搜索一個稍微複雜的問題，比如「我需要騎多長時間的自行車才能消耗掉一個巨無霸漢堡的卡路里」，你不會直接從谷歌搜索那裡得到一個好的答案（即使任何人都可以通過谷歌搜索給出的第一個或第二個鏈接的內容得到答案）。

截至本文寫作時，使用谷歌進行搜索的結果示例。

在當下這個信息爆炸的時代，每天有太多新知識以文本的形式生成（也有其它模態），任何人都無法獨自消化這些知識。對人們來說，讓機器閱讀大量文本並回答問題是自然語言理解領域最重要、最實際的任務之一。解決機器閱讀或問答任務將為建立強大而淵博的人工智慧系統奠定重要基石，就像電影《時光機器》中的圖書管理員那樣。

近期，像 SQuAD 和 TriviaQA 這樣的大規模問答數據集推動了這一方向的諸多進展。通過讓研究人員訓練需要大量數據的強大深度學習模型，這些數據集已經催生了許多令人印象深刻的結果（例如一種演算法可以在維基百科頁面上尋找合適的答案，來回答許多隨機提出的問題），這在某種程度上讓人類不必再自己完成這些艱難的工作。

SQuAD 數據集包含從超過 500 多篇維基百科文章中收集到的逾 10 萬份問答樣本。文章中的每一段都有一個獨立的問題列表，這些問題必須可由段落中一段連續文字來回答（參見上圖中基於維基百科文章「Super Bowl 50」的例子），也稱為「抽取式問答」。

然而，儘管這些結果看起來不錯，但這些數據集有明顯的缺陷，從而限制了該領域的進一步發展。事實上，研究人員已經表明，使用這些數據集訓練出來的模型實際上並沒有學習到非常複雜的語言理解能力，它們只是很大程度上利用了簡單的模式匹配啟發式方法。

上圖來自 Jia 和 Liang 的工作。在右圖中，段落末尾添加的簡短句子表明，模型實際上是將城市名稱進行模式匹配，而不是真正理解了問題和答案。

在這篇博文中，我們介紹了斯坦福 NLP 組最近收集的兩個數據集，旨在進一步推進機器閱讀理解領域的發展。具體而言，這些數據集旨在將更多的「閱讀」和「推理」過程引入問答任務中，不再只是僅通過簡單的模式匹配可以回答的問題。第一個數據集是CoQA，該數據集為關於一段文本的自然對話引入包含豐富上下文信息的介面，試圖從對話的角度來解決這個問題。第二個數據集是 HotpotQA，其範圍不再局限於一段文本，而是提出了對多個文檔進行推理從而得出答案的挑戰。本文接下來將詳細介紹這兩個數據集。

CoQA：對話式問答系統

何為 CoQA？

目前大多數問答系統局限於單獨回答問題（如上面 SQuAD 的例子所示）。雖然這種問答交流有時確實會發生在人與人之間，但通過涉及一系列相互關聯的問題和答案的對話來搜尋信息的做法更為常見。CoQA 是我們為解決這一限制而開發的對話式問答數據集，旨在推動對話式人工智慧系統的發展。

該數據集囊括來自 7 個不同領域的文本段落里 8000 個對話中的 127,000 輪問答。

如上圖所示，一個 CoQA 示例由一個文本段落（示例中的文本來自於某篇 CNN 新聞文章）和一段與文本內容相關的對話組成。在這段對話中，每一輪問答包含一個問題和一個答案，第一輪之後的每個問題都依賴於目前為止進行過的對話。與 SQuAD 以及許多現有數據集不同，對話的歷史對於回答許多問題是必不可少的。例如，對於第二個問題 Q2（where?），在不知道對話歷史的情況下是不可能回答出來的。同樣值得注意的是，對話中的焦點實體（entity of focus）是會改變的。例如，Q4 中的「his」、Q5 中的「he」以及 Q6 中的「them」指的是不同的實體，這使得理解這些問題變得更具挑戰性。

除了「CoQA 的問題需要在對話的上下文語境中才能被理解」這一關鍵因素以外，CoQA 還有許多其他吸引人的特性：

一個重要的特性是，我們並沒有像 SQuAD 那樣把答案限制在一段連續的文字中。我們認為，許多問題不能僅僅根據段落中的某段文字來回答，這會使對話不那麼自然。例如，對於「How many」這樣的問題，即使段落中的文本並沒有直接說明，但我們也可以簡單地回答「3 個」。同時，我們希望該數據集支持可靠的自動評估，並且能夠與人的理解高度一致。為了解決這個問題，我們要求標註者首先將與答案依據相關的文本內容重點摘取出來（參見本例中的 R1、R2），然後將這些文字編輯成一個自然的答案。這些依據可用於訓練（但是不能用於測試）。

現有的 QA 數據集大多重點關注某個單一領域，這使我們很難測試現有模型的泛化能力。CoQA 的另外一個重要特性是，它的數據來源於 7 個不同的領域——兒童故事、文學、初中和高中英語測試、新聞、維基百科、Reddit 以及科學。我們將後兩個領域的數據用作域外評估。

我們對 CoQA 數據集進行了深入分析。如下表所示，我們發現該數據集展示出了一系列語言學現象。近 27.2% 的問題需要結合語用推理（如常識、預設）。例如，對於問題「Was he loud and boisterous?」並不能將「he dropped his feet with the lithe softness of a cat」作為直接回答依據，但將該依據與世界知識結合起來就可以回答這個問題。只有 29.8% 的問題可以通過簡單的辭彙匹配（即直接將問題中的單詞與文本內容相對應）來回答。

我們還發現，只有 30.5% 的問題可以單獨回答，不需要使用共指關係回溯到對話歷史。49.7% 的問題包含顯式的共指關係標誌詞（如 he、she 或 it），其餘 19.8% 的問題（例如「where?」）會隱式地提到一個實體或事件。

與 SQuAD 2.0 的問題分布相比，CoQA 數據集中的問題比 SQuAD 短得多（問題平均包含單詞量比例是：5.5 vs 10.1)，這反映出 CoQA 數據集的對話屬性。CoQA 數據集的問題種類也更多樣：SQuAD 中近一半的問題是由「what」類型的問題主導，而 CoQA 的問題分布則分散在多種類型。用「did」、「was」、「is」、「does」引導的問題在 CoQA 數據集中很常見，但在 SQuAD 中則完全不存在。

最新進展

自從我們在 2018 年 8 月發起 CoQA 挑戰賽之後，它受到了極大關注，成為研究社區中最炙手可熱的基準數據集之一。我們驚奇地發現，在那之後有那麼多研究進展，尤其是在谷歌發布BERT模型之後（它極大地提高了當前所有系統的性能）。

微軟亞洲研究院提出的 SOTA 集成系統「BERT MMFT ADA」達到了 87.5% 的域內 F1 準確率，85.3% 的域外 F1 準確率。這些數字不僅接近人類的表現，也比我們六個月前開發的基線模型高出了 20 多個百分點（可以看出我們的研究社區進步非常快！）。我們期待在不久的將來看到這些論文以及開源的系統。

HotpotQA：用於多個文檔的機器閱讀理解數據集

除了通過長時間對話深入掌握給定段落的語境之外，我們還經常發現自己需要通讀多個文檔來找出關於這個世界的客觀事實。

例如，有人可能會問「雅虎是在哪個州成立的？」或者「斯坦福大學和卡內基梅隆大學誰擁有更多的計算機科學研究者？」，或者更簡單地問「我需要跑多久才能夠消耗一個巨無霸漢堡的卡路里？」

網上有許多關於這些問題的答案，但是這些答案並不是現成的可以回答相應問題的形式，甚至這些答案都不集中在同一個地方。例如，如果我們以維基百科作為知識源來回答第一個問題（雅虎在哪裡成立的），我們最初感到困惑的是，關於雅虎或者其聯合創始人楊致遠和 David Filo 的網頁上並沒有提到這條信息。為了回答這個問題，你需要費盡心思地瀏覽維基百科上的多篇文章，直到最終看到這篇名為「History of Yahoo!」的文章。

正如你所看到的，我們可以通過以下的推理步驟來回答這個問題：

我們注意到這篇文章的第一句話指出雅虎成立於斯坦福大學。

然後，我們在維基百科上查找斯坦福大學（在本例中，我們只是點擊了鏈接），找出它的位置。

斯坦福大學的網頁告訴我們它位於加州。

最後，我們可以把這兩個事實結合起來，可以得出原來問題的答案：雅虎是在加州成立的。

請注意，要想回答這個問題，有兩個技能是必不可少的：（1）做一些類似於偵探的工作，找出哪些文檔或支撐性事實可用於得出答案。（2）對多個支撐性事實進行推理，從而得出最終的答案。

這些都是機器閱讀理解系統必須具備的重要能力，可使它們高效地幫助人類消化不斷增長的海量文本形式信息和知識。然而，由於現有數據集專註於在單個文檔中尋找答案，在解決數據爆炸的挑戰方面還做得不夠，因此我們創建了HotpotQA數據集來實現這一點。

什麼是 HotpotQA

HotpotQA 是一個大型問答數據集，它包含約 11.3 萬個具備上述特徵的問答對。也就是說，這些問題要求問答系統能夠篩選大量的文本文檔，以找到與生成答案相關的信息，並對找到的多個支撐性事實進行推理，從而得出最終答案（參見下面的示例）。

HotpotQA 數據集中的一個問題示例。

該數據集中的問題和答案來自於英文維基百科，涵蓋了從科學、天文學和地理到娛樂、體育和法律案件等多種主題。

這些問題需要通過一些有難度的推理來回答。例如，在前面提到的雅虎的例子中，我們需要首先推斷出「雅虎」與回答問題的關鍵「缺失環節」斯坦福大學之間的關係，然後利用「斯坦福大學位於加州」這一事實得出最終答案。大致上，推理鏈如下所示：

這裡，我們把「斯坦福大學」稱為上下文中的橋樑實體（bridge entity），因為它是已知實體「雅虎」和預期的答案「加州」之間的橋樑。我們注意到，實際上人們感興趣的許多問題都在某種程度上涉及到這類橋樑實體。

比如這個例子：「贏得 2015 年 Diamond Head Classic MVP 的運動員為哪支隊伍效力？」

在這個問題中，我們可以先問問誰是 2015 年 Diamond Head Classic 的 MVP，然後再去查這個運動員目前效力的隊伍。在這個問題中，MVP 球員（Buddy Hield）是幫助我們得出最終答案的橋樑實體。這與我們在雅虎問題中的推理存在微妙差別：「Buddy Hield」是原始問題一部分的答案，而「斯坦福大學」並非如此。

人們可以很容易地想出一些橋樑實體就是答案的有趣問題，比如：Ed Harris 主演的哪部電影是根據法國小說改編的？（答案是 Snowpiercer。）

顯然，這些包含橋樑實體的問題無法涵蓋人們通過對多個從維基百科上收集到的客觀事實進行推理來回答的所有有趣問題。在 HotpotQA 中，我們收集了一種新型問題——比較問題，以表示更多樣化的推理技能和語言理解能力。

我們已經在前面看到了一個比較問題的示例：「斯坦福大學和卡內基梅隆大學誰擁有更多的計算機研究者？」

要想成功地回答這些問題，問答系統不僅需要找到相關的支撐性事實（在本例中，需要找到斯坦福大學和卡內基梅隆大學分別有多少計算機科學研究人員），還需要以一種有意義的方式對它們進行比較，從而得到最終的答案。正如我們對該數據集的分析所顯示的那樣，後者對於當前的問答系統是很有挑戰性的，因為它可能涉及數值比較、時間比較、計數，甚至簡單的算術。

前者（尋找相關的支撐性事實）也不容易，甚至可能更具挑戰性。雖然定位相關事實通常相對容易，但這對於包含橋樑實體的問題來說十分重要。

我們使用傳統信息檢索（IR）方法進行了一些實驗，該方法將給定的問題作為查詢，對維基百科上的所有文章從相關性最高到相關性最低排序。因此，我們看到，在正確回答問題所必需的兩段（我們稱之為「黃金段落」）中，只有大約 1.1 段出現在前 10 個結果中。在下面的黃金段落 IR 排序圖中，排序較高的段落和排名較低的段落都呈現出重尾分布。

更具體而言，儘管 80% 以上的排序較高段落可以在前 10 個 IR 結果中找到，但是只有不到 30% 的排名較低段落可以在相同的範圍內找到。我們通過計算髮現，如果系統老老實實地讀取所有的排名較高文檔直到找到兩個黃金段落，這相當於平均閱讀 600 個文檔才能回答一個問題，甚至在這之後演算法仍然不能可靠地判斷我們是否找到了兩個黃金段落。

這就需要有新的方法，來解決需要進行多步推理情況下的機器閱讀理解問題，這方面的進展將大大促進更有效的信息獲取系統的開發。

建立可解釋的問答系統

優秀問答系統的另一個重要的、被期望實現的特徵就是可解釋性。實際上，一個僅能夠給出答案而沒有任何解釋或演示來驗證答案正確性的問答系統幾乎是沒有用的，因為用戶不敢相信它給出的答案（即使它們在大多數情況下是正確的）。然而不幸的是，許多最先進的問答系統都存在這個問題。

為此，HotpotQA 在收集數據時，我們要求標註者指出他們用來得出最終答案的支撐性語句，並將這些句子作為數據集的一部分一起發布。

下圖示例來自 HotpotQA 數據集，綠色的句子表示對答案起支撐作用的事實（儘管在本例中需要經過多步推理才能得出答案）。讀者如想獲取更多此類支撐性事實，可以通過「HotpotQA 數據瀏覽器」（https://hotpotqa.github.io/explorer.html）查看更多示例。

通過實驗我們可以看到，這些支撐性事實不僅可以讓人們更容易地審核問答系統給出的答案，也可以為模型提供比之前問答數據集更強的監督，從而提升模型更準確地找到期望答案的性能，而這是之前該方向的問答數據集所欠缺的。

總結

隨著大量人類知識以書面形式被記錄下來，並且每秒鐘都有越來越多的知識被數字化表示，我們相信，將這些知識與能夠自動閱讀、推理和回答問題且具備可解釋性的系統集成在一起具有巨大的價值。現在，我們不應局限於開發那些只能在單輪問答中查看少數幾個段落和句子、不具備可解釋性、主要依靠模式匹配的問答系統。

因此，CoQA 考慮了在給定上下文的自然對話中可能出現的一系列問題，其中具有挑戰性的問題在於它需要進行多輪對話的推理；另一方面，HotpotQA 重點關注多文檔推理，這要求研究社區開發新的方法，以從大型語料庫中獲取支撐性信息。

我們相信這兩個數據集將推動問答系統的重大發展，也期待這些系統為研究社區帶來新的思路。

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※盛況堪比iPhone發布會，IBM Think 2019亮點有哪些？
※請快點粘貼複製，這是一份好用的TensorFlow代碼集

TAG:機器之心 |