波茨坦大學：生物醫學領域的問答系統應用Olelo介紹

最新 03-30

你和「懂AI」之間，只差了一篇論文

很多讀者給芯君後台留言，說看多了相對簡單的AI科普和AI方法論，想看點有深度、有厚度、有眼界……以及重口味的專業論文。

為此，在多位AI領域的專家學者的幫助下，我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成，芯君和編輯部的老師們都會一起笑到崩潰，當然有的論文我們看得抱頭痛哭。

同學們現在看不看得懂沒關係，但芯君敢保證，你終有一天會因此愛上一個AI的新世界。

這是讀芯術解讀的第3篇論文

ACL 2017 System Demonstrations

Olelo:一個生物醫學領域的問答系統應用

Olelo:AQuestion Answering Application for Biomedicine

波茨坦大學哈索?普拉特納研究所

Hasso Plattner Institute at University of Potsdam

【摘要】儘管生物醫學領域非常重要，但是很少有可靠的應用能夠支持研究人員和醫生檢索出符合他們需求的特定結果。用戶通常依賴於只支持關鍵字和基於過濾器的搜索。我們提出了一個生物醫學的問答（QA）系統Olelo。Olelo建立在內存資料庫之上，集成了領域資源，例如文檔集合和術語，並使用各種自然語言處理組件。Olelo速度快，直觀，易於使用。我們對兩種用例系統進行了評估：在BioASQ基準測試上基礎上，回答與某一特定基因相關的問題。

Olelo獲取地址：http://hpi.de/plattner/olelo

1 引言

生物醫學研究者和醫生定期查詢科學文獻以了解特定事實，如一種由特殊基因引起的綜合症，或某種疾病的治療方法。為了達到這個目的，用戶通常依賴PubMed搜索引擎，它在Medline資料庫中索引了數以百萬計的出版物。與傳統的信息檢索系統（IR）類似，輸入PubMed的通常是關鍵字，或者是醫學主題（MeSH）概念，而輸出的通常是文檔的列表。

例如，在尋找可能由CFTR基因突變引起的疾病時，用戶只需在PubMed的輸入欄中寫入基因名稱。在這個例子中，他將得到一個有9227份可能與其相關的出版物的清單(截至到2017年2月)。

在(Lu, 2011)的調查中，科學生物醫學文獻還有很多其他的網路應用程序可以搜索和導航。然而，大多數系統依賴於簡單的自然語言處理技術(NLP)，例如分詞和命名實體識別（NER）。它們的功能僅限於在領域術語的支持下對文檔進行排序，以概念豐富出版物，並聚類相似文檔。

問答（QA）支持生物醫學專業人士通過輸入自然問題，並提供準確的答案和定製的簡短總結作為反饋結果（Athenikos and Han, 2010; Neves and Leser,2015）。我們已經了解了生物醫學的三個系統(參見第2節)，然而，目前的解決方案仍然不能滿足用戶的需要：(i) 在大多數情況下，沒有對問題進行理解。(ii) 那些使用更複雜的NLP技術的系統（例如，HONQA（Cruchet et al., 2009））無法實時輸出答案。(iii) 輸出通常以文檔列表的形式出現，而不是簡單的答案。(iv) 他們沒有提供任何創新的或基於NLP的方法來進一步探索科學文獻。

我們提出了Olelo，一個生物醫學領域的問答（QA）系統。它索引生物醫學文摘和全文，依賴於一個快速的內存資料庫(IMDB)用於存儲和文檔索引，並執行各種自然語言處理技術（NLP）程序，如特定領域的命名實體識別(NER)、問題類型檢測、應答類型檢測和應答提取。我們評估了Olelo在BioASQ挑戰（Tsatsaronis et al., 2015）的範圍內的方法，這是生物醫學問答（QA）最廣泛的共享任務。我們參與了最後三個挑戰，並在最後兩個版本中獲得了片段檢索的最高結果和理想答案(定製摘要) (Neves, 2014, 2015; Schulze et al., 2016) 。

Olelo為上面列出的缺點提供了解決方案: (i) 它檢測問題類型和答案類型。(ii) 它包括各種NLP組件，並實時輸出答案。（見第5節）(iii) 它總是輸出一個簡短的回答，準確的答案或簡短的摘要，同時也允許用戶探索符合的文檔。(iv) 用戶可以瀏覽答案及其相應的語義類型，檢查醫學主題（MeSH）定義的術語，創建文檔集合，生成定製的摘要，並在其他任務中查詢類似文檔。最後，Olelo是一個開放訪問系統，不需要登錄。我們在多個Web瀏覽器中測試了它，但是為了獲得最佳結果我們推薦谷歌瀏覽器（Chrome）。

2 相關工作

MEDIE是第一個基於問答（QA）的生物醫學系統（Miyao et al., 2006）。它允許用戶以主賓動(SOV)結構的形式提出問題。例如，「53頁觸發了什麼？」這個問題需要被分裂成諸部分：「p53」（主語），「activate」（動詞），沒有賓語（即，預期的答案）。MEDIE依賴於領域本體、解析和預測參數結構(PAS)來搜索Medline。然而，鑒於許多生物醫學用戶對語言學沒有高級知識，SOV結構並不是一個友好的輸入。

我們知道三個其他的生物醫學問答（QA）系統：AskHermes, EAGLi和HONQA。所有這些系統都支持以問題形式的輸入，但以不同的方式輸出結果。

AskHermes（Cao et al., 2011）輸出了一些代碼片段和一系列術語，但結果頁面往往太長。他們的方法包括對問題理解的正則表達式、問題目標分類、概念識別和基於BM25模型的通道排名。文件收集包括Medline文章和維基百科文檔。

EAGLi（Gobeill et al.,2015）提供了基於基因本體（GO）概念的答案。即使沒有找到問題的答案，EAGLi總是會輸出相關的出版物列表。它在Terrier IR平台上對Medline文檔進行索引，並使用Okapi BM25進行排序文檔。

HONQA（Cruchet et al.,2009）從健康在線（HON）上考慮認證網站的文件，除英語外，還支持法語和義大利語。答案類型檢測基於UMLS資料庫，系統的架構遵循典型的問答（QA）工作流。然而，在他們的出版物中沒有詳細描述。

3 系統架構

圖1 Olelo問答系統的自然語言處理組件

Olelo的架構遵循了問答（QA）系統(Athenikos and Han, 2010)的通常組成部分，即：文檔索引、問題處理、段落檢索和應答處理（見圖1）。在本節中，我們將簡要介紹這些組件中的許多任務。我們之前發表了我們的多文檔摘要的方法(Schulze and Neves, 2016)，我們不僅應用於生物醫學QA，也適用於特定於基因的摘要。最後，我們對BioASQ挑戰的參與也為我們系統的方法提供了見解（Neves, 2014, 2015; Schulze et al., 2016）。

文獻索引：我們將文檔集合和問題索引為IMDB(Plattner,2013)，即SAP HANA資料庫。該資料庫將數據存儲在主內存中，並包括在線QA系統的其他理想特性，如多核處理、並行化、輕量級壓縮和分區。我們的文檔集合目前由來自Medline和PubMed中心開放存取子集的全文出版物組成。文件收集定期更新，以解釋新的出版物。

當在資料庫中建立索引時，文檔和問題將使用IMDB內置的文本分析程序進行處理，即句子拆分、分詞、詞幹提取、詞性(POS)標記和指定實體識別（NER）（見表1）。

表1 有關文件、句子和命名實體的統計數據(截止到2017年2月)

我們編寫基於兩個領域資源：醫學主題標題(MeSH)和統一的醫學語言系統(UMLS)，後者是基於生物醫學領域的定製詞典。

問題處理： Olelo目前支持三種類型的問題：(i)模擬陳述；(2)定義；(3)總結。一個模擬陳述問題需要一個或多個簡短的回答，如疾病名稱列表、定義問題查詢，以及一個概念的特定定義，而摘要問題則是關於一個主題的簡短摘要。這個步驟中的組件包括通過簡單的正則表達式檢測問題類型，然後在模擬陳述問題的情況下檢測答案類型。這一步驟還包括通過正則表達式來檢測詞目，並在之前檢測到的命名實體的支持下識別其語義類型。語義類型對應於UMLS語義類型定義的語義類型（Bodenreider，2004）。最後，基於標記的表面形式，以及之前檢測到的醫學主題（MeSH）和UMLS術語構建了一個查詢。

段落檢索：該系統根據IMDB的內置特性對文檔和段落進行排序。它以近似的方式將查詢中的關鍵字與文檔匹配，包括語言變體。我們首先考慮查詢中的所有關鍵字，如果沒有找到匹配的文檔，我們將刪除其中一些關鍵字。

答案處理：答案取決於問題類型。在定義問題的情況下，系統簡單地顯示了相應的醫學主題（MeSH）項和它的定義，最初包括在醫學主題（MeSH）術語中。在模擬陳述問題的情況下，Olelo返回的醫學主題（MeSH）術語屬於先前檢測到的相應的語義類型。最後，系統根據檢索到的文檔和查詢對摘要問題構建一個自定義摘要。

4 用例

在本節中，我們將展示兩個獲取特定問題的精確答案的用例。這些例子包括一個與特定基因有關的問題，以及兩個來自BioASQ基準的問題。同樣將我們的系統與其他三個生物醫學問答（QA）應用做了一個初步比較。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 讀芯術 的精彩文章:

※今日芯聲：Google內心OS：哼！哪有AI做不到的？
※剛買完手機，下一秒系統就推薦了耳機，為什麼？

TAG:讀芯術 |