揭秘語言處理模型如何思考!這個數據集讓機器聽懂你的弦外之音
智東西(公眾號:zhidxcom)編 | 李水青
智東西8月14日消息,近日,馬里蘭大學研究者開發了一個新的語言處理模型數據集,其中涵蓋1,200多個計算機難以解答的問題。據稱,該數據集能幫助語言處理系統理解更深層次的語義。
只要你和Siri、小愛同學等語音助手對過話,你會發現要讓計算機真正理解人類語言,還有很長的路要走。機器往往只能理解語句的表層含義,無法理解複雜的表述及深層含義。因此,計算機系統需要引入更複雜的話題進行訓練,以提升「語言理解能力」。
馬里蘭大學的研究人員設計了一個平台,在平台上輸入問題,不僅會得到機器的回答,還會看到機器回答的「思考過程」,了解是哪些詞句觸發了機器的「聯想」。
團隊進而開發了涵蓋1,200多個問題的數據集,用以訓練出更加先進的語言處理模型。這1200多個問題對人類來說可能很簡單,卻能難倒目前最好的機器對答系統。該成果發表在《計算語言學協會學報》(《Transactions of the Association for Computational Linguistics》)期刊上。
一、機器語言處理的痛點:知其然不知所以然
「當前,大多數能回答問題地計算機系統都無法被解釋,人們只知道它會給出某個答案,卻不知道它為何會給出這個答案。但是,經過研究,我們能夠解讀計算機真正理解的內容。」
目前,在大多數機器答疑係統中,都是人只負責提問,機器只負責回答。這種方法的問題是,當人們輸入問題時,他們不知道問題的哪些具體要素會使計算機感到混淆。當計算機接收問題時,他們要麼只理解到字面意思,要麼理解錯誤或輸出一些無意義的話。
Boyd-Graber和他的團隊致力於開發人類和計算機共同確認問題的新方法。團隊創建了一個計算機平台,用以揭示了當人們向計算機提出問題後,計算機在想什麼。然後,根據機器的思考局限,人們可以進一步編輯完善問題,進而獲得更加完備的答案。Boyd-Graber是該論文的作者之一,在馬里蘭大學高級計算機研究所和信息研究和語言科學中心任職。
二、破獲機器理解的線索詞,微調問題獲得答案
在團隊設計的平台中,當人們輸入問題,計算機對問題的相關「聯想」就會按順序出現在屏幕上,同時標註出引起猜想的單詞。
例如,如果提問者寫道「哪位作曲家的Haydn主題變奏曲受到Karl Ferdinand Pohl的啟發?」 系統給出正確的回答「Johannes Brahms」,並且界面會標記「Ferdinand Pohl」這個詞,以表明是這個短語觸發了對應「聯想」。
獲得了這些信息之後,提問者可以進一步調整問題措辭,使計算機避免「讀錯題」。在這個例子中,提問者緊接著將「Ferdinand Pohl」改為「維也納音樂廳的檔案保管員」,這導致計算機回答不出來這個問題。
通過人機合作,研究團隊開發了1,213個計算機難題。這些問題對計算機來說很難,經測試,在這些問題上,即使是當前最強大的計算機系統都會輸給人類。
三、理解機器思考方式,訓練機器學習演算法
「三四年來,人們已經意識到計算機問答系統非常脆弱,很容易被愚弄。」馬里蘭大學計算機科學研究生、該論文的共同作者Shi Feng說,「但是,從學術領域來探討這個問題,我們的論文還是學界第一篇。」
研究人員表示,這些問題不僅可以作為計算機科學家的新數據集,使其更好地了解自然語言處理的不完美之處,還可以作為改進機器學習演算法的訓練數據集。
研究人員將這些問題分為兩大類,六小種。
第一類是語言現象。首先是釋義,例如「從懸崖跳躍」應該理解為「做出重大抉擇」;然後是分散注意力的語言;最後是意外的背景。
第二類涉及推理技巧。首先是需要邏輯推理和計算的線索;然後是問題中元素的心理三角測量;最後是綜合多個部分以形成結論。
結語:讓機器從樹葉看到森林
「人類可以更多地概括並看到深層次的聯繫。」Boyd-Graber說,「他們可能不像計算機一樣擁有近乎無限的記憶力,但他們有看到樹葉背後的森林的能力。
「編錄計算機語言處理的疑難問題,有助於訓練出更高級的語言處理模型。這樣,我們才有可能促進計算機學著像人類一樣對話。」
Boyd-Graber認為,在達到這個目標前,我們還有很長的路要走。但是,這項工作提供了一個令人興奮的新工具,它能輔助計算機科學家實現這一目標。
「我們正在制定未來幾年的研究議程,以促進計算機更好地回答問題。」Boyd-Graber說。
文章來源:Sciencedaily


※16英寸MacBook Pro來了!採用英特爾14nm處理器
※比人類快10倍!Adobe用AI批量修復網路錯誤
TAG:智東西 |