當前位置:
首頁 > 科技 > 不,機器不能讀得比人類好

不,機器不能讀得比人類好

隨著閱讀,可能很難知道從哪裡開始。 照片:弗雷德·杜福/法新社/蓋蒂圖片社

計算機是為了處理數據而建立的,但是有一種特殊的信息形式如此豐富而且密集,甚至超出了對最先進的人工智慧的全面理解。這也是你我每天處理和處理的語言。

理解書面和口頭的單詞對於計算機科學家來說是一個重大的挑戰。本月,微軟和阿里巴巴兩支隊伍在閱讀理解測試中獨立創建了可以超越人類的 AI程序,這是一個小小的里程碑。正如你所期望的那樣,這個消息引起了一陣騷動。像「機器人現在可以讀得比人類更好,把數百萬個工作置於危險之中」這樣的標題,以及「在閱讀時計算機比人類變得更好」。

但是,當然不是那麼簡單。

電腦毆打人類 - 但只是在一個非常具體的任務

從技術上講,這些頭條並沒有錯。但是,就像人工智慧的大量報道一樣,他們利用歧義來誇大事實,使其變得令人難以置信的誤導。(具有諷刺意味的是,考慮到手頭上的題目是閱讀理解。)現在,電腦在閱讀時可以超越人類,這是事實,但只是在一個非常具體和有限的任務 - 甚至創造者說,從來沒有設計來捕捉什麼是完全複雜的我們理解為「閱讀」。

與人工智慧通常情況一樣,這個測試實際上是一個由斯坦福大學計算機科學家組成的數據集,這些科學家包括Percy Liang和Pranav Rajpurkar。它被稱為斯坦福問答應答數據集(簡稱SQUAD),包含超過10萬對基於536段維基百科摘錄的問答。然後閱讀摘錄並回答問題。

從表面上看,SQUAD看起來強大。這些疑問是廣泛的,從歷史瑣事(「馬丁·路德何時死亡?」)到流行文化(「醫生誰是時間主的什麼敵人?」)和基本化學(「需要什麼使燃燒發生?「)。來文段落同樣密集,重點放在像歐盟立法議定書和公民不服從概念這樣的神秘主題上。

德國神學家馬丁·路德(Martin Luther)的問題看起來很棘手,但實際上很簡單。 圖片:知識共享

面對SQUAD的問題,人類正確地解決了82.3%的問題。阿里巴巴和微軟的認可度略有下滑,分別達到82.4%和82.6%。這很接近,但勝利是一個勝利。

但是,雖然這些問題和主題看起來很嚇人,但測試本身很容易。想想看這樣的:每個問題,計算機和人類知道答案了是在源段的地方-而不僅僅是答案,但確切的措辭。問道:「路德的神學反對誰的權威?」似乎很難,但是當原文包括「路德的神學挑戰教皇權威和職位」的句子時,看起來並不那麼糟糕。你不需要了解什麼是「權威」,你只需要尋找基本的語法成分,如句子的主語和客體。

所有這一切都是預料之中的,解釋Pranav Rajpurkar和Percy Liang。Rajpurkar告訴The Verge說: 「很多這些模型使用模式匹配來得出答案。這包括阿里巴巴和微軟的最新努力,兩者都使用深度學習來分析樣本完成的測試,並從中篩選出回答問題的常見方法。Liang解釋說:「例如,如果你問什麼時候出生的人,你有一段描述他們生活的段落,演算法只會在問題中發現」何時「,並在段落中尋找任何日期。

「這就像一個學生,在考試中表現得不錯,而不承認任何題材。」

這種方法顯然是成功的,但是像許多人工智慧一樣,它們也很容易被欺騙。由於幫助創建了SQUAD,Liang和他的同事Robin Jia做了一個測試版本,其中包括所謂的「對抗性例子」,旨在使計算機運行起來。這意味著在每個段落中增加額外的信息。

所以,如果你有一個問題問:「在第三十三屆超級碗中四分衛的名字是什麼?」,你只要確保源文件提到兩個四分衛(他們被認定為有不同編號的球衣),而電腦被困住了 Liang總結了目前AI在這些測試中的表現:「就像有一個學生在測試中表現不錯,而沒有認識到任何主題材料一樣。

Bar Ilan大學講師,專門從事自然語言處理的Yoav Goldberg說,這個錯誤是把SQUAD看作是類似學校測試的東西,而不是一個幫助計算機科學家的工具。Goldberg 通過電子郵件告訴The Verge: 「SQUAD的設計並不是對流行意義上的」閱讀理解「的實際評估。「它被設計成機器學習方法的基準,人類評估是為了評估數據集的質量,而不是人類的能力。」這是媒體和公關把它解釋為更多的錯誤。

這不是我們所知道的閱讀理解

戈德堡還指出,計算機所衡量的基準並不能真正捕捉人類的最佳狀態。82.3%的準確性分數來自於通過亞馬遜的Mechanical Turk(計算機科學標準實踐)招募的工作人員,他們每個問題支付幾美分,並且必須在一定的時間內回答。「所以也許他們並沒有真正做到最好,」戈德堡建議道。

Liang補充說:「只要畫一點譜:當你拿SAT或者其他什麼的時候,這些都比SQUAD的問題要困難得多。即使是小學的閱讀理解也比較困難,因為它們經常包含諸如「為什麼X這樣做?「如果這個人沒有去學校會發生什麼事?所以他們更多的解釋。我們甚至沒有處理那些更開放式的問題。「

即使有這些警告,阿里巴巴和微軟的計劃的表現也值得肯定。Rajpurkar說:「在SQUAD之前,如果你問過計算機是否能對維基百科的問題和人類進行閱讀理解,那麼你就不可能肯定地說出肯定的答案。Goldberg補充說,在短短几年之內,通過深度學習提供動力的人工智慧很快就超越了早期的方法。

能夠更好地解析文本信息可以幫助改進搜索引擎和人工智慧助理 - 就像Google Home一樣。 攝影:Vjeran Pavic / The Verge

能夠提取這類數據,即使只有表面層面的理解,也可以在許多領域發揮作用 - 從更好的搜索引擎到通過長篇文檔為律師和醫生挖掘的軟體。阿里巴巴以其龐大的在線購物組合而聞名,它表示已經在使用這項技術來幫助解決現場客戶服務問題。

那麼電腦閱讀的下一步呢?人工智慧能夠像人類一樣理解語言嗎?該領域的研究人員沒有做出任何預測。表面上看,理解文本完全需要大量的人類知識,以至於機器可能需要數十年和數十年才能與我們相匹配。然而,人工智慧的歷史表明,最初被嘲笑為「作弊」或「冒險」的解決問題的方法可以很快結合起來,創造出意想不到的強大功能。

「實際上,我認為這些系統將會非常有用,」梁說。「但從宏偉的智力挑戰來講,我們可以讓電腦了解,這是一個完全不同的問題。」而前進的道路呢?梁先生說,至少這是很明顯的:更難的考驗。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 i數碼新鮮匯 的精彩文章:

魅友要買!全面屏手機魅藍S6正式首發!

TAG:i數碼新鮮匯 |