當前位置:
首頁 > 新聞 > 老師,我能帶個AI去期末考嗎……

老師,我能帶個AI去期末考嗎……

老師,我能帶個AI去期末考嗎……

矽谷Live / 實地探訪 / 熱點探秘 / 深度探討

2018年伊始,人工智慧又迎來一個里程碑。

本文轉載自千讀(QianduSV)

我們都知道,人工智慧已經在國際象棋和圍棋上打敗人類了,還合寫了一張歐洲流行樂 (Europop) 專輯。

現在,電腦又進軍一個非常人性的領域:閱讀理解測試。

嗯,這可是世界各地學生的苦難源頭啊。。。

斯坦福大學發起的 SQuAD(Stanford Question Answering Dataset)挑戰賽,被認為是目前全球最高水平的 AI 閱讀理解賽事。

就在今年的1月3日和5日,微軟和阿里巴巴開發的人工智慧在斯坦福大學這項閱讀理解測試中並列第一,在答案的精確匹配度上比人類高出了幾個基點。

儘管微軟和阿里巴巴的 AI 以微小優勢勝出,在回答的精確匹配度上僅比人類的82.3%高出幾個基點,但它們並列首位,這是美國和中國正在進行的人工智慧軍備競賽很好的象徵。

SQuAD:超過10萬個題目-答案組合

為什麼說這場賽事是全球最高水平的 AI 閱讀理解賽事?

因為 SQuAD 閱讀理解賽事是以超過 500 篇維基百科文章為基礎,包含了超過10萬個問題-答案組合,是目前世界最大的 AI 閱讀理解數據集。

而且,跟CNN/DM,CBT等自然語言處理類數據集相比,過往的數據集往往只是「完形填空」的形式,即要求 AI 將一個詞語填寫到文章空白處。而 SQuAD 則是真正的閱讀理解:需要 AI 先讀完一段文章,然後回答一個根據文章提出的問題。

老師,我能帶個AI去期末考嗎……

比如該項測試提出的艱深問題包括:「尼古拉?特斯拉(Nikola Tesla)是什麼種族的人」,以及「亞馬遜雨林有多大?」(換你,你知道不....)

在1月初的這場測試中,參賽公司讓各自的人工智慧系統解答斯坦福問答數據集(Stanford Question Answering Dataset)的提問,該數據集評估閱讀理解能力。計算機的答案被與普通人的答覆進行比較,然後據此排名。

小探再給你舉幾個人機對比的例子:

比如:成吉思汗去世於哪一年?

人類:1227

電腦:1227

美國超級碗50次比賽的中場表演是什麼團體?

人類:酷玩(Coldplay)

電腦:英國搖滾樂隊酷玩樂隊

十八世紀有多少胡格諾派人(Huguenots)逃離法國?

人類:500,000

電腦:500,000

誰設計了蘇格蘭議會大樓?

人類:Enric Miralles

計算機:西班牙建築師Enric Miralles

據 SQuAD 官網顯示,阿里巴巴 iDST NLP 團隊提交的 SLQA +模型,1月5日在精確匹配 (Exact Match) 項目上獲得了82.440的分數,刷新了微軟亞洲研究院R-NET模型剛剛於1月3日創造的紀錄。而這兩個模型的成績都超過了人類在該項目上的得分——82.304,所以並列獲得第一。

老師,我能帶個AI去期末考嗎……

(圖片來自 SQuAD 官網)

據微軟方面介紹,得益於 SQuAD 所提供的龐大數據規模,參與該項挑戰賽的選手不斷地對成績進行刷新,SQuAD 挑戰賽也逐步成為行業內公認的機器閱讀理解標準水平測試。

在今年的ACL大會(自然語言處理領域最頂尖的會議之一)的投稿里,有非常多的論文就是關於這項挑戰賽的研究,其影響力可見一斑。

從ACL 2017論文主題的可視分析中可以看到,「reading comprehension(閱讀理解)」是今年ACL錄取論文中最熱門的關鍵詞和任務,廣受自然語言處理領域研究人員的關注。

老師,我能帶個AI去期末考嗎……

微軟亞洲研究院機器閱讀團隊成員(從左至右:崔磊、韋福如、周明、楊南)

SQuAD 評分分為精確匹配(Exact Match)和模糊匹配(F1-score)兩種,人類在這兩項的得分分別是 82.3 和 91.2。所以說,上述兩家公司的兩個模型只是在精確匹配項目上超過人類,在模糊匹配上仍有大約2.5分的差距。

阿里:已將技術用於客服

阿里巴巴這項技術對我們日常生活有什麼影響呢?你別說,還真有。這項技術已經在阿里巴巴內部被廣泛使用。

司羅是阿里巴巴數據科學研究院(iDST)的自然語言處理首席科學家,他把機器取得的這個勝利稱為一個里程碑,稱該技術有很多用途,從客戶服務、博物館講解,到醫療查詢,其中有一些在全球範圍已經由聊天機器人處理。

比如,我們都知道每年阿里的雙11,這時總會有大量的顧客對活動規則進行諮詢。阿里小蜜團隊就通過使用司羅團隊的技術,讓機器直接對規則進行閱讀,為用戶提供規則解讀服務,是最自然的交互方式。

沒想到這是機器人在做「閱讀理解」啊……

再比如,顧客還會針對單個商品詢問大量的基礎問題,而這些問題其實在商品詳情頁是有答案的。現在,通過機器閱讀理解技術,能夠讓機器對詳情頁中的商品描述文本進行更為智能地閱讀和回答,降低服務成本的同時,提高購買轉化率。

由司羅領導的自然語言處理團隊支撐了阿里巴巴整個生態的技術需求。由他們研發的 AliNLP 自然語言技術平台每日調用1200億+次,Alitranx 翻譯系統提供20個語種在線服務日調用量超過7億+次。

此前,團隊還曾在2016年ACM CIKM 個性化電商搜索、2017年IJCNLP中文語法檢測CGED評測、2017年年美國標準計量局TAC評比英文實體分類等大賽中取得全球第一的成績。

老師,我能帶個AI去期末考嗎……

中國:多個團隊排名前列

雖然,阿里和微軟是目前僅有的兩個超過人類得分的團隊,但是,在自然語言處理領域,各方研究者的實力相當接近,競爭一直很激烈。

從 SQuAD 官網發布的榜單來看,去年11月和12月,得分紀錄已經多次被刷新,其中來自中國和美國的團隊佔據了最前列的位置,包括騰訊、哈工大&科大訊飛等中國團隊都取得了不錯的成績,一些歐洲、韓國和以色列的研究者同樣榜上有名。

微軟亞洲研究院副院長、自然語言計算組負責人周明博士表示:「祝賀中國的自然語言理解研究已經走在世界前列!整個領域的進步需要大家共同的努力和投入來推動。自然語言處理長路漫漫,讓我們共勉。」

老師,我能帶個AI去期末考嗎……

AI 真的看得懂嗎?

AI 的閱讀技術依賴於精讀文本,比如維基百科(Wikipedia)的文章,以學習和模仿信息。類似的技術已被用於買家提出的常見問題(比如「我的包裹在哪裡?」)。在阿里巴巴的購物節期間,這類問題會大量湧入。

儘管,AI在斯坦福閱讀測試中勝過人類,但TA真的看懂了嗎?確實,這並不表明 AI 真正像人類一樣讀懂了文章的內容。

就像 AI 可以找到美國超級碗 SuperBowl 比賽中場的樂隊是哪一家,但它並不知道英國搖滾樂隊Coldplay究竟是什麼。

所以說,AI 要真正看懂人類看的書,目前還很有挑戰,讓我們看看 TA 的閱讀理解能力,未來進步會多快吧!

不過,小探更關心的是,既然 AI 能做閱讀理解了,老師,我能不能帶個 AI 上學考試啊……

想和探長聊一聊?來加探長個人微信號svinsight

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 矽谷密探 的精彩文章:

TAG:矽谷密探 |