用超算做閱讀理解？微軟為ASC18大賽設AI難題

最新 02-07

1月30日，ASC世界大學生超級計算機競賽18賽季（ASC18）在京正式啟動。參加ASC18超算競賽的全球300多支隊伍，將在接下來的幾個月里，挑戰一項由微軟出具的極具挑戰性的人工智慧賽題——機器閱讀理解。ASC18各參賽隊將使用CNTK深度學習框架，獨立開發機器閱讀理解和問答的演算法模型，使用最新超算技術結合MS MARCO數據集進行訓練，以試圖讓機器更準確地回答問題。

讓機器具備自然語言的閱讀理解與問答能力，是人工智慧的核心難題之一，也是目前智能語音交互和人機對話的核心難題。一般來說，人們在讀完一篇文章之後能夠很輕而易舉地歸納出文章中的重點內容，例如這篇文章講的是什麼人、在什麼地點、做了什麼事情等。機器閱讀理解的研究就是賦予計算機與人類同等的閱讀能力，即讓計算機閱讀一篇文章，隨後讓計算機解答與文中信息相關的問題。這種對人類而言輕而易舉的能力，對計算機來說卻並非如此。很長一段時間以來，自然語言處理的研究都是基於句子級別的閱讀理解。例如給計算機一句話，理解句子中的主謂賓、定狀補，誰做了何事等，但長文本的理解問題一直是研究的一個難點，因為這涉及到句子之間的連貫、上下文和推理等更高維的研究內容。

現在，包括微軟、卡內基梅隆大學、斯坦福大學在內的頂級人工智慧專家和學者們正在研究這項複雜的任務，這一目標若能實現，將意味著當前的弱人工智慧向強人工智慧邁進了一大步。在前不久的由斯坦福大學發起的SQuAD（Stanford Question Answering Dataset）文本理解挑戰賽的最新榜單上，微軟亞洲研究院自然語言計算組於2018年1月3日提交的R-NET模型在EM值（Exact Match, 表示預測答案和真實答案完全匹配）上以82.650的最高分領先，並率先超越人類分數82.304。

而從ASC世界大學生超級計算機競賽已經發布的ASC18賽題可以看到，此次比賽採用的是一個更具難度的機器閱讀理解與問答數據集——微軟MS MARCO。這個數據集是基於Bing和Cortana上收集的真實數據構建的，包括10萬個問題，100萬個段落，以及超過20萬個文件的鏈接。此次ASC18競賽的初賽階段，微軟將提供該數據集中的部分數據供訓練模型使用。而在決賽階段，微軟將提供一個全新的測試集來供選手們挑戰。同時為了更好的讓大學生入手和了解該賽題，微軟也同時提供基於CNTK的基準代碼和相關論文作為參考。

此次ASC18人工智慧賽題評判標準是基於各參賽隊訓練模型的機器閱讀理解回答預測的準確率，這就要求隊員們儘快學習掌握機器閱讀理解與問答的演算法特點，並熟練應用CNTK深度學習框架。由於賽題的數據集規模較大，如何充分發掘利用超算硬體的計算潛力也成為贏得比賽的關鍵。這次ASC18的人工智慧賽題要求參賽隊伍自己動手開發機器閱讀理解的演算法模型，運用最新超算技術來加速訓練速度及提高精度，更要用真實的問題數據集來驗證模型訓練的成果，這對處於本科階段的大學生參賽選手來說，無疑是一次「超級挑戰」。

ASC世界大學生超級計算機競賽(ASC Student Supercomputer Challenge)是由亞洲超算協會和浪潮集團聯合發起的世界最大規模的大學生超算競賽，發韌於2012年，經過7年發展，影響力不斷攀升。迄今為止，ASC 競賽已吸引到全球超過 5500 名年輕人才參與，參賽隊伍總數超過1100支。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 中國科技網_新聞頻道 的精彩文章:

TAG:中國科技網_新聞頻道 |