剛剛，微軟刷新了SQuAD記錄...你猜啥時候會被刷下來？

新聞 09-22

就在幾小時前，斯坦福大學NLP組發推稱，微軟在昨天提交了一次SQuAD的測試成績，重新奪回了該數據集測試榜單第一的位置。

在今年7月份，科大訊飛與哈工大聯合實驗室(HFL)提交的系統模型奪得第一，這也是中國本土研究機構首次取得該比賽的冠軍。當時科大訊飛北京研究院院長王士進博士告訴雷鋒網，SQuAD的成績刷新得很快，基本兩周或者一個月就會被刷新一次（參見雷鋒網文章：《專訪科大訊飛：成為世界第一，只是閱讀理解系統萬里長征的第一步》）。

SQuAD（Stanford Question Answering Dataset）是行業內公認的機器閱讀理解領域的頂級水平測試，被譽為機器閱讀理解領域的ImageNet。SQuAD與ImageNet具有諸多共同點：都是各自領域的頂尖測試集，負責人都是斯坦福的新銳青年學者，都得到了工業界和學術界的青睞。

在ImageNet負責人李飛飛在今年IJCAI大會上的《ImageNet：Where we have been，Where we are going》演講中，李飛飛曾提到這樣一個細節：ImageNet團隊試圖在 2014 年結束競賽的一個子項目，但卻遭到了來自Google、Facebook 等公司的阻力，因為「產業界非常喜歡這個基準」，同樣，SQuAD也很討產業界的喜歡，參賽者包括來自微軟總部及微軟亞洲研究院、Salesforce、科大訊飛、谷歌以及卡內基·梅隆大學、復旦大學等知名企業研究機構和高校，目前在排行榜上，前三名均來自產業界。

剛剛，微軟刷新了SQuAD記錄...你猜啥時候會被刷下來？

SQuAD數據集剛剛進入第二個年頭，目前精確匹配（Exact Match）和模糊匹配(F1-Score)的結果在80%左右，從正確率看大致相當於ImageNet在2012年到2013年的水平，但從難度看，SQuAD要略高於ImageNet：人類在ImageNet測試的錯誤率在4%左右，而SQuAD人類的精確匹配和模糊匹配錯誤率分別在18%和9%左右。此外CNN 對模式分類非常適合，其最初就是為識別二維形狀而特殊設計的，而在閱讀理解領域，雖然大家都在使用深度學習，但始終缺乏像2012年在ImageNet上橫空出世的AlexNet這樣的突破。

科大訊飛北京研究院院長王士進博士告訴雷鋒網，目前成績較好的隊伍基本都採用的是模型融合（ensemble）的方式，即對於問題提出不同的模型，然後對這些模型進行一個融合，而在融合的過程中，對模型的選型，即如何選擇更優秀、魯棒性更好的模型至關重要。

但雷鋒網也注意到，使用好的單一模型取得的成績與模型融合相差不大，微軟AI研究院在這個月提交的一個單模型測試結果就得到了第五名的成績。由於模型融合會增大對應的計算量，最終工業界是否會對正確率和消耗的資源進行平衡，開發一款「經濟實用型」的產品還未為可知。

但工業界會永遠為每一個零點零幾的提升而努力。「我們技術上最近有一些升級，預計近期會更新一次結果。」王士進告訴雷鋒網。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※修電腦已是過去式，艷照還能這麼流出來｜專訪長亭科技CC
※HTC拿下11億美金後第一筆投資：400萬美元領投VR社交公司VRChat
※沒有「翅膀」的室內無人機Aire，守護家庭安全的好伴侶

TAG:雷鋒網 |