當前位置:
首頁 > 科技 > 亞馬遜將在9月發布超過400萬字的會話數據集

亞馬遜將在9月發布超過400萬字的會話數據集

4月2日消息,據美國科技媒體VentureBeat報道,亞馬遜計劃提供大量針對自然語言處理研究的數據樣本。亞馬遜公司表示,將在2019年9月發布Topical Chat數據集,這是一個眾包人類對話的語料庫,提供給參加2019年Alexa Prize大獎賽的團隊使用。

亞馬遜將在9月發布超過400萬字的會話數據集

打開今日頭條,查看更多圖片

亞馬遜稱,Topical Chat數據集包含超過21萬個話語,超過410萬個單詞,這些數據量使其成為最大的公共社交對話和知識數據集之一。語料庫的每個對話和會話輪次與提供給眾包工作者的知識相關聯,並且這些所涉及的知識都是從與實體相關的一系列「非結構化」和「鬆散結構化」的文本資源中收集的。

亞馬遜將在9月發布超過400萬字的會話數據集

亞馬遜高級首席科學家Dilek Hakkani-Tur在博客文章中明確表示,沒有一個會話是與Alexa用戶互動的結果。

他還表示:「這些數據的收集目標是使下一步研究能夠在基於知識的神經反應生成系統中進行,以應對自然對話中其他公開數據集無法解決的難題。這將使研究人員能夠專註於人類在主題、知識選擇和豐富之間的轉換,以及將事實和觀點融入對話,並支持高質量,可重複的研究。」

亞馬遜表示,競爭Alexa Prize大獎的團隊可以訪問擴展版本的數據集,該數據集名為Extended Topical Chat,其中包括正在進行的收集和注釋的結果。

該公告發布的大約六個月之前,亞馬遜曾開放過一個數據集,用於訓練AI模型,以識別跨語言和腳本類型的名稱,它被稱為「多語種命名實體音譯系統」,包括從維基百科上抓取的近40萬個名稱,這些名稱使用的語言包括英語、阿拉伯語、希伯來語、日語片假名以及俄語。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 天極網 的精彩文章:

消費者315記:如何選擇一款安全合格的移動電源?
三星下半年旗艦新機Galaxy Note 10突然曝光:支持5G網路

TAG:天極網 |