當前位置:
首頁 > 最新 > FastText:自然語言處理的利器——一個快速文本表示和分類庫

FastText:自然語言處理的利器——一個快速文本表示和分類庫

【導讀】FastText是Facebook人工智慧研究實驗室(FAIR)開源的一個文本處理庫,他是一個專門用於文本分類和外文本表示的庫,致力於提高文本表示和分類的效率。本文是Kirti Bakshi與1月16日寫的一篇關於FastText介紹的博文,主要介紹了FastText的基礎理解、核心思想和應用價值。是理解FastText這個開源項目的一篇不錯的的文章。

FastText:用於快速文本表示和分類的庫(Facebook AI Research)

人工智慧研究人員面臨的最大的技術挑戰之一就是再翻閱帖子內容的時候,如何理解其內在含義。這裡有一個基本要求。在我們日常的交互中,文本自動處理是計算機的一個關鍵部分。自動文本處理是從網路搜索和內容排序甚至垃圾郵件過濾的等任務的重要組成部分,當它運行良好和有序時,它變得完全不可見,你完全感覺不到它的存在。隨著在線數據量的增加,現在需要更靈活的工具來更好地理解超大數據集的內容,並且提供更準確的分類結果。

FastText

為了研究這個重要的需求,Facebook人工智慧研究實驗室(FAIR)開放了一個庫,該開源庫旨在幫助人們構建可擴展的文本表示,以及稱為fastText分類的解決方案。他們不斷致力於開源社區分享和寫作,並認為這比僅僅提供代碼更有意義。他們認為,為了推動這個領域進步,分享學習是很重要的,所以現在他們發表的關於fastText的研究是開源的。

什麼是FastText?

FastText是由Facebook AI Research實驗室(FAIR)實驗室開發的一個開源工具,它是一個專用於文本可伸縮表示和分類文本的庫,與其他任何可用的工具相比,它具有更快和更好的性能。該庫是用C ++編寫的,但也有其他語言如Python和Node.js的介面。

為什麼現在要使用FastText?

根據Facebook的說法,「我們可以在不到一分鐘的時間內對312K個類別中的50萬個句子進行分類,並在不到10分鐘的時間內使用標準的多核CPU在超過10億字上訓練fastText」。使用任何其他機器學習工具時,這種使用多核CPU分類實際上要需要幾個小時才能實現。深度學習工具在小數據集上使用時表現良好,但在大數據集的情況下會非常緩慢,這限制了它們在生產環境中的使用。

fastText的核心是使用「詞袋」的方式,不管文字的順序。 而且,它不是線性的,而是使用分層分類器來將時間複雜度降低到對數級別,並且在具有更高分類數量的大數據集上更高效。

深度神經網路最近在文本處理中變得非常流行。雖然這些模型在實驗室實踐中取得了非常好的表現,但是它們的訓練和測試往往很慢,這限制了它們在非常大的數據集上的使用。

fastText有助於解決這個問題。它使用分層分類器而非扁平式架構,用樹結構組織不同類別,所以這種方法在多類別數據集上非常有效。因此,就類別數量而言,將訓練和測試文本分類器的時間複雜度從線性級別降低到對數級別。FastText還通過使用霍夫曼演算法來構建樹結構,以解決類的不平衡問題。

fastText 專用工具:

文本分類在商業中非常重要。有一些工具針對一般分類問題而設計的模型,比如Vowpal Wabbit或者libSVM,但是它們只用於文本分類。 這使得它可以在非常大的數據集上快速訓練。 已有模型的結果如下:使用標準的多核CPU,在不到10分鐘的時間裡訓練超過10億字。 fastText可以在不到五分鐘的時間內實現對三十多萬個類別中的五百萬個句子進行分類。

因此希望fastText的引入有助於更好地構建解決可擴展文本表示和分類問題。 由於它是作為開源庫提供的,人們相信fastText對於研究和工程界來說都是非常有價值的,它可以幫助人們設計更好的應用程序,並進一步提高語言理解能力。

更多信息見GitHub

https://github.com/facebookresearch/fastText

https://www.techleer.com/articles/462-fasttext-library-for-fast-text-representation-and-classification-facebook-ai-research/

-END-

專 · 知

人工智慧領域主題知識資料查看獲取【專知薈萃】人工智慧領域26個主題知識資料全集(入門/進階/論文/綜述/視頻/專家等)

同時歡迎各位用戶進行專知投稿,詳情請點擊


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 專知 的精彩文章:

人人都能讀懂卷積神經網路:Convolutional Networks for everyone

TAG:專知 |