473個模型試驗告訴你文本分類中的最好編碼方式

新聞 08-17

選自arXiv

機器之心編譯

參與：蔣思源

在不同層面上使用不同編碼方式和語言模型在文本分類任務中到底效果怎樣？Yann LeCun 和 Xiang Zhang 在四種語言、14 個數據集上測試了 473 模型，並希望能找到最好的編碼方法。機器之心簡單介紹了該論文，詳細內容請查看原論文。

論文地址：https://arxiv.org/pdf/1708.02657.pdf

本論文實證研究了在文本分類模型中漢語、日語、韓語（CJK）和英語的不同編碼方式。該研究討論了不同層面的編碼，包括 UTF-8 bytes、字元級和辭彙級。對於所有的編碼層面，我們都提供了線性模型、fastText (Joulin et al., 2016) 和卷積網路之間的對比。對於卷積網路，我們使用字元字形（character glyph）圖像、one-hot（或 one-of-n）編碼和嵌入方法比較了不同的編碼機制。總的來說，該實驗涉及 473 個模型，並使用了四種語言（漢語、英語、日語和韓語）的 14 個大規模文本分類數據集。該研究所得出來的一些結論：基於 UTF-8 位元組層面的 one-hot 編碼在卷積網路中始終生成優秀結果；詞層面的 N 元線性模型即使不能完美地分詞，它也有強大的性能；fastText 使用字元層面的 N 元模型進行編碼取得了最好的性能，但當特徵太多時容易過擬合。

2. 卷積網路的編碼機制

為了進行客觀地對比，所有的卷積網路除了最先幾層外都共享相同的設計。我們稱相同的部分為分類器，前面不同的幾層稱為編碼器。

2.1 字元字形（Character Glyph）

字形（Glyph）指的是以書寫為目的的可讀字元。CJK 就是由各種拓撲字形組成的語言，它的筆畫和部首代表不同的語義，因此字元字形是一種可行的編碼解決方案。

2.2 One-hot 編碼

在最簡單的 One-hot 編碼中，每一個實體必須使用維數等於所有可能實體數的向量表達，並且除了該實體在辭彙表中的索引為 1 以外，其它元素都為 0。

2.3 嵌入

我們使用術語「嵌入」表達關聯每一個實體的固定長度向量。這些向量一般經過隨機初始化，並且通過無監督學習或在當前任務聯合學習。嵌入模型的優勢在於不必要構建 One-hot 向量，因此嵌入模型的內存佔用要顯著地比 OnehotNet 少。最後，嵌入方法基本上可以應用於任意編碼層面。

473個模型試驗告訴你文本分類中的最好編碼方式