當前位置:
首頁 > 新聞 > 473個模型試驗告訴你文本分類中的最好編碼方式

473個模型試驗告訴你文本分類中的最好編碼方式

選自arXiv

機器之心編譯

參與:蔣思源

在不同層面上使用不同編碼方式和語言模型在文本分類任務中到底效果怎樣?Yann LeCun 和 Xiang Zhang 在四種語言、14 個數據集上測試了 473 模型,並希望能找到最好的編碼方法。機器之心簡單介紹了該論文,詳細內容請查看原論文。

論文地址:https://arxiv.org/pdf/1708.02657.pdf

本論文實證研究了在文本分類模型中漢語、日語、韓語(CJK)和英語的不同編碼方式。該研究討論了不同層面的編碼,包括 UTF-8 bytes、字元級和辭彙級。對於所有的編碼層面,我們都提供了線性模型、fastText (Joulin et al., 2016) 和卷積網路之間的對比。對於卷積網路,我們使用字元字形(character glyph)圖像、one-hot(或 one-of-n)編碼和嵌入方法比較了不同的編碼機制。總的來說,該實驗涉及 473 個模型,並使用了四種語言(漢語、英語、日語和韓語)的 14 個大規模文本分類數據集。該研究所得出來的一些結論:基於 UTF-8 位元組層面的 one-hot 編碼在卷積網路中始終生成優秀結果;詞層面的 N 元線性模型即使不能完美地分詞,它也有強大的性能;fastText 使用字元層面的 N 元模型進行編碼取得了最好的性能,但當特徵太多時容易過擬合。

2. 卷積網路的編碼機制

為了進行客觀地對比,所有的卷積網路除了最先幾層外都共享相同的設計。我們稱相同的部分為分類器,前面不同的幾層稱為編碼器。

2.1 字元字形(Character Glyph

字形(Glyph)指的是以書寫為目的的可讀字元。CJK 就是由各種拓撲字形組成的語言,它的筆畫和部首代表不同的語義,因此字元字形是一種可行的編碼解決方案。

2.2 One-hot 編碼

在最簡單的 One-hot 編碼中,每一個實體必須使用維數等於所有可能實體數的向量表達,並且除了該實體在辭彙表中的索引為 1 以外,其它元素都為 0。

2.3 嵌入

我們使用術語「嵌入」表達關聯每一個實體的固定長度向量。這些向量一般經過隨機初始化,並且通過無監督學習或在當前任務聯合學習。嵌入模型的優勢在於不必要構建 One-hot 向量,因此嵌入模型的內存佔用要顯著地比 OnehotNet 少。最後,嵌入方法基本上可以應用於任意編碼層面。

473個模型試驗告訴你文本分類中的最好編碼方式

圖 2:不同模型測試誤差的箱線圖

473個模型試驗告訴你文本分類中的最好編碼方式

圖 3:Joint binary 數據集的泛化差距(Generalization gap)

473個模型試驗告訴你文本分類中的最好編碼方式

圖 4:不同模型泛化差距的箱線圖

473個模型試驗告訴你文本分類中的最好編碼方式

表 12:在 Joint binary 數據集上遍歷 1 百萬樣本的估計訓練時間,第四列時間估計以秒為單位。這些估計只供參考,訓練時間還相當依賴於真實的計算環境。

473個模型試驗告訴你文本分類中的最好編碼方式

圖 5:不同模型遍歷 1 百萬樣本所需要的時間,時間軸為對數尺度。

473個模型試驗告訴你文本分類中的最好編碼方式

表 13:GlyphNet 和 OnehotNet 的訓練誤差

473個模型試驗告訴你文本分類中的最好編碼方式

表 14:EmbedNet 的訓練誤差

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

MXNet 發布新版本,支持Core ML和Keras
如何打造最聰明的城市?
OpenAI 聯手 DeepMind,找到「馴化」AI 新辦
人工智慧晶元時代即將來臨:一文讀懂神經網路硬體平台戰局
新型半參數變分自動編碼器DeepCoder:可分層級編碼人臉

TAG:機器之心 |

您可能感興趣

IJCAI 2018|北京大學分層式端到端模型,整合文本摘要和情感分類
玉器的5個造型分類
10億級數據規模半監督圖像分類模型,Imagenet測試精度高達81.2%
谷歌做了45萬次不同類型的文本分類後,總結出一個通用的「模型選擇演算法」
史上最全的關於十二星座的16種分類方法
使用Bert預訓練模型文本分類
「合併」 樣本和標籤?IBM 為多標籤小樣本圖像分類帶來新進展!| CVPR 2019
PRCV2018 美圖短視頻實時分類挑戰賽第一名解決方案介紹
機器學習模型實戰!如何從 900 萬張圖片中對 600 類照片進行分類?
《唐研究》第1-23卷分類目録
單身中的12星座分類
如何使用900萬張開放圖像訓練600類圖片分類器
垃圾分類的北京試點:居民只需干、濕兩分,專業公司二次細分為50多類
超10個3D列印相關產品入選,中檢院發布《2018年醫療器械產品分類界定結果匯總》
如何從 900 萬張圖片中對 600 類照片進行分類? | 技術頭條
輕鬆練:如何從900萬張圖片中對600類照片進行分類
2018年證券公司分類結果出爐,無一家獲AAA評級
龍馬環衛:中標1700萬元垃圾分類項目
2017年度IDC分類排行榜
MSCI 公布2018年度市場分類評審結果