橫掃13項中文NLP任務：香儂科技提出漢語字形表徵向量Glyce＋田字格CNN

知識 01-31

選自arXiv

作者: Wei Wu、Yuxian Meng等

機器之心編譯

最近，香儂科技發表研究，提出了一種漢語字形向量 Glyce。該研究基於漢字的進化過程，採用多種漢字古今文字和多種書寫風格，專為中文象形字元建模設計了一種CNN架構——田字格 CNN。Glyce 在 13 個（幾乎所有）中文NLP任務上達到了當前最佳性能。

圖 1：許多漢字由圖像演化而來（圖源：維基百科）

分散式表徵（Mikolov et al., 2013; Pennington et al., 2014）的出現為表徵文本語義提供了一種簡潔的方式，並已廣泛應用於中文自然語言處理。主流深度學習演算法大多使用詞或字元作為基礎語義單元（Zheng et al., 2013; Chen et al., 2015b,a; Xu et al., 2016; Cai and Zhao, 2016），在詞/字元層面學習嵌入表徵。然而字形表徵（Glyph representation）卻很少被使用到。

很明顯，考慮漢語圖形信息應該有助於語義建模。最近的研究間接地支持這一點：偏旁部首被證明在許多語言理解任務中有用（Shi et al., 2015; Li et al., 2015b; Yin et al., 2016; Sun et al., 2014; Shao et al., 2017）。研究表明，使用五筆編碼技術可以提高中英機器翻譯的性能（Tan et al., 2018）。雖然部首和五筆表徵一定程度上編碼了一些關於字元結構的信息，有助於構建更好的字元表徵，但部首和五筆表徵都是用 ID 編碼的，因此無法觸及更深的漢語圖形信息。

近年來，一些研究者嘗試在字元的視覺特徵上應用基於 CNN 的演算法。不幸的是，他們的研究沒有實現持續的性能提升（Liu et al., 2017; Zhang and LeCun, 2017），一些研究甚至得出了負面結果（Dai and Cai, 2017）。例如，Dai 和 Cai（2017）在漢字圖像上運行 CNN 來獲取漢字表徵，然後在下游的語言建模任務中使用這些表徵。他們發現，字形的加入實際上降低了性能，基於 CNN 的表徵無法為語言建模提供額外的有用信息。Liu 等人（2017）和 Zhang、LeCun（2017）在文本分類任務上利用相似的策略測試了這一思路，結果模型性能只在非常有限的幾種情況下有所提升。

研究者認為之前基於 CNN 的模型 (Dai and Cai, 2017) 得到消極結果的原因如下：1）未使用正確的文字版本：漢字系統經過了很長的進化過程，如圖 2 所示。最著名的版本包括甲骨文（公元前 2000 年 - 公元前 300 年）、隸書（公元前 200 年 - 公元 200 年）、篆書（公元前 100 年 - 公元 420 年）、魏碑（公元 420 年 - 公元 588 年）等。這一文字進化過程是遵循特定模式的。最初的漢字易於繪製，然後逐漸轉變成容易書寫。此外，漢字的象形性、具象性逐漸弱化。

目前最廣泛使用的漢字版本是簡體中文，這種字體易於書寫，但不可避免地丟失了大部分象形信息。這導致了僅使用簡體中文訓練的模型性能不好。2）未使用合適的 CNN 結構：與大小為 800*600 的 ImageNet 圖像不同，漢字圖像的大小要小得多（通常是 12*12）。這就需要不同的 CNN 架構來捕捉字元圖像的局部圖信息。3）之前的研究未使用調節函數（regulatory function）：與包含數千萬數據點的 ImageNet 圖像分類任務不同，漢字僅有約一萬個。因此輔助訓練目標對防止過擬合、提升模型泛化能力非常關鍵。本研究使用圖像分類作為輔助訓練目標。

圖 2：漢字的進化過程（圖來自網路）。

在本文中，研究者提出了 Glyce，一種漢字表徵字形向量。他們將漢字當作圖像，並使用 CNN 來獲取它們的表徵。作者使用以下技術解決了上面提到的問題：

研使用歷史漢字和當代漢字（如青銅器銘文、隸書、篆書和繁體中文等）以及不同的書寫風格（如草書）來豐富字元圖像的象形信息。

研究者使用了 Tianzige-CNN (田字格) 架構，該架構專為中文象形字元建模而設計。

通過添加圖像分類損失函數，研究者利用多任務學習方法增強了模型的泛化能力。

論文：Glyce: Glyph-vectors for Chinese Character Representations

論文地址：https://arxiv.org/abs/1901.10125

摘要：直觀上來看，針對中文等語素文字的 NLP 任務應該受益於這些語言中的字形信息。然而，由於字形中缺乏豐富的象形信息，以及標準計算機視覺模型在字元數據上的泛化能力較差，現在還未找到有效利用字形信息的方法。

本文提出了漢字表徵字形向量 Glyce，填補了這一空白。本文有三大創新：1）使用了古代漢字（如青銅器銘文、篆文、繁體中文等）來豐富文字中的象形證據；2）設計了適合漢字圖像處理的 CNN 架構；3）將圖像分類作為多任務學習設置中的輔助任務，以提高模型的泛化能力。

我們首次展示了基於字形的模型能夠在很多中文 NLP 任務中持續超過基於單詞/字元 ID 的模型。通過 Glyce，我們在 13 個（幾乎所有）中文 NLP 任務上達到了當前最佳性能，包括字元級語言建模、詞級語言建模、中文分詞、命名實體識別、詞性標註、依存句法分析、語義角色標註、句子語義相似度、句子意圖識別、中英機器翻譯、情感分析、文檔分類和語篇分析任務。

3 Glyce

3.1 使用歷史漢字