利用AllenNLP，百行Python代碼訓練情感分類器

知識 10-30

選自realworldnlpbook

作者：Masato Hagiwara

機器之心編譯

參與：Geek AI、路

本文介紹了如何利用 AllenNLP，使用不到一百行代碼訓練情感分類器。

什麼是情感分析？

情感分析是一種流行的文本分析技術，用來對文本中的主觀信息進行自動識別和分類。它被廣泛用於量化觀點、情感等通常以非結構化方式記錄的信息，而這些信息也因此很難用其他方式量化。情感分析技術可被用於多種文本資源，例如調查報告、評論、社交媒體上的帖子等。

情感分析最基本的任務之一是極性分類，換句話說，該任務需要判斷語言所表達的觀點是正面的、負面的還是中性的。具體而言，可能有三個以上的類別，例如：極其正面、正面、中性、消極、極其消極。這有些類似於你使用某些網站時的評價行為（比如 Amazon），人們可以用星星數表示 5 個等級來對物品進行評論（產品、電影或其他任何東西）。

斯坦福的情感分析樹庫（TreeBank）

目前，研究人員發布了一些公開的情感分類數據集。在本文中，我們將使用斯坦福的情感分析樹庫（或稱 SST），這可能是最廣為使用的情感分析數據集之一。SST 與其它數據集最大的不同之處是，在 SST 中情感標籤不僅被分配到句子上，句子中的每個短語和單詞也會帶有情感標籤。這使我們能夠研究單詞和短語之間複雜的語義交互。例如，對下面這個句子的極性進行分析：

This movie was actually neither that funny, nor super witty.

這個句子肯定是消極的。但如果只看單個單詞（「funny」、「witty」）可能會被誤導，認為它的情感是積極的。只關注單個單詞的樸素詞袋分類器很難對上面的例句進行正確的分類。要想正確地對上述例句的極性進行分類，你需要理解否定詞（neither ... nor ...）對語義的影響。由於 SST 具備這樣的特性，它被用作獲取句子句法結構的神經網路模型的標準對比基準（https://nlp.stanford.edu/~socherr/EMNLP2013_RNTN.pdf）。

Pytorch 和 AllenNLP

PyTorch 是我最喜歡的深度學習框架。它提供了靈活、易於編寫的模塊，可動態運行，且速度相當快。在過去一年中，PyTorch 在科研社區中的使用實現了爆炸性增長。

儘管 PyTorch 是一個非常強大的框架，但是自然語言處理往往涉及底層的公式化的事務處理，包括但不限於：閱讀和編寫數據集、分詞、建立單詞索引、辭彙管理、mini-batch 批處理、排序和填充等。儘管在 NLP 任務中正確地使用這些構建塊是至關重要的，但是當你快速迭代時，你需要一次又一次地編寫類似的設計模式，這會浪費很多時間。而這正是 AllenNLP 這類庫的亮點所在。

AllenNLP 是艾倫人工智慧研究院開發的開源 NLP 平台。它的設計初衷是為 NLP 研究和開發（尤其是語義和語言理解任務）的快速迭代提供支持。它提供了靈活的 API、對 NLP 很實用的抽象，以及模塊化的實驗框架，從而加速 NLP 的研究進展。

本文將向大家介紹如何使用 AllenNLP 一步一步構建自己的情感分類器。由於 AllenNLP 會在後台處理好底層事務，提供訓練框架，所以整個腳本只有不到 100 行 Python 代碼，你可以很容易地使用其它神經網路架構進行實驗。

代碼地址：https://github.com/mhagiwara/realworldnlp/blob/master/examples/sentiment/sst_classifier.py

接下來，下載 SST 數據集，你需要將數據集分割成 PTB 樹格式的訓練集、開發集和測試集，你可以通過下面的鏈接直接下載：https://nlp.stanford.edu/sentiment/trainDevTestTrees_PTB.zip。我們假設這些文件是在 data/stanfordSentimentTreebank/trees 下進行擴展的。

注意，在下文的代碼片段中，我們假設你已經導入了合適的模塊、類和方法（詳情參見完整腳本）。你會注意到這個腳本和 AllenNLP 的詞性標註教程非常相似——在 AllenNLP 中很容易在只進行少量修改的情況下使用不同的模型對不同的任務進行實驗。

數據集讀取和預處理

AllenNLP 已經提供了一個名為 StanfordSentimentTreeBankDatasetReader 的便捷數據集讀取器，它是一個讀取 SST 數據集的介面。你可以通過將數據集文件的路徑指定為為 read() 方法的參數來讀取數據集：

幾乎任何基於深度學習的 NLP 模型的第一步都是指定如何將文本數據轉換為張量。該工作包括把單詞和標籤（在本例中指的是「積極」和「消極」這樣的極性標籤）轉換為整型 ID。在 AllenNLP 中，該工作是由 Vocabulary 類來處理的，它存儲從單詞/標籤到 ID 的映射。

下一步是將單詞轉換為嵌入。在深度學習中，嵌入是離散、高維數據的連續向量表徵。你可以使用 Embedding 創建這樣的映射，使用 BasicTextFieldEmbedder 將 ID 轉換為嵌入向量。

句子分類模型

LSTM-RNN 句子分類模型

現在，我們來定義一個句子分類模型。這段代碼看起來很多，但是別擔心，我在代碼片段中添加了大量注釋：

這裡的關鍵是 Seq2VecEncoder，它基本上使用張量序列作為輸入，然後返回一個向量。我們在這裡使用 LSTM-RNN 作為編碼器（如有需要，可參閱文檔 https://allenai.github.io/allennlp-docs/api/allennlp.modules.seq2vec_encoders.html#allennlp.modules.seq2vec_encoders.pytorch_seq2vec_wrapper.PytorchSeq2VecWrapper）。

訓練

一旦你定義了這個模型，其餘的訓練過程就很容易了。這就是像 AllenNLP 這樣的高級框架的亮點所在。你只需要指定如何進行數據迭代並將必要的參數傳遞給訓練器，而無需像 PyTorch 和 TensorFlow 那樣編寫冗長的批處理和訓練循環。

這裡的 BucketIterator 會根據 token 的數量對訓練實例進行排序，從而使得長度類似的實例在同一個批中。注意，我們使用了驗證集，在測試誤差過大時採用了早停法避免過擬合。

如果將上面的代碼運行 20 個 epoch，則模型在訓練集上的準確率約為 0.78，在驗證集上的準確率約為 0.35。這聽起來很低，但是請注意，這是一個 5 類的分類問題，隨機基線的準確率只有 0.20。

測試

為了測試剛剛訓練的模型是否如預期，你需要構建一個預測器（predictor）。predictor 是一個提供基於 JSON 的介面的類，它被用於將輸入數據傳遞給你的模型或將輸出數據從模型中導出。接著，我便寫了一個句子分類預測器（https://github.com/mhagiwara/realworldnlp/blob/master/realworldnlp/predictors.py#L10），將其用作句子分類模型的基於 JSON 的介面。

運行這段代碼後，你應該看到分類結果為「4」。「4」對應的是「非常積極」。所以你剛剛訓練的模型正確地預測出了這是一個非常正面的電影評論。

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※CMU計算機學院院長Andrew Moore宣布即將離職
※世界人工智慧大會背後的智能助理——樂言科技的技術思路

TAG:機器之心 |