一篇文章教你用TensorFlow寫名著

知識 05-28

前言

最近看完了 LSTM 的一些外文資料，主要參考了Colah 的 blog以及Andrej Karpathy blog的一些關於 RNN 和 LSTM 的材料，準備動手去實現一個 LSTM 模型。代碼的基礎框架來自於 Udacity 上深度學習納米學位的課程（付費課程）的一個 demo，我剛開始看代碼的時候真的是一頭霧水，很多東西沒有理解，後來反覆查閱資料，並我重新對代碼進行了學習和修改，對步驟進行了進一步的剖析，下面將一步步用 TensorFlow 來構建 LSTM 模型進行文本學習並試圖去生成新的文本。本篇文章比較適合新手去操作，LSTM 層採用的是 BasicLSTMCell。

關於 RNN 與 LSTM 模型本文不做介紹，詳情去查閱資料過著去看上面的 blog 鏈接，講的很清楚啦。這篇文章主要是偏向實戰，來自己動手構建 LSTM 模型。

數據集來自於外文版《安娜卡列妮娜》書籍的文本文檔（本文後面會提供整個 project 的 git 鏈接）。

工具介紹

正文部分

正文部分主要包括以下四個部分：

- 數據預處理：載入數據、轉換數據、分割數據 mini-batch

- 模型構建：輸入層，LSTM 層，輸出層，訓練誤差，loss，optimizer

- 模型訓練：設置模型參數對模型進行訓練

- 生成新文本：訓練新的文本

主題：整個文本將基於《安娜卡列妮娜》這本書的英文文本作為 LSTM 模型的訓練數據，輸入為單個字元，通過學習整個英文文檔的字元（包括字母和標點符號等）來進行文本生成。在開始建模之前，我們首先要明確我們的輸入和輸出。即輸入是字元，輸出是預測出的新字元。

一. 數據預處理

在開始模型之前，我們首先要導入需要的包：

import timeimport numpy as npimport tensorflow as tf

這一部分主要包括了數據的轉換與 mini-batch 的分割步驟。

首先我們來進行數據的載入與編碼轉換。由於我們是基於字元（字母和標點符號等單個字元串，以下統稱為字元）進行模型構建，也就是說我們的輸入和輸出都是字元。舉個栗子，假如我們有一個單詞「hello」，我們想要基於這個單詞構建 LSTM，那麼希望的到的結果是，輸入「h」，預測下一個字母為「e」；輸入「e」時，預測下一個字母為「l」，等等。

因此我們的輸入便是一個個字母，下面我們將文章進行轉換。

上面的代碼主要完成了下面三個任務：

- 得到了文章中所有的字符集合 vocab

- 得到一個字元 - 數字的映射 vocab_to_int

- 得到一個數字 - 字元的映射 int_to_vocab

- 對原文進行轉碼後的列表 encoded

完成了前面的數據預處理操作，接下來就是要劃分我們的數據集，在這裡我們使用 mini-batch 來進行模型訓練，那麼我們要如何劃分數據集呢？在進行 mini-batch 劃分之前，我們先來了解幾個概念。

假如我們目前手裡有一個序列 1-12，我們接下來以這個序列為例來說明劃分 mini-batch 中的幾個概念。首先我們回顧一下，在 DNN 和 CNN 中，我們都會將數據分 batch 輸入給神經網路，加入我們有 100 個樣本，如果設置我們的 batch_size=10，那麼意味著每次我們都會向神經網路輸入 10 個樣本進行訓練調整參數。同樣的，在 LSTM 中，batch_size 意味著每次向網路輸入多少個樣本，在上圖中，當我們設置 batch_size=2 時，我們會將整個序列劃分為 6 個 batch，每個 batch 中有兩個數字。

然而由於 RNN 中存在著「記憶」，也就是循環。事實上一個循環神經網路能夠被看做是多個相同神經網路的疊加，在這個系統中，每一個網路都會傳遞信息給下一個。上面的圖中，我們可以看到整個 RNN 網路由三個相同的神經網路單元疊加起來的序列。那麼在這裡就有了第二個概念 sequence_length（也叫 steps），中文叫序列長度。上圖中序列長度是 3，可以看到將三個字元作為了一個序列。

有了上面兩個概念，我們來規範一下後面的定義。我們定義一個 batch 中的序列個數為 N（即 batch_size），定義單個序列長度為 M（也就是我們的 num_steps）。那麼實際上我們每個 batch 是一個N×M的數組，相當於我們的每個 batch 中有N×M個字元。在上圖中，當我們設置 N=2， M=3 時，我們可以得到每個 batch 的大小為 2 x 3 = 6 個字元，整個序列可以被分割成 12 / 6 = 2 個 batch。

基於上面的分析，我們下面來進行 mini-batch 的分割：

上面的代碼定義了一個 generator，調用函數會返回一個 generator 對象，我們可以獲取一個 batch。

經過上面的步驟，我們已經完成了對數據集的預處理。下一步我們開始構建模型。

二. 模型構建

模型構建部分主要包括了輸入層，LSTM 層，輸出層，loss，optimizer 等部分的構建，我們將一塊一塊來進行實現。

1. 輸入層

在數據預處理階段，我們定義了 mini-batch 的分割函數，輸入層的 size 取決於我們設置 batch 的 size（n_seqs × n_steps），下面我們首先構建輸入層。

同樣的，輸出層的（因為輸入一個字元，同樣會輸出一個字元）。除了輸入輸出外，我們還定義了 keep_prob 參數用來在後面控制 dropout 的保留結點數。關於 dropout 正則化請參考鏈接。

2.LSTM 層

BasicLSTMCell does not allow cell clipping, a projection layer, and does not use peep-hole connections: it is the basic baseline.（來自 TensorFlow 官網）

在這裡我們僅使用基本模塊 BasicLSTMCell。

後面的MultiRNNCell實現了對基本 LSTM cell 的順序堆疊，它接收的是 cell 對象組成的 list。最後 initial_state 定義了初始 cell state。

3. 輸出層

到目前為止，我們的輸入和 LSTM 層都已經構建完畢。接下來就要構造我們的輸出層，輸出層採用 softmax，它與 LSTM 進行全連接。對於每一個字元來說，它經過 LSTM 後的輸出大小是1×L（L 為 LSTM cell 隱層的結點數量），我們上面也分析過輸入一個 N x M 的 batch，我們從 LSTM 層得到的輸出為N×M×L，要將這個輸出與 softmax 全連接層建立連接，就需要對 LSTM 的輸出進行重塑，變成( N * M ) × L 的一個 2D 的 tensor。softmax 層的結點數應該是 vocab 的大小（我們要計算概率分布）。因此整個 LSTM 層到 softmax 層的大小為L×vocab_size。

將數據重塑後，我們對 LSTM 層和 softmax 層進行連接。並計算 logits 和 softmax 後的概率分布。

4. 訓練誤差計算

至此我們已經完成了整個網路的構建，接下來要定義 train loss 和 optimizer。我們知道從 sotfmax 層輸出的是概率分布，因此我們要對 targets 進行 one-hot 編碼。我們採用softmax_cross_entropy_with_logits交叉熵來計算 loss。

5.Optimizer

我們知道 RNN 會遇到梯度爆炸（gradients exploding）和梯度彌散（gradients disappearing)的問題。LSTM 解決了梯度彌散的問題，但是 gradients 仍然可能會爆炸，因此我們採用 gradient clippling 的方式來防止梯度爆炸。即通過設置一個閾值，當 gradients 超過這個閾值時，就將它重置為閾值大小，這就保證了梯度不會變得很大。