從One-hot，Word embedding到Transformer，一步步教你理解Bert

科技 06-26

作者 | 財神Childe

轉載自CSDN博客

文章目錄

NLP

Word Embedding

RNN/LSTM/GRU

seq2seq

Contextual Word Embedding

transformer:

bert

NLP

NLP：自然語言處理（NLP）是信息時代最重要的技術之一。理解複雜的語言也是人工智慧的重要組成部分。而自google在2018年10月底公布BERT在11項nlp任務中的卓越表後，BERT（Bidirectional Encoder Representation from Transformers)就成為NLP一枝獨秀，本文將為大家層層剖析bert。

NLP常見的任務主要有：中文自動分詞、句法分析、自動摘要、問答系統、文本分類、指代消解、情感分析等。

我們會從one-hot、word embedding、rnn、seq2seq、transformer一步步逼近bert，這些是我們理解bert的基礎。

Word Embedding

首先我們需要對文本進行編碼，使之成為計算機可以讀懂的語言，在編碼時，我們期望句子之間保持詞語間的相似行，詞的向量表示是進行機器學習和深度學習的基礎。

word embedding的一個基本思路就是，我們把一個詞映射到語義空間的一個點，把一個詞映射到低維的稠密空間，這樣的映射使得語義上比較相似的詞，他在語義空間的距離也比較近，如果兩個詞的關係不是很接近，那麼在語義空間中向量也會比較遠。

如上圖英語和西班牙語映射到語義空間，語義相同的數字他們在語義空間分布的位置是相同的

在句子的空間結構上我們期望獲取更底層的之間的關係比如：

VKing- VQueen= VMan-VWomen

VParis- VFrance= VBerlin-VGerman

king和queen之間的關係相比與man與woman的關係大體應該相同的，那麼他們通過矩陣運算，維持住這種關係；

Paris 和France之間的關係相比與Berlin與German的關係大體應該相同的，那麼他們通過矩陣運算，維持住這種關係。

簡單回顧一下word embedding,對於nlp來說，我們輸入的是一個個離散的符號，對於神經網路來說，它處理的都是向量或者矩陣。所以第一步，我們需要把一個詞編碼成向量。最簡單的就是one-hot的表示方法。如下圖所示：

one-hot encoding編碼

通常我們有很多的詞，那隻在出現的位置顯示會，那麼勢必會存在一些問題

高維的表示

稀疏性

正交性（任意兩個詞的距離都是1，除了自己和自己，這樣就帶來一個問題，貓和狗距離是1，貓和石頭距離也是1，但我們理解上貓和狗距離應該更近一些）

兩個詞語義上無法正確表示，我們更希望低維的相似的比較接近，語義相近的詞距離比較近，語義不想近的詞，距離也比較遠。

解決的辦法就是word enbedding，是一種維位稠密的表示。

Neural Network Language Model（神經網路語言模型）

我們都知道word2vec,glove。其實更早之前的神經網路語言模型里出現。已經有比較早的一個詞向量了。語言模型是nlp的一個基本任務，是給定一個句子w，包括k個詞，我們需要計算這個句子的概率。使用分解成條件概率乘積的形式。變成條件概率的計算。

傳統的方法，統計的n-gram的，詞頻統計的形式，出現的多，概率就高，出現少概率就低，。

不能常時依賴上下文，如：他出生在法國，他可以講一口流利的（__），我們希望法語的概率比英語、漢語的概率要高。n-gram記住只能前面有限幾個詞，若參數比較多，它根本學不到這複雜關係，這是傳統語言模型比較大的一個問題。這個可以通過後面的rnn、lstm解決，我們這裡先不討論。

第二個問題就是泛化能力的問題，泛化能力，或者說不能共享上下文的信息，我要去（__）玩，北京、上海應該是一樣的，因為都是中國的一個城市，概率應該相等或相近的，但是因為預料中北京很多，所以出現上海的概率很低。那神經網路語言模型就可以解決這樣的問題。

神經網路語言模型架構如上圖：

將每個詞向量拼接成句子矩陣。每一列都是一個詞，如北京、上海、天津比較近，大致相同一塊區域，所以當預測時，可以給出大概相同的概率，不僅僅與預料中統計結果有關係。矩陣相乘就可以提取出這個詞，但是為了提取一個詞，我們要進行一次矩陣運算，這個比較低效，所以比較成熟的框架都提供了查表的方法，他的效率更高。

因為上下文環境很相似，會共享類似的context，在問我要去（__）概率會比較大。這也是神經網路語言模型的一個好處。我們通過神經網路語言模型得到一個詞向量。當然我們也可以用其他的任務來做，一樣得到詞向量，比如句法分析，但是那些任務大部分是有監督的學習，需要大量的標註信息。

語言模型是非監督的，資料獲取不需要很大的成本。

word2vec和神經網路語言模型不同，直接來學習這個詞向量，使用的基本假設是分散式假設，如果兩個詞的上下文時相似的，那麼他們語義也是相似的。

word2vec分為cbow（根據context預測中心詞）和skip-gram（根據中心詞預測context）兩種。

我們可以通過word2vec或者 glove這種模型在大量的未標註的語料上學習，我們可以學習到比較好的向量表示，可以學習到詞語之間的一些關係。比如男性和女性的關係距離，時態的關係，學到這種關係之後我們就可以把它作為特徵用於後續的任務，從而提高模型的泛化能力。

但是同時存在一些問題比如：

He deposited his money in this bank .

His soldiers were arrayed along the river bank .

word embeding 有個問題就是我們的詞通常有很多語義的，比如bank是銀行還是河岸，具體的意思要取決與上下文，如果我們強行用一個向量來表示語義的話，只能把這兩種語義都編碼在這個向量里，但實際一個句子中，一個詞只有一個語義，那麼這種編碼是有問題的。

RNN/LSTM/GRU

那麼這種上下文的語義可以通過RNN/LSTM/GRU來解決，RNN與普通深度學習不同的是，RNN是一種序列的模型，會有一定的記憶單元，能夠記住之前的歷史信息，從而可以建模這種上下文相關的一些語義。RNN中的記憶單元可以記住當前詞之前的信息。

RR可以解決，理論上我們希望學到很長的關係，但是由於梯度消失的問題，所以長時依賴不能很好的訓練。

其實lstm可以解決RNN長時依賴梯度消失的問題。

seq2seq

對於翻譯，我們不可能要求英語第一個詞一定對應法語的第一個詞，不能要求長度一樣，對於這樣一個rnn不能解決這一問題。我們使用兩個rnn拼接成seq2seq來解決。

我們可以用兩段RNN組成seq2seq模型

從而可以來做翻譯，摘要、問答和對話系統。

比如經典的翻譯例子法語到英語的翻譯，由encoder編碼到語義空間和decoder根據語義空間解碼翻譯成一個個的英語句子。

encoder把要翻譯的句子，映射到了整個語義空間，decoder根據語義空間再逐一翻譯出來，但是句子長度有時會截斷。有一個問題，我們需要一個固定長度的context向量來編碼所有語義，這個是很困難的，要記住每一個細節是不可能的。用一個向量記住整個語義是很困難的。

這時候我們引入了attention機制。

可以理解為context只記住了一個大概的提取信息，一種方法是做內積，內積大就關注大，這裡可以理解為一種提取的方式，當提取到相關內容，再與具體的ecoder位置計算，得到更精細的內容。

pay attention 做內積。越大越相近約重要，後續的attention、transformer都是對seq2seq的一個改進，通過這種可以解決word embbeing沒有上下文的一個問題。

加上attention機制，我們就取得了很大的成績，但是仍然存在一個問題，

順序依賴，如下圖：t依賴t-1,t-1依賴t-2，串列的，很難並行的計算，持續的依賴的關係，通常很慢，無法並行：

The animal didn』t cross the street because it was too tired.

The animal didn』t cross the street because it was too narrow.

存在單向信息流的問題，只看前文，我們很難猜測it指代的具體內容，編碼的時候我們要看整個句子的上下文，只看前面或者只看後面是不行的。

RNN的兩個問題：

1、順序依賴，t依賴t-1時刻。

2、單向信息流（如例子中指代信息，不能確定）

3、需要一些比較多的監督數據，對於數據獲取成本很高的任務，就比較困難，在實際中很難學到複雜的上下文關係

Contextual Word Embedding

要解決RNN的問題，就引入了contextual word embedding。

contextual word embedding:無監督的上下文的表示，這種無監督的學習是考慮上下文的，比如ELMo、OpenAI GPT、BERT都是上下文相關的詞的表示方法。

attention是需要兩個句子的，我們很多時候只有一個句子，這就需要self-attention。提取信息的時候、編碼時self-atenntion是自驅動的，self-attention關注的詞的前後整個上下文。

self-attention最早是transformer的一部分。transformer是怎麼解決這一問題的？

transformer:

本質也是一個encoder與decoder的過程，最起初時6個encoder與6個decoder堆疊起來，如果是LSTM的話，通常很難訓練的很深，不能很好的並行

每一層結構都是相同的，我們拿出一層進行解析，每一層有self-attention和feed-forward，decoder還有普通的attention輸入來自encoder，和seq-2seq一樣，我在翻譯某一個詞的時候會考慮到encoder的輸出，來做一個普通的attention

如下圖例子給定兩個詞 thinking和machies,首先通過word embedding把它變成向量，通過self-attention,把它變成一個向量，這裡的sefl-attention時考慮上下文的。然後再接全連接層，計算z1的時候我要依賴x1、x2、x3整個序列的，才能算z1，z2也一樣，我算r1的時候時不需要z2的，只要有z1我就可以算r1.只要有z2就能算r2,這個是比較大的一個區別，這樣就可以並行計算。

我們來看看self-attention具體是怎麼計算的

假設只有兩個詞，映射成長度只有四的向量，接下來使用三個變換矩陣wqwkwv，分別把每個向量變換成三個向量 q1k1v1q2k2v2這裡是與設映的向量相乘得到的

得到向量之後就可以進行編碼了，考慮上下文，如上文提到的bank同時有多個語義，編碼這個詞的時候要考慮到其他的詞，具體的計算是q1k1做內積 q2k2做內積得到score,內積越大，表示約相似，softmax進行變成概率。花0.88的概率注意Thinking，0.12注意macheins這個詞

就可以計算z1了，z1=0.88v1 0.12z2

z2的計算也是類似的。

q表示為了編碼自己去查詢其他的詞，k表示被查詢，v表示這個詞的真正語義，經過變換就變成真正的包含上下文的信息，普通attention可以理解為self-attention的一個特例。

普通attention的對比：

實際中是多個head, 即多個attention(多組qkv)，通過訓練學習出來的。不同attention關注不同的信息，指代消解上下位關係，多個head,原始論文中有8個，每個attention得到一個三維的矩陣

將8個3維的拼成24維，信息太多經過24 *4進行壓縮成4維。

位置編碼：

北京到上海的機票

上海到北京的機票

self-attention是不考慮位置關係的，兩個句子中北京，初始映射是一樣的，由於上下文一樣，qkv也是一樣的，最終得到的向量也是一樣的。這樣一個句子中調換位置，其實attention的向量是一樣的。實際是不一樣的，一個是出發城市，一個是到達城市。

引入位置編碼，絕對位置編碼，每個位置一個 Embedding，每個位置一個embedding，同樣句子，多了個詞就又不一樣了，編碼就又不一樣了

北京到上海的機票 vs 你好，我要北京到上海的機票

tranformer原始論文使用相對位置編碼，後面的bert open gpt使用的是簡單絕對位置編碼：

大家可以嘗試bert換一下相對位置會不會更好：

transformer中encoder的完整結構，加上了殘差連接和layerNorm

decoder加上了普通的attention,最後一刻的輸出，會輸入。

transformer的decoder不能利用未知的信息，即單向信息流問題。

transformer 解決的問題：

可以並行計算，訓練的很深，到後來的open gpt可以到12層 bert的16、24層；

單向信息流的問題：至少在encoder的時候考慮前面和後面的信息，所以可以取得很好的效果；

transformer解決了普通word embedding 沒有上下文的問題，但是解決這個問題，需要大量的標註信息樣本。

如何解決transformer的問題，就引入了elmo，elmo:無監督的考慮上下文的學習。

一個個的預測的語言模型：

雙向的lstm，每個向量2n，是一種特徵提取的方法，考慮的上下文的，編碼完，就定住了，

elmo：將上下文當作特徵，但是無監督的語料和我們真實的語料還是有區別的，不一定的符合我們特定的任務，是一種雙向的特徵提取。

openai gpt就做了一個改進，也是通過transformer學習出來一個語言模型，不是固定的，通過任務 finetuning,用transfomer代替elmo的lstm。

openai gpt其實就是缺少了encoder的transformer。當然也沒了encoder與decoder之間的attention。

openAI gpt雖然可以進行fine-tuning,但是有些特殊任務與pretraining輸入有出入，單個句子與兩個句子不一致的情況，很難解決，還有就是decoder只能看到前面的信息。

bert

bert從這幾方面做了改進：

Masked LM

NSP Multi-task Learning

Encoder again

bert為什麼更好呢？

單向信息流的問題 ,只能看前面，不能看後面，其實預料里有後面的信息，只是訓練語言模型任務特殊要求只能看後面的信息，這是最大的一個問題；

其次是pretrain 和finetuning 幾個句子不匹配。

bert的輸入是兩個句子，分割符sep，cls表示開始，對輸入的兩個句子，使用位置編碼， segment embeding 根據這個可以知道該詞屬於哪個句子，學習會更加簡單。可以很清楚知道第一句子需要編碼什麼信息，第二個句子可以編碼什麼信息。

單向信息流的問題，換一個任務來處理這個問題

單向信息流問題：mask ml 有點類似與完形填空，根據上下文信息猜其中信息，計算出最大概率，隨機丟掉15%的詞來bert來進行預測，考慮前後雙向的信息，怎麼搞兩個句子？

-50%概率抽連續句子正樣本1

50%概率抽隨機句子負樣本 0

這樣學習到兩個句子的關係,可以預測句子關係，在一些問答場景下很重要。

finetuning

單個句子的任務，我們拿第一個cls向量，上面接一些全連接層,做一個分類，標註的數據 fine-tuningbert參數也包括全連接的一個參數，為什麼選擇第一個？

bert任務還是預測這個詞，預測的時候會參考其他的詞，如eat本身還是吃的語義，直接根據eat去分類，顯然是不可以的，cls沒有太多其他詞的語義，所以它的語義完全來自其他的語義來自整個句子，編碼了整個句子的語義，用它做可以，當然也可以得出所有結果進行拼接後，再來進行預測。

注意：

使用中文模型，不要使用多語言模型

max_seq_length 可以小一點，提高效率

內存不夠，需要調整 train_batch_size

有足夠多的領域數據，可以嘗試 Pretraining

bert的實際應用比較簡單，不過多贅述內容，推薦簡單的demo樣例：

https://www.jianshu.com/p/3d0bb34c488a

https://blog.csdn.net/mr2zhang/article/details/91958053

（*本文為 AI科技大本營轉載文章，轉載請聯繫作者）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI科技大本營 的精彩文章:

※英特爾蠶食AMD和NVIDIA？
※IEEE「撐不住」了？聲明解除對華為評審限制

TAG:AI科技大本營 |