中科院自動化所提出BIFT模型：面向自然語言生成，同步雙向推斷

新聞 05-05

雷鋒網 AI 科技評論消息，本文作者中國科學院自動化研究所張家俊，他為雷鋒網 AI 科技評論撰寫了基於 BIFT 的獨家解讀。正文內容如下：

前言：

概括地講，自然語言處理包括兩大任務：自然語言文本理解和自然語言文本生成。自然語言文本理解就是讓機器洞悉人們所言之意，自然語言文本生成旨在讓機器像人一樣表達和說話。文本理解的關鍵在於對已知文本的上下文表徵和建模，而文本生成的本質是在文本理解的基礎上準確流暢地產生自然語言文本。

使用 BIFT 一詞就是希望讓大家聯想到 2018 年風靡全球的自然語言處理神器 BERT（Bidirectional Encoder Representation from Transformer）。將 BIFT 和 BERT 放在一起，我們期望更好地探討兩者的聯繫和區別。如果不想詳細了解，記住一句話那就可以了：BERT 著眼於編碼器 Encoder，目標是提升自然語言理解的能力；BIFT 改變解碼範式，旨在改善自然語言生成的效果。

BIFT 是我們近一年來的研究工作成果，在 2018 年 10 月份 BERT 誕生時，我們其中的一項工作（Synchronous Bidirectional Neural Machine Translation）已經被 Transactions on ACL 條件接收。BERT 非常偉大，在十多個自然語言理解任務中刷到最高分。相比而言，我們當時的工作只是在機器翻譯任務上做出了卓有成效的嘗試，所以肯定無法與 BERT 相提並論，只是聯繫在一起更容易描述和讓大家理解。BIFT 目前在機器翻譯和自動摘要兩個自然語言生成任務（尤其是機器翻譯任務）中取得了顯著效果，我們希望 BIFT 在其他自然語言生成任務中也能大放異彩。

BIFT 和 BERT 有一個共同點：都是基於 2017 年 Google 提出的完全注意機制驅動的 Transformer 框架（如圖 1 所示）。編碼器 Encoder 對輸入文本進行深層語義表示，解碼器 Decoder 依據輸入文本的語義表示產生輸出文本。編碼器和解碼器都是由多層網路堆積而成，編碼器中的每一層主要包括自我注意機制（Self-Attention）和前饋網路（Feed-Forward Network）兩個子層，每個子層後面會緊接一個正則化操作，並且層與層之間會有殘差連接。相比編碼器，解碼器中的每一層有兩點不同，一方面，自我注意機制只能利用已經生成的部分歷史前綴信息，而需要屏蔽還未產生的未來信息；另一方面，自我注意機制和前饋網路之間還包括一個建模輸出和輸入關係的 Encoder-Decoder 注意機制。

圖 1：Transformer 框架

從 Transformer 的框架可以看出，自我注意是其有別於循環神經網路和卷積神經網路的本質。以漢語到英語的機器翻譯任務為例，圖 2 和圖 3 展示了編碼器和解碼器中自我注意機制的工作流程。圖 2 顯示的編碼模塊中，對於輸入的單詞序列，每個單詞首先映射為低維實數向量，表示第一個單詞與包括自身的所有單詞計算相關度，並對所有單詞的向量表示依據相關度進行加權獲得序列第一個單詞更深一層的語義表示；採用相同的方式，平行計算輸入序列中每個位置更深一層的語義表示；利用相同的自我注意機制可以生成多層語義表示。

圖 3 顯示的解碼模塊中，第一個輸出單詞為開始符，與編碼器中每個位置的語義表示進行注意機制計算並加權得到第二層語義信息，採用相同的方式可以獲得更多層的語義信息，最後利用 softmax 函數預測下一個時刻的輸出「there」；預測下一個輸出單詞時，首先需要進行輸出端的注意機制計算過程，然後再與編碼器的語義表示進行注意機制計算；進行相同的操作獲得多層語音信息，再由 softmax 函數給出下一個時刻應該輸出的單詞「are」；重複和最終生成整個文本序列（一般直到產生結束符「

」，停止解碼過程）。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※巨頭們的固態量子計算處理器最終是死路一條？
※FDA批准首個治療兒童多動症的的醫療器械

TAG:雷鋒網 |