從語言學到深度學習NLP，一文概述自然語言處理

知識 08-21

選自arXiv

機器之心編譯

參與：李亞洲、蔣思源

本文從兩篇論文出發先簡要介紹了自然語言處理的基本分類和基本概念，再向讀者展示了深度學習中的 NLP。這兩篇論文都是很好的綜述性入門論文，希望詳細了解自然語言處理的讀者可以進一步閱讀這兩篇論文。

本文第一部分介紹了自然語言處理的基本概念，作者將 NLP 分為自然語言理解和自然語言生成，並解釋了 NLP 過程的各個層級和應用，這一篇論文很適合讀者系統的了解 NLP 的基本概念。

第二部分描述的是基於深度學習的 NLP，該論文首先描述了深度學習中的詞表徵，即從 one-hot 編碼、詞袋模型到詞嵌入和 word2vec 等，我們首先需要數字表徵辭彙才能進一步做自然語言處理。隨後，本論文介紹了各種應用於 NLP 的模型，包括卷積神經網路、循環神經網路、長短期記憶和門控循環神經網路等，這一些模型加上其它如注意力機制那樣的技巧就能實現十分強大的能力，如機器翻譯、問答系統和情感分析等。

概念基礎

論文地址：https://arxiv.org/abs/1708.05148

自然語言處理（NLP）近來因為人類語言的計算表徵和分析而獲得越來越多的關注。它已經應用於許多如機器翻譯、垃圾郵件檢測、信息提取、自動摘要、醫療和問答系統等領域。本論文從歷史和發展的角度討論不同層次的 NLP 和自然語言生成（NLG）的不同部分，以呈現 NLP 應用的各種最新技術和當前的趨勢與挑戰。

1 前言

自然語言處理（NLP）是人工智慧和語言學的一部分，它致力於使用計算機理解人類語言中的句子或詞語。NLP 以降低用戶工作量並滿足使用自然語言進行人機交互的願望為目的。因為用戶可能不熟悉機器語言，所以 NLP 就能幫助這樣的用戶使用自然語言和機器交流。

語言可以被定義為一組規則或符號。我們會組合符號並用來傳遞信息或廣播信息。NLP 基本上可以分為兩個部分，即自然語言理解和自然語言生成，它們演化為理解和生成文本的任務（圖 1）。

圖 1：NLP 的粗分類

語言學是語言的科學，它包括代表聲音的音系學（Phonology）、代表構詞法的詞態學（Morphology）、代表語句結構的句法學（Syntax）、代表理解的語義句法學（Semantics syntax）和語用學（Pragmatics）。

NLP 的研究任務如自動摘要、指代消解（Co-Reference Resolution）、語篇分析、機器翻譯、語素切分（Morphological Segmentation）、命名實體識別、光學字元識別和詞性標註等。自動摘要即對一組文本的詳細信息以一種特定的格式生成一個摘要。指代消解指的是用句子或更大的一組文本確定哪些詞指代的是相同對象。語篇分析指識別連接文本的語篇結構，而機器翻譯則指兩種或多種語言之間的自動翻譯。詞素切分表示將辭彙分割為詞素，並識別詞素的類別。命名實體識別（NER）描述了一串文本，並確定哪一個名詞指代專有名詞。光學字元識別（OCR）給出了列印版文檔（如 PDF）中間的文字信息。詞性標註描述了一個句子及其每個單詞的詞性。雖然這些 NLP 任務看起來彼此不同，但實際上它們經常多個任務協同處理。

2 NLP 的層級

語言的層級是表達 NLP 的最具解釋性的方法，能通過實現內容規劃（Content Planning)、語句規劃（Sentence Planning）與表層實現（Surface Realization）三個階段，幫助 NLP 生成文本（圖 2）。

圖 2：NLP 架構的階段

語言學是涉及到語言、語境和各種語言形式的學科。與 NLP 相關的重要術語包括：

音系學

形態學

辭彙學

句法學

語義學

語篇分析

語用學

3 自然語言生成

NLG 是從內在表徵生成有含義的短語、句子和段落的處理過程。它是 NLP 的一部分，包括四個階段：確定目標、通過場景評估規劃如何實現目標、可用的對話源、把規劃實現為文本，如下圖 3。生成與理解是相反的過程。

圖 3：NLG 的組件

6 NLP 的應用

NLP 可被他應用於各種領域，例如機器翻譯、垃圾郵件檢測、信息提取等。在這一部分，該論文對以下 NLP 的應用進行了介紹：

機器翻譯

文本分類

垃圾郵件過濾

信息提取

自動摘要

對話系統

醫療

深度學習中的 NLP

以上內容對 NLP 進行了基礎的介紹，但忽略了近年來深度學習在 NLP 領域的應用，因此我們補充了北京理工大學的一篇論文。該論文回顧了 NLP 之中的深度學習重要模型與方法，比如卷積神經網路、循環神經網路、遞歸神經網路；同時還討論了記憶增強策略、注意力機制以及無監督模型、強化學習模型、深度生成模型在語言相關任務上的應用；最後還討論了深度學習的各種框架，以期從深度學習的角度全面概述 NLP 發展近況。

如今，深度學習架構、演算法在計算機視覺、模式識別領域已經取得驚人的進展。在這種趨勢之下，近期基於深度學習新方法的 NLP 研究有了極大增長。

圖4：2012 年-2017 年，在 ACL、EMNLP、EACL、NAACL 會議上呈現的深度學習論文數量增長趨勢。

十幾年來，解決 NLP 問題的機器學習方法都是基於淺層模型，例如 SVM 和 logistic 回歸，其訓練是在非常高維、稀疏的特徵上進行的。在過去幾年，基於密集向量表徵的神經網路在多種 NLP 任務上都產生了優秀成果。這一趨勢由詞嵌入與深度學習方法的成功所興起。深度學習使得多層級的自動特徵表徵的學習成為了可能。傳統的基於機器學習方法的 NLP 系統極度依賴手寫特徵，既耗費時間，又總是不完整。

在 2011 年，Collobert 等人的論文證明簡單的深度學習框架能夠在多種 NLP 任務上超越最頂尖的方法，比如在實體命名識別（NER）任務、語義角色標註 (SRL）任務、詞性標註（POS tagging）任務上。從此，各種基於深度學習的複雜演算法被提出，來解決 NLP 難題。

這篇論文回顧了與深度學習相關的重要模型與方法，比如卷積神經網路、循環神經網路、遞歸神經網路。此外，論文中還討論了記憶增強策略、注意機制以及無監督模型、強化學習模型、深度生成模型在語言相關任務上的應用。

在 2016 年，Goldberg 也以教程方式介紹過 NLP 領域的深度學習，主要對分散式語義（word2vec、CNN）進行了技術概述，但沒有討論深度學習的各種架構。這篇論文能提供更綜合的思考。

摘要：深度學習方法利用多個處理層來學習數據的層級表徵，在許多領域獲得了頂級結果。近期，在自然語言處理領域出現了大量的模型設計和方法。在此論文中，我們回顧了應用於 NLP 任務中，與深度學習相關的重要模型、方法，同時概覽了這種進展。我們也總結、對比了各種模型，對 NLP 中深度學習的過去、現在與未來提供了詳細理解。

論文地址：https://arxiv.org/abs/1708.02709