《數學之美》吳軍

最新 01-20

第2章自然語言處理——從規則到統計

本章簡單介紹了自然語言處理的兩個階段。

1. 20世紀50年代到20世紀70年代：基於規則的方法

早期科學家對計算機處理自然語言的認識都局限在人類學習語言的方式上，即要讓機器完成翻譯或者語音識別這樣只有人類才能做到事情，就必須先讓計算機理解自然語言，而做到這一點必須讓計算機有類似於人類的智能。

在20世紀60年代，科學家們面臨的問題是怎樣才能理解自然語言。受到傳統語言學研究的影響，人們普遍認為，首先要做好兩件事，那就是分析語句和獲取語義。

圖 1 早期對自然語言處理的理解

我們通過一個簡單的句子來看一下句法分析：

徐志摩喜歡林徽因。

上述句子可以分為主語、動詞短語（謂語）和句號三個部分。對每個部分進行進一步分析得到一個語法分析樹，如下圖所示：

圖2 句子的語法分析樹

用來分析句子的文法規則通常被計算機學家和語言學家稱作重寫規則，那麼上述句子的重寫規則包括：

句子主語謂語句號

主語名詞

謂語動詞名詞短語

名詞短語名詞

名詞徐志摩

動詞喜歡

名詞林徽因

句號。

在20世紀80年代以前，自然語言處理工作中的文法規則都是依靠人來總結。原以為隨著對自然語言語法概括地越來越全面，同時隨著計算機能力的提高，可以逐步解決自然語言理解的問題，但這個想法很快遇到了麻煩。單純基於規則的文法規則的分析器處理上述簡單的句子是很容易的，但無法處理一個複雜的真實語句，如：

美聯儲主席本·伯南克昨天告訴媒體7000億美元的教主資金將借給上百家銀行、保險公司和汽車公司。

這其中至少有兩點，是無法跨越的：

要通過文法規則覆蓋哪怕20%的真實語句，文法規則的數量（不包括詞性標註規則）至少是幾萬條；如果想要覆蓋50%以上的句子，文法規則的數量最後會多到每增加一個新句子，就要加入一些新的文法。更不用說，這些文法寫到最後甚至會出現矛盾，為了解決這些矛盾，還要對各項規則特定的使用環境進行說明。

即使能夠寫出涵蓋所有自然語言現象的語法規則合集，用計算機解析它也是十分困難的。與計算機高級程序語言的便於計算機解碼的上下文無關文法不同，自然語言的文法是比較複雜的上下文有關文法。

2. 20世紀70年代至今-基於數學模型和統計的方法

基於規則的語義處理還有一個更大的麻煩是，自然語言中詞的多義性很難用規則來描述，它們驗證依賴於上下文，甚至是世界的知識或常識。例如：

a.The pen is in the box.

b. The box is in the pen.

a很很容理解，但b卻會讓外國人感到困惑——為什麼盒子可以裝進鋼筆里——但對英語為母語的人來說十分容易，因為b中的pen是圍欄的意思。pen指鋼筆還是圍欄在這裡已經不能通過上下文解決了，而是要依靠常識。

1970年，統計語音學的出現使得自然語言處理研究逐步從基於規則的方法轉變為基於統計的方法。推動該技術離線轉變的關鍵人物是弗里德里克·賈里尼克和他領導的IBM華生實驗室，最初它們只是想解決語音識別的問題。

基於統計的自然語言處理方法，在數學模型上和通信是相通，甚至是相同的。數學意義上的自然語言處理又和語言的初衷——通信聯繫在了一起。自然語言處理的一個基本問題就是為自然語言上下文相關的特性建立數學模型。下一章將講述統計語言模型。

GIF

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 全球大搜羅 的精彩文章: