當前位置:
首頁 > 新聞 > 無心插柳柳成蔭的喬姆斯基

無心插柳柳成蔭的喬姆斯基

雷鋒網 AI 科技評論按:「追溯大師」是雷鋒網 AI 科技評論的新設欄目,專門介紹那些在歷史上對人工智慧發展形成重大影響的學術大師們。作為欄目的首位主角,艾弗拉姆·諾姆·喬姆斯基博士(Avram Noam Chomsky)在語言學方面的成就也許你略有耳聞,而他與人工智慧的聯繫,你又了解多少呢?

艾弗拉姆·諾姆·喬姆斯基博士(Avram Noam Chomsky,1928 年 12 月 7 日—),麻省理工學院語言學的榮譽退休教授,發表的《生成語法》被認為是 20 世紀理論語言學研究上最偉大的貢獻。

喬姆斯基從小便聰穎過人,16 歲入讀賓夕法尼亞大學,在俄裔語言學家 Zellig Harris 的影響下攻讀語言學,本碩期間深入研究「現代希伯萊語的詞素音位學」;博士期間,他以年輕學者的身份在哈佛大學繼續深耕語言學研究,最終完成後來使他收穫巨大聲譽的學術成就雛形——「轉換生成語法」。

該學說的集大成之作,是在 1957 年出版、使喬姆斯基收穫巨大聲譽的《句法結構》。喬姆斯基在《句法結構》中論證了語法的生成能力,他認為我們應該把語法看成是能生成無限句子的有限規則系統:

短語結構規則有三種:合併、遞歸、推導式,其基本形式是 xy。讀作"改寫",這個公式就是將 x 改寫成 y。

短語結構規則生成的是"核心語符列",不經過轉換直接由這種語符列得出的基本句型叫"核心句"。

轉換規則包括:移位、刪略、添加。

如今,轉換生成語法已成為西方當代語言學理論中的基礎性內容。

在機器翻譯的早期研究中,美國的 METAL*(MEchanicalTranslationandAnalysisofLan-guage) 就充分利用了喬姆斯基的轉換生成語法和短語結構理論。

*註:1978 年,美國得克薩斯大學與聯邦德國西門子公司開始合作研製德英機器翻譯系統 METAL 系統。它是高度模塊化的結構,可併入語義分析、情報檢索和專家系統模塊。

該系統採用短語結構文法來構造語言規則系統,通過轉換生成目標語言,主要基於爾科夫過程方法實現系統運行。根據資料記載,METAL 系統的翻譯速度為 5.7 秒/詞, 約為人工翻譯的 6 倍 ( 1984 年時的試驗結果),由此成功在多個專業領域上被利用。

為自然語言系統打下基礎

從宏觀層面來說,轉換生成語法反映了喬姆斯基對於理性主義傳統的堅守, 這種理性主義在語言學中主要體現在三個方面:

第一, 承認存在一種普遍的語言, 與此對應, 還應存在一種對各種語言都適用的「普遍語法」。喬姆斯基在語言學研究中一直不斷地尋求這種普遍語法, 並為它提供了具體的語言學描述, 即「管轄與約束理論」。

第二, 承認存在一種先天的語言學習機制 (LAD)。喬姆斯基認為, 語言學習是一種演繹過程:兒童從先天的 LAD 中推導出母語的具體結構, 並在語言環境中驗證這些假設;那些證明與他們聽到的語言相符合的假設被選作他們母語的語法。

第三, 堅持理性主義的方法論原則, 認為語言學具有自然科學的某些特徵, 即通過一些普遍原則, 可以用演繹法推導出具體的語法。

早期麻省理工學院人工智慧實驗室成員 Robert C. Berwick 曾高度評價喬姆斯基語言學革命對人工智慧研究的積極意義,尤其是「管轄與約束理論」(GB 理論),他認為該理論讓「觸類旁通」的語言分析系統成為可能。

GB 理論是喬姆斯基八十年代初從事普遍語法研究的產物, 它的核心由一系列互相聯繫、互相制約的基本原則組成。這些原則具有普遍性, 適用於每種語言, 同時又具有靈活性, 允許不同的語言在一定範圍內有些差異。Berwick 認為 GB 理論特別適合用來設計未來的人工智慧自然語言系統,其優越性主要體現在三個方面:

GB 理論的係數化以及依賴約束的做法使它成為遵循語言學理論、探索匹配處理的較好的工程系統。

它使我們得心應手地處理不合規範的錯誤輸入 (ill-formed input)。

GB 理論通過很少的參數表徵所有的語言, 當它指出句法翻譯的方式後, 我們就能用統一方式來分析各種各樣的不同的語言

在 GB 理論出現以前, 許多語言學家利用大量的語法規則分析紛紜複雜的語言現象。GB 理論摒棄了這一傳統做法, 改為依靠統一的、參數化的約束系統的交互作用來解釋複雜的句子。

換句話說,如果我們有 10 種獨立的約束, 每項約束可以取兩個值 (利用該項約束或不利用), 我們原則上僅以 10 項約束就能描述 210 個句子, 這比用 1000 多種語法規則解釋這些句子要方便得多。

對編程語言的影響

在喬姆斯基的語言學理論中,喬姆斯基定義了四型文法,並數學化地表述了每一型的語言表達能力,該理論後來深刻影響了編譯領域中語法前端的設計。

約翰?巴克斯將喬姆斯基的語言學理論引入到計算機編譯技術領域,據此書寫出了 ALGOL 58 的語法,並提出可實現的計算機語法分析演算法。巴克斯的工作在計算機編譯系統的發展史上是里程碑意義的——它第一次允許編程語言中出現表達式語法和結構化控制流。

簡單地說,喬姆斯基的理論回答了這樣一個問題,即具備何種特徵的語言可以用於書寫程序,而巴克斯的工作則告訴我們,計算機程序確實能夠用人類可以理解的方式寫出並同時讓人類和計算機理解。

喬姆斯基的文法理論在計算機領域中真正被使用的共有兩者:三型文法和二型文法。前者的特徵是語法中不存在遞歸下降結構,它的代表是基本正則表達式(擴展後的正則表達式情況略有不同);而二型文法即上下文無關文法,特徵是任何語言元素在任何上下文中的含義始終保持一致。

多數如今的程序設計語言語法都以此為基礎,換句話說,以上兩者構成了如今所有實用計算機程序設計語言的分析器理論基礎,也有成熟的數據結構和演算法支持。

事實上,喬姆斯基在其學術生涯中並未真正涉獵過計算機和 AI 領域,甚至還對 AI 領域的某些做法頗有微詞(比如曾指出 N 元文法的缺陷),然而並不阻礙其高屋建瓴的思想對這兩個領域造成不可估量的影響。在機器學習大行其道的當下,其偏向理性主義的體系思考,依然對我們有不少借鑒意義,只不過就需要我們去做進一步的挖掘。

參考文獻:

1)《喬姆斯基與人工智慧》. 王巍 寇世琪

2)NLP 主流反思的扛鼎之作: 立委譯《Church:鐘擺擺得太遠》

3)知乎「喬姆斯基的語言學理論對編程語言的影響有多大?」提問下的回答

雷鋒網 AI 科技評論


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

AI和大數據如何助力時尚行業可持續發展?
廣汽郭繼舜:主機廠為何要漸進式發展自動駕駛?

TAG:雷鋒網 |