當前位置:
首頁 > 最新 > 方向不對,十五年白費

方向不對,十五年白費

題圖:from Zoommy

前幾天推薦了二爺他們做的 Readhub,其中寫了這麼一段話:

通過程序根據預設的數據源抓取數據,隨時發現和篩選新的事件和話題,然後通過自然語言處理,將同主體、同類事件的相關信息合併,形成專題。

有讀者來信問我,自然語言處理到底是怎麼回事,難道咱們的語言不夠自然么?

Readhub 不是我做的,所以這個問題二爺來回答比較合適,但是這貨除了搗騰閱讀量見底的鑒書和廣告,很少寫別的。矽谷女神朱贇博士科班出身,對技術如數家珍,更適合回答這個問題,但是朱老師最近忙的都快認不出我了,差不多有一個月不更新公眾號,看起來也指望不上。還好我最近正在閱讀一些相關資料,順便寫寫,整理下自己的思路。

首先要推薦一下吳軍博士的《數學之美》第二版,我對這本書的喜愛程度超過了《浪潮之巔》,值得手不釋卷,反覆閱讀。其中專題涵蓋了統計學、搜索、分詞、爬蟲、信息指紋、廣告演算法、雲計算、人工智慧等內容,當然也包括自然語言處理。如果你真的想詳細了解自然語言處理(NLP)的來龍去脈,可以去細細的品讀數學之美。我這篇文章只能算浮光掠影。

與現在火熱程度如同火焰山上空太陽的人工智慧類似,自然語言處理同樣有漫長的歷史,這個時間的跨度是六十多年。自然語言處理是計算機科學領域與人工智慧領域中的一個重要方向,甚至可以說是人工智慧的一個起點,因為最初科學家想證明一台機器具備智能的特性之一就是看丫能否和人類對話,理解人類的語言。

這個想法是圖靈在1950年提出來的,他的設想是:讓機器和人交流,如果人無法判斷自己交流的對象是人還是機器,就說明機器有智能了。那麼如何讓機器具備這樣的能力呢,當然不是攢好硬體往地上一扔說「來,給大爺背段唐詩」就行的。科學家們需要為機器設計識別和理解自然語言的演算法和程序,理解了,才能夠進行對應的交流。

現在我們知道,在大數據的基礎上,自然語言處理基於數學模型和統計學已經取的了突飛猛進的發展。但最初可不是這樣。

如何讓電腦學習和識別自然語言呢?直覺上一定是人類怎麼學,機器也得怎麼學,用電腦模擬人腦。一個人如果通曉多門語言,那這個人一定懂的這些語言的語義,單詞,語法規則,詞性和構詞方法等等要素。如果機器要理解人類的語言,就得同樣去學習這些規則。從此,自然語言處理的科學家們走上了一條看起來是陽關道的征途,現實卻是沉沉的黑夜,沒有盡頭。

人類的語言是如此複雜,主謂賓定狀補,前置後置加倒裝,排比隱喻賦比興,各國的語言雖然都是人話,但語義全然不同,一句簡單的語言,可以拆分成幾十條規則的文法分析樹,這種做法幾乎是計算機里的窮舉,看不到盡頭。20世紀80年代以前,自然語言處理的文法規則都是人工寫成,後來開始使用機器總結,即便如此,想通過文法規則覆蓋大部分的真實語句,也是「不可能完成的任務」。這些文法規則寫到最後,還會出現矛盾,然後又需要再寫規則去制約這些矛盾的規則。

做過企業級軟體開發的估計都用過規則引擎(Rule Engine),企業軟體業務規則繁複,常換常新,如果應對這樣的變化呢?我們會通過抽象把這些規則通過規則引擎的語義翻譯成計算機能夠理解的二進位語言,數據來了,直接扔到規則引擎里,讓滿足條件的規則去處理就可以了。規則變化了,直接修改規則引擎里的表達式即可。但是,如果規則出現了自相矛盾的情況,規則引擎就不成立了,就需要規則之外的規則去拯救規則引擎。這句話是如此繞口,以至於還挺容易理解的。自然語言處理的科學家們就處在這樣一樣混沌的狀態中無法自拔。

在人類的歷史上,當一小撮人在黑暗的道路上越走越遠的時候,總會有位不世出的英雄站出來說,要有光!這次站出來的是賈里尼克和他領導的 IBM 華生實驗室。他們提出了統計語言學,最初是想解決語音識別的問題,最終在統計學和大數據的基礎上,建立了統計語言模型,讓自然語言處理獲得了新生。今天的自然語言處理已經廣泛應用與翻譯、語音識別、印刷體識別、語義分析處理、聊天機器人等領域。

為什麼統計學能夠解決自然語言處理這個難題?這裡面就涉及到概率和各種數學公式,等我搞明白了,再寫給大家看。今天我們想說的是,在賈里尼克指明了這條光明大道之後,基於規則和基於統計的的自然語言處理方法論之爭居然整整持續了15年。

一個新事物或新理論誕生的時候,沒多少人能夠透過重重迷霧看透未來,但總有一部分人去嘗試和探索,另一部分人墨守成規,持盈守成(其實都沒成),擔心沉沒的成本,在不知不覺中放棄了跟隨或者創造歷史的機會。

吳軍老師在書中感慨:

15年,對於一個學者來講是一段非常長的時間,如果哪一個人從做博士開始就選錯了方向並堅持錯誤,到15年後發現的時候,基本上這一輩子就可能一事無成了。

前一陣子和左耳朵耗子聊到了技術和創業,共同的感受是:無論如何,不能辜負了這個新事物層出不窮的大時代。向前的趨勢無法逆轉,重要的是,你是不是選擇了,是不是選對了,是不是會原地踏步15年?

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 MacTalk 的精彩文章:

懂得花錢買時間的人,離成功都不會太遠
回收也是一種生活方式

TAG:MacTalk |