用數學邏輯之美揭示語言結構之妙
【語言論壇】
用數學邏輯之美揭示語言結構之妙
——談談語言學中的數學方法
作者:馮志偉,系杭州師範大學特聘教授
傳統語言學的目的在於規定正確讀和寫的種種規則,這樣的語言學有點像法律;
歷史語言學用譜系樹的方法來表示不同語言之間的親屬關係,這樣的語言學一如生物學;
結構語言學力圖找出語言中各個要素之間的結構關係,這樣的語言學酷似化學。
那麼,語言學和數學究竟有什麼關係呢?
華羅庚說過:「宇宙之大,粒子之微,火箭之速,化工之巧,地球之變,生物之謎,日用之繁,無處不用數學。」馬克思指出:「一種科學,只有在成功地運用數學時,才算達到了真正完善的地步。」恩格斯也認為,「任何一門科學的真正完善在於數學工具的廣泛應用。」
他們都認識到數學在科學研究中的重大價值。數學的用處如此之大,其原因在於數學具有邏輯之美,而任何領域都離不開邏輯。
那麼,語言學和數學有什麼關係呢?
語言學和數學都是有相當長歷史的古老學科。語言學歷來被看作典型的人文科學,數學則被許多人看成最重要的自然科學。在學校教育中,語文和數學被認為是兩門基礎學科,成為任何一個受教育者的必修課。它們似乎成了學校教育的兩個極點:一個極點是作為文科代表的語文,一個極點是作為理科代表的數學。在一般人看來,語文和數學似乎是兩門風馬牛不相及的學科;甚至有的人認為,用數學方法來研究語言,是一種離經叛道的古怪行為。很少有人想到,這兩門表面上如此不同的學科之間竟然還存在著深刻的內在聯繫。
漫長的發現過程
語言具有奇妙的結構,數學具有邏輯之美,在人類的科學發展歷史上,學者們經過了相當漫長的過程才逐漸察覺到語言學和數學之間的親密關係,認識到可以用數學的邏輯之美來揭示語言的結構之妙。
前蘇聯數學家馬爾可夫
早在19世紀中葉,就有人用數學來研究語言現象。1838年,英國學者皮特曼選取了20本書,每書取500詞,共計1萬詞,以此為語料進行統計,得到常用英語詞頻表,於1843年出版。這可能是我所看到的文獻中使用數學方法研究詞頻的最早記載。
1913年,前蘇聯數學家馬爾可夫採用概率論方法研究了《歐根·奧涅金》中的俄語母音和輔音字母序列的生成問題,提出了馬爾可夫隨機過程論,後來成了數學的一個獨立分支,對現代數學產生了深遠影響。語言結構中所蘊藏的數學規律,成了馬爾可夫創造性思想的源泉。《歐根·奧涅金》是普希金的長篇敘事詩,講的是一個哀婉的愛情故事,我們讀《歐根·奧涅金》,欣賞的是它的故事情節或者獨特的詩歌節律,而馬爾可夫卻獨具慧眼,從中發現了隱藏在字裡行間的數學規律。
1935年,美國語文學家齊夫提出了齊夫定律,用數學方法描述頻率詞典中單詞的序號與頻率的分布規律。
計算機和語言的不解之緣
與此同時,有一些傑出的學者學開始從計算機和通信的角度來關注語言問題,取得了突破性的成就。
英國數學家圖靈
英國科學家圖靈在1950年發表的《機器能思維嗎》一文中天才地預見到計算機和自然語言將會結下不解之緣。他提出,檢驗計算機智能高低的最好辦法是讓計算機來講英語和理解英語。
20世紀50年代提出的自動機理論來源於圖靈在1936年提出的演算法計算模型,這種模型被認為是現代計算機科學的基礎。圖靈的工作首先導致了麥克羅克–皮特的神經元理論。一個簡單的神經元模型就是一個計算的單元,它可以用命題邏輯來描述。接著,圖靈的工作導致了有限自動機和正則表達式的研究,這些研究都與語言的形式化描述有密切關係,把數學與語言緊密地聯繫起來。
1948年,美國科學家香農把離散馬爾可夫過程的概率模型用來描述語言的自動機。1956年,語言學家喬姆斯基從香農的工作中吸取了有限狀態馬爾可夫過程的思想,首先用有限狀態自動機作為一種工具來刻畫語言的語法,並且把有限狀態語言定義為由有限狀態語法生成的語言。這些早期的研究工作產生了「形式語言理論」這樣的研究領域,採用代數和集合論把形式語言定義為符號的序列。喬姆斯基在研究自然語言的時候首先提出了上下文無關語法,計算機科學家巴庫斯和瑙爾等在描述ALGOL程序語言的工作中,分別於1959年和1960年獨立地提出了巴庫斯–瑙爾範式,並發現他們提出的這種範式與喬姆斯基的上下文無關語法是等價的。這些研究把數學、計算機科學與語言學巧妙地結合起來,大大地促進了學者們採用數學方法來揭示語言的數學面貌。
這個時期的另外一項基礎研究工作是用於語音和語言處理的概率演算法的研製。香農把使用通信信道或聲學語音這樣的媒介傳輸語言行為比喻為雜訊信道或者解碼。他還借用熱力學的術語「熵」作為測量信道的信息能力或者語言的信息量的一種方法。他採用手工方法來統計英語字母的概率,然後使用概率技術首次測定了英語字母的熵為4.03比特,用數學方法來描述語言的統計規律。
在這些研究的基礎上,在語言學中出現了數理語言學、計量語言學等廣泛採用數學方法的新興學科。
法國數學家阿達瑪是一位具有獨特創見的學者,他用自己的慧眼,清楚地認識到語言學在人文科學中是最容易與數學建立聯繫的學科。他斬釘截鐵地指出:「語言學是數學和人文科學之間的橋樑。」
顯而易見,具有邏輯之美的數學確實能夠幫助我們洞察語言規律,發現語言的結構之妙。
大數據時代的自然語言處理
美國數學家香農
進入信息網路時代之後,語言研究開始從大規模真實文本語料庫中來獲取語言知識,必須使用統計方法,進一步推動了數學在語言學中的應用。在自然語言處理中,提出了隱馬爾可夫模型、最大熵、雜訊信道等基於統計的數學模型,統計方法成為機器翻譯研究的主流,機器翻譯由基於規則到基於統計,統計機器翻譯的勢頭日益強大,一直延續到2007年。
從2007年開始,在大數據、雲計算等因素的影響下,自然語言處理在統計方法的基礎上又向前跨進了一步,開始採用深度學習的方法,機器翻譯、自動問答、信息檢索、信息抽取等領域的研究,廣泛採用循環神經網路、長短時記憶、卷積神經網路等深度學習的數學方法。深度學習比統計方法更勝一籌,取得了振奮人心的成績。自然語言處理的研究離開數學幾乎寸步難行了。
法國數學家阿達瑪
隨著我國自然語言處理研究的進一步發展,越來越多的學者開始關注語言學中的數學方法,數學方法在語言研究中的應用越來越廣泛。就是在傳統的語言學研究中,也開始採用數學方法,而不再認為使用數學方法來研究語言是一種離經叛道的古怪行為。在語言研究中採用數學方法,現在已經得到了我國語言學界的普遍認同。隨著自然語言處理研究的發展,數學已經成為語言學研究的一種最重要的工具。
今天,現代語言學的研究,特別是面向計算機的語言學研究,越來越離不開數學了。我們應當與時俱進,進行更新知識的再學習,更加自覺地把數學方法應用到語言研究中,用數學的邏輯之美來揭示語言的結構之妙,從而推進我國語言研究的現代化和信息化。
《光明日報》( 2017年07月09日 12版)


※20元假證五六萬元出售 房屋中介竟賣假戶口准遷證
※光明早報:習近平出席G20峰會;可可西里申遺成功
※無人駕駛汽車:智能管理滯後是個大問題
※讓留學生癱瘓的「笑氣」是什麼鬼?
※完美日記輕薄無瑕粉底液 給你「仿若天生」好氣色
TAG:光明網 |
※美研究揭示大腦如何學習語言
※夢幻般的圖像揭示了物理學之美
※眼神交流揭示人類進化之謎
※谷歌AI發布新型機器學習演算法:揭示蛋白質結構中的奧秘!
※用宇宙射線揭示金字塔之謎
※十條法則揭示谷歌的用人之道
※道教命理學揭示最和諧的戀愛生肖配對
※《奇妙的數學摺紙》:從數學角度深刻揭示摺紙的魅力
※陳匡時課題組使用超高解析度成像技術揭示HIV病毒組裝過程
※深究中國古預言之謎-揭示世界本源
※語言測試靈魂5問,揭示以測促學3個原則
※研究揭示麩質攝入量與II型糖尿病風險之間的關係
※此人首創一成語,指出東吳成功之道,揭示孫策孫權不同之處
※揭示mRNA m5C的序列結構特徵和動態變化規律
※董昭借用一句成語,原本是說社會風氣,卻揭示司馬懿成功之道
※《論語》所揭示的交友之道——有三種朋友絕對不能交!
※揭示內丹學的修持法訣
※三個原因成就了王羲之「書聖」稱號,透過《蘭亭序》揭示用筆之妙
※數據揭示桑切斯對曼聯作用越來越大!他的處境類似C羅在尤文困局
※研究揭示了在線評論對心理的影響