當前位置:
首頁 > 最新 > 大數據時代語言研究的方法與趨向

大數據時代語言研究的方法與趨向

大數據時代語言研究的方法與趨向

劉海濤1, 2林燕妮1

(1. 浙江大學 外語學院,浙江 杭州310058;2.廣東外語外貿大學 外國語言學及應用語言學研究中心,廣東 廣州510420)

摘 要:文本圍繞大數據時代語言研究這一主題展開探討。首先從信息時代背景下語言學家的角色談起,闡釋當今時代語言研究的變化,強調語言材料的真實性對發現語言規律至關重要,介紹大數據為語言研究帶來的新契機,並論述「語言是由人驅動的複雜適應系統」的觀點。其後,從科學哲學的角度闡明採用科學方法研究語言的必要性,並討論數據密集型語言研究範式及問題。之後以團隊的研究成果為例,介紹基於數據的語言研究具體如何開展。最後闡述基於數據的方法在語言學的學科建設與發展中所起的作用。

關鍵詞:語言學;大數據;數據密集型研究方法;科學研究範式

中圖分類號:H1-0文獻標識碼:A文獻編號:1005-9245(2018)01-0072-12

引言

自20世紀下半葉起,人類社會從工業時代逐步邁入信息時代。隨著信息化浪潮席捲全球,信息爆炸問題日漸凸顯。人類歷史上從未遇到過這麼多的信息,人類幾乎生活在一個被信息所包圍的世界裡。對處理海量信息和知識的迫切需求,促使人們思考如何使用計算機幫助人類完成一些繁雜的工作或解決一些問題,例如抽取信息、自動翻譯等,使人們可以集中精力做更重要的事情。因此,計算語言學和自然語言處理領域應運而生,並呈現出了蓬勃發展的態勢。

然而,正是在這一頗具發展潛力的語言應用領域中,卻時而能聽到對於語言學家的質疑聲。例如,美國工程院院士、自然語言處理專家弗雷德里?傑利內克(Fred Jelinek)據稱曾說過這樣一句話:「每當我解僱一位語言學家,系統的性能就會改善一些。」[1][2](有關這句話的來龍去脈,可參考https://en.wikipedia.org/wiki/Frederick_Jelinek#cite_note-6。)當中也許有些開玩笑的成分,我們卻無法忽視一個事實:目前在主流的計算語言學和自然語言處理領域中,幾乎很難見到語言學家的身影。理應來講,這些應用性領域主要的處理對象是語言,而作為研究語言的基礎學科,語言學本應能夠為語言實踐與應用提供一些幫助和指導,這個時代本應是語言學家大展宏圖的時代,但現實卻對語言學家如此殘酷,究竟有何原因?當代語言學家的作用該如何體現?這成為觸發我們反思語言研究及其與當今信息時代之間關係的起因。伴隨著信息化進程不斷推進,近年來,以規模性(Volume)、多樣性(Variety)、高速性(Velocity)和價值性(Value)的「4V」特徵[3]著稱的「大數據」(Big Data),開始改變人類的社會生活和思維方式,並形成了新的研究範式[4],在自然科學和人文社會科學領域均有不少新發現。由此可見,信息時代對語言研究提出了挑戰,同時也帶來了新的機遇。

本文以「大數據時代的語言研究」為主題,嘗試就如下幾方面問題進行探討:信息時代背景下,語言研究產生了怎樣的變化?基於數據的方法能否為語言研究帶來新的思路?作為建立在數據基礎上的語言學分支——計量語言學持有怎樣的語言觀?其研究範式如何體現出科學性?採用數據密集型方法的語言研究具體如何開展?當今「雙一流」建設背景下,該方法又能對語言學的學科建設與發展起到什麼作用?

文章餘下內容的組織結構如下:第一部分闡述信息時代語言研究的變化;第二部分討論數據密集型語言研究方法及問題;第三部分介紹幾項基於數據的語言研究;第四部分給出關於學科研究與發展的一些思考;最後部分為餘論。

■■■■■

01

一、信息時代語言研究的變化

本部分闡述信息時代語言研究的變化。首先結合一位世界著名語言學家從「花園」走向「灌木叢」的學術經歷,強調當代的語言研究必須注重語言材料的真實性,並突破以往研究方法的局限;其後指出在大數據時代,語言研究將獲得新的發展契機;最後介紹基於數據的語言分支——計量語言學,闡釋其定義及語言觀。

(一)語言研究的轉變:從「花園」到「灌木叢」

2016年8月,辭彙功能語法(Lexical Functional Grammar)[5]的提出者瓊·布里斯南(Joan Bresnan)獲得了計算語言學學會(Association for Computational Linguistics)授予的終身成就獎。布里斯南的獲獎感言後來發表在《計算語言學》(Computational Linguistics)2016年第4期上,題為《語言學:花園與灌木叢》[6]。文章中,布里斯南回憶了自己從語言學的「花園」走向「灌木叢」的經歷。她認為,目前大多數傳統意義上的語言學理論,與現實社會所需要的語言學理論存在著本質的區別。包括生成語法在內的傳統語言學屬於「花園裡的語言學」,主要分析語言學家依靠精挑細選或內省得出的語言現象,並通過句法樹、短語等符號來進行定性概括。而「灌木叢中的語言學」或「野地里的語言學」研究的是人們日常交流所使用的真實語言,通常藉助條件概率、信息量等來進行定量分析。當面對的不再是花園裡那些規規整整、完美精緻的花兒,而是大片雜蕪紛亂的野生灌木叢時,花園裡用的那一套工具與方法就極有可能失效。

布里斯南是喬姆斯基的博士生,她在文中還回憶了自己上個世紀60年代在麻省理工學院跟隨喬姆斯基讀博士的情況。那個時期,整個世界都為喬姆斯基的想法所吸引。語言被視為符號模式所組成的集合,通過採用符號邏輯公式,分析人類語言結構,探索人類的語言與心智——這當然是非常激動人心的。當時被這個想法所鼓舞的人很多。其中有一位工科博士,比她在麻省理工入學早幾年,甚至一度打算從他攻讀的資訊理論專業轉到語言學。但由於他導師不同意,他只好把資訊理論的博士讀完[7]。這個人正是後來說要「解僱語言學家」的傑利內克。這不禁令人疑惑:語言學發展的幾十年間,是什麼使得像傑利內克這樣一位熱衷於理論(形式)語言學的熱血青年,變成一個解僱語言學家的冷麵老闆?最大的問題可能出在主流語言學的研究材料和方法上。如上所述,自然語言處理需要面對真實的、多樣化的語言,如同在大千世界裡自然生長的灌木叢。如果像栽培花園裡的花朵一樣,只把精選好的幾個句子,可能難以發現真實語言的規律。

無論是傳統語言學還是現代語言學,研究的對象都是人類語言。不管語言學家是否準備好了,信息時代都已來臨。信息的主要載體之一是語言,信息時代的語言研究可能要同時考慮人和計算機的需要,這是一種信息時代的語言觀。自然語言處理所面對的是真實的語言材料,真實語言最顯著的特點是概率性,即,語言的合法性介於可能與不可能之間,具有梯度性,而不是非此即彼的簡單二分。科學研究一般均涉及抽象建模的過程。模型的特徵對應的是研究對象可觀察的屬性。理論並不能直接解釋現實世界本身,而是要通過抽象之後的模型以及它所對應的現實來進行解釋。因此,理論的預測能力取決於模型和現實之間的對應關係。如果在建模的過程中忽略了研究對象最本質的特性,沒有反映其真實面貌,那麼通過這一模型發現的成果最後就很難被別人使用。這可能是絕大多數語言學家被計算語言學所拋棄的重要原因之一。當然,我們不能僅以此例來評價語言學存在的意義與價值。但布里斯南從「花園」走向「灌木叢」的經歷,說明信息時代的語言研究可能正面臨著重要轉變。

毋庸置疑,20世紀50年代起,喬姆斯基所倡導的語言形式化方法與理論為我們帶來了一場語言學革命。然而,這幾十年語言研究的理論與實踐均表明,語言研究可能還需要一些新的轉變。具體而言,第一,在研究對象上,應更多地關注真實的語言材料,關注人與語言系統的關係;第二,在研究方法上,需要根據真實語言材料的特點,採用先進的技術手段與研究方法,以此來彌補內省法或定性手段的不足;第三,在模型選擇上,更需要關注模型的跨語言有效性,而不囿於某種特定的語言,因為語言學研究的是人類的語言,語言學家所發現的規律更多的應該是人類語言的普遍規律。否則,我們可能會離這個時代越來越遠。

?

(二)大數據時代為語言研究帶來新機遇

信息時代在給當今的語言研究帶來挑戰的同時,也為實現上述轉變提供了新的契機。前文提到的轉變,實質上更多的是方法的轉變,即從內省方法到數據驅動方法的轉變。數據驅動意味著語言研究也可以具有或應該適應信息時代的另一個特徵,也就是我們今天常聽到的「大數據」。雖然「大數據」這個提法不太嚴謹,因為「大數據」除了規模大之外,還具有種類多、處理速度快、價值密度低等特點[2]。但無論是「大數據」還是最近提的「厚數據」,說的都是我們正處在一個數據唾手可得的時代。對於語言學家而言,我們應該更看重「數據」這個時代特徵,更關心數據驅動的語言研究路向,而不只是數據的多少。換言之,我們更應該關心的是能用數據來解決哪些語言學問題,或者能發現那些過去我們注意不到或無法研究的語言規律。從這個意義上說,數據為我們提供的是一種研究範式、一種觀察研究對象的方法和工具。

首先,基於數據的方法為我們提供了感知研究對象的量化維度,令我們對研究對象有一個更清晰、更精確、更細微的認識。宛如從不同的距離和視角觀察同一個事物,從宏觀到微觀,隨著觀測距離的推近與拉遠,所看到的世界以及給人們帶來的體驗會很不一樣。有了更多的真實語言材料,有助於更深入而真實地反映語言的概貌。基於數據的方法能反映語言的一些本質特徵,其中一個特徵是語言的概率性[8]。例如,在以內省法為研究手段的語言學中,打星號(「*」)標記的句子,按母語者的語感是不符合語法或不能接受的。然而在日常生活中,這些打了星號的句子實際上有相當一部分人在使用。大量研究表明,人們理解或產出的語言,按照規定性語法,並不是「能接受」與「不能接受」的絕對二分,而是介於兩者之間。假如有大量語言數據的支撐,那麼在很難描述某種說法的合理性時,也就便於更細緻地區分語法上可接受的程度。數據手段有助於更好地反映語言的真實狀態和本質特點,正如伯納德?科姆里(Bernard Comrie)在《語言共性和語言類型》前言中的最末一句話:「語言學研究語言,而語言是民眾實際所講的語言。」[9]

此外,數據能更好地幫助我們研究人類的語言規律和認知規律之間的關係。我們知道,語言是一個符號系統。而以往的很多研究把人與語言分離開來,只做純粹的形式分析。但實際上,語言是由人驅動的符號系統,或更精確地講,是一種人驅複雜適應系統。語言的結構模式和演化規律均受到生理、心理、認知等內部因素,以及自然、社會等外部因素的綜合影響。其中,內部因素的普遍性決定了語言的共性,外部因素的差異造就了語言的多樣性。一方面,認知普遍性在一定程度上決定了語言的普遍性。例如,遞歸被認為是人類語言最本質的特點[10],但實際上遞歸併非是無窮的,三層以上的遞歸現象在實際使用中很少出現[11][12]。人不能完全等同於機器,人是受到認知因素約束的。另一方面,人生活在一定的自然環境和社會環境中,這些自然、社會、文化等因素可能會對語言有所影響,從而形成了世界上多種多樣的語言。因此,從大量來自真實語言運用的數據出發,有助於我們更好地發現或解釋人類語言的普遍性和多樣性。

(三)離不開數據支持的語言學分支---計量語言學

傑利內克後來曾發文指出,語言學家研究語言現象與物理學家研究物理現象十分相似。因此,如果工程師能從物理學家的真知灼見中獲益,自然語言處理的研究者也應該從語言學家處汲取營養[2]。換言之,物理學家發現的是物理世界的規律,而語言學家應該研究的是語言的結構以及演化規律。既然如此,為什麼主流的語言學研究成果難以應用於自然語言處理實踐?除了以上提及的研究資源與方法的問題外,研究的精確性與科學性也是一個值得注意的問題。如果從採用科學的方法發現語言系統規律的角度看,計量語言學是一個值得倡導的語言學分支。

計量語言學採用定量的方法,對各種語言現象、語言結構、結構屬性以及他們之間的相互關係進行定量分析和動態描寫,以揭示各種語言現象的關係、地位、規律和總體面貌,探索語言系統的自適應機制和語言演化的動因,力圖提高語言研究的精確化和科學化[13]。

那麼,計量語言學與本體語言學有什麼聯繫與區別?首先,作為語言學的一個分支,計量語言學和語言學的其它分支一樣,均以探索語言規律為目標。而計量語言學在語言觀、語言材料、研究方法和抽象程度方面,與本體語言學是有差別的。很多情況下,本體語言學是由與某種語言現象有關的具體問題驅動的,主要通過具體例子或用法,藉助語感來進行分析,試圖通過內省法,並或多或少藉助形式化的手段探求語言結構的規律,以研究大腦的語言處理機制。計量語言學從系統的角度,把語言看作一個複雜適應系統,使用真實的語言材料,以定量方法為主、採用數學的手段來探求語言結構和演化規律。總之,它具有精確、真實、動態的特點。值得注意的是,計量語言學與大部分的本體語言學相比,在研究對象的抽象程度方面是有差異的。計量語言學希望通過建立語言系統的模型,在更抽象的層面上探討語言系統及其運作規律。雖然採用的是真實文本,但是很少涉及其中具體的字詞句。從規律的發現與呈現方式看,計量語言學追求的語言規律更接近與物理學家發現的有關物理世界的規律。

當然,從具體的語言結構出發也是很有趣的,兩種視角很難說孰優孰劣,兩者都以探討語言規律為目標,只是方法不同。人類語言是一個非常複雜的動態系統,為了探求系統的運作機理和演化規律,我們可能需要同時採用不同的方法、結合各自的優勢,來對語言系統進行全方位的探索,從而對人類語言系統有一個更全面、更完整、更深入的認識。

(四)計量語言學的語言觀:語言是複雜適應系統

計量語言學將語言視為一種複雜適應系統,這種語言觀與以往對語言的看法是有所不同的。語言作為一種符號系統的觀點,很早以前就由以索緒爾為代表的語言學家提出來。遺憾的是,長期以來,語言甚至被認為是一種脫離於人而存在的符號系統。1995年,霍蘭在《隱秩序》[14]一書中提出了複雜適應系統理論。該理論的核心思想是:個體的適應性導致了系統的複雜性。在這一思潮的影響下,遺傳演算法、神經網路、演化博弈論等複雜網路方法逐漸被引入對社會系統的研究之中[15]。近年來,一些語言學家基於語言事實,提出語言也是一種複雜適應系統[16][17][18]。

按照系統科學的定義,「系統」是指組分及其之間的關係所構成的整體。哲學認為運動是絕對的。現實系統總是不可避免地要承受來自環境或系統自身的各種擾動[19]。因此,正常情況下的系統是動態的,為了一個共同的功能目標而運作。如果語言是一種系統,那麼它應該具備系統的共性。作為一種動態系統,其運作的主要目標是為了完成作為人類交流工具這一主要功能。當然,語言還有其它的功能,如文化的容器、身份的象徵等。為了實現交際最優化,語言系統的各個組分,受省力原則的支配,需要在辭彙、句法和語義等層面上協同起來,以共同完成這個目標。然而,過去很多研究卻把語言看成了靜態系統。系統是動態還是靜態,研究起來存在著本質差異。

「複雜」主要指系統的整體行為不等於組分行為之和,即具有湧現性。對於語言系統,以一個由五個詞構成的句子為例,把這五個詞簡單加起來,有時候並不一定能得到整個句子的意思,即存在部分之和不等於整體的情況,這也是現實世界中複雜系統的主要特點之一[20]。除此之外,複雜系統還具有不確定性、非決定性、隨機性等特徵[21]。某種意義上講,複雜總是與不確定性或概率相關的。

「適應」針對的是有目標限定的動態系統。語言系統具有適應性。所謂「適應」是指在一定的外界環境下,系統通過自組織過程適應環境而出現新的結構、狀態或功能[19]。適應系統具有一套自我調節機制,以維持自身的平衡,語言也是如此。以語言的辭彙系統為例,我們從辭彙系統中抽象出詞的一些屬性,包括詞的頻度、長度、多義度、與其它詞的結合能力等,這些屬性之間密切相關。在一個平衡的辭彙系統中,一個使用頻度高的詞,長度通常比較小——注意這不是絕對的,而是統計規律,之前也提到過,語言是自然狀態下呈現出千姿百態的「灌木叢」。如果一個之前不太常用的詞,使用頻率突然增加了,那麼其辭彙協同子系統會作出反應,即這個詞會自動地、暫時性地縮短長度,以滿足交際的需求,這是系統適應能力的具體表現。

作為一種複雜適應系統,語言與人是共同演化的。前文提到,語言是由人驅動的符號系統。語言系統處在不斷變化發展中,人也處在不斷地變化發展之中。語言系統的發展變化由人這個使用者帶動,來自人內部(生理、心理等)和外部(自然、社會等)兩方面的因素影響了語言的普遍性和多樣性,所以我們不能撇開人的因素來孤立地看待語言現象。

如果語言是一個系統,那麼按照研究一般系統的方法來研究語言,是一個很自然的思路。從系統論的角度研究語言,需要通過對各種語言現象進行細緻的觀察,對語言系統的組分、結構、過程、行為、功能和環境等方面展開研究,這些同樣需要來自真實語言材料或語言行為試驗的數據作為支撐。

2

二、數據密集型語言研究方法及問題

從以上有關計量語言學的定義和語言觀的討論里,不難體會到計量語言學追求精確的特點,這與語言作為一門科學的題中之義相契合。在這一部分,我們將從科學哲學角度闡釋計量語言學的研究範式,並就語言研究中與數據相關的幾個問題展開討論。

(一)採用科學研究方法的必要性

從規律發現的角度看,採用科學的研究範式研究語言是十分有必要的。哲學的分支之一——科學哲學對於什麼是科學、什麼是理論、什麼科學研究範式等問題有專門的闡釋。當今科學界認為,科學研究必須採用科學的方法進行。「語言學是一門科學」的理念雖然被大多數語言學家所接受,但長期以來,語言學在科學界卻難以獲得普遍認可,其中原因與語言研究者在多大程度上認同並遵循科學研究範式不無關係。如果我們認為語言學是科學,卻又不遵循科學的方法開展研究,在邏輯上恐怕難以成立。

當然,即便是按照傳統方法完全不使用任何數據也並無不妥,因為每一個嚴肅地做自己的研究的人都應該受到尊重。只是現在我們手上掌握了大量數據以及操作數據的新方法,不去使用總感覺有些可惜。更重要的是,數據或許真能幫助我們獲得一些新發現。舉個生活中的例子,在攝影的時候,使用長焦、標準、廣角、魚眼等不同的鏡頭拍同樣的景物,拍出的照片給人的感覺會不一樣。當分別用顯微鏡和望遠鏡去看同一個事物,所見所感也是很不一樣的。沒有體驗過的人可能很難想像這種感覺帶來的靈感和啟發。那麼,是不是當我們掌握了更多的數據,對語言的感受和認識可能會不一樣?過去我們沒有類似顯微鏡和望遠鏡這樣的工具,現在觸手可及,又何樂而不為?

(二)計量語言學的研究範式

前文指出,計量語言學採用的是數據密集型研究範式,具有精確、真實、動態的特點。其中,「精確」是指採用數理手段對語言進行定量描寫;「真實」是指使用日常交際所使用的真實的語言材料;「動態」是指把語言視為一個變化著的複雜適應系統。因此,計量語言學採用的是接近於自然科學的方法。

用定量的方法來研究語言歷史悠久,但長期以來沒有形成一個系統的學科。上個世紀六十年代,德國學者加百利·阿爾特曼(Gabriel Altman)開始系統地研究語言學和科學哲學的關係。他在分析了大量實例後,完全按照科學哲學的方法,制定了一套比較詳細的方案,構擬出現代計量語言學的理論架構。在研究範式上,阿爾特曼總結了計量語言學的研究範式,給出了五個基本研究步驟:1. 提出與實證相關的並可以進行檢驗的假設;2. 用統計的語言來表達這些假設;3. 尋求合適的統計方法對假設進行統計檢驗;4. 根據統計檢驗的結果,決定能否拒絕假設;5. 解釋假設。計量語言學的這一研究範式,就是當今我們所理解的符合科學哲學意義的研究範式。美國學者大衛·愛丁頓(David Eddington)曾經寫過一篇文章,就叫作《語言學與科學方法》[22]。文中寫到,如果要對真實的語言要做出有效的解釋,必須採用科學的方法。而且一定意義上來說,語言學的進步取決於研究者在多大程度上採用了這種科學家所公認的、標準的科學研究方法:觀察現象、提出假設、收集數據、驗證假設、得出結論——也就是今天我們所說的實證研究方法。

在這個時代開展基於數據的語言研究,首先要考慮有哪些問題是需要數據的,或是否有需要數據去解決的問題。通常會遇到兩種情況:一種情況是假設驅動,即按照科學研究範式,先提出假設,然後收集數據、驗證假設並得到結論;另一種情況是數據驅動,即儘管暫時還沒有假設,但先掌握了大量的數據,然後分析這些數據所展現出來的模式,發現並解釋其中的規律。驗證假設也是需要數據的。儘管內省法是目前主流語言學家的選擇,但如果我們也可以用科學家公認的方法來驗證假設,彌補內省法的不足,得到的結論也許會更令人信服一些。

關於科學研究範式,李國傑院士在為《可視化未來》撰寫的序言中曾這樣寫道:「數據密集型科學研究已經上升到與科學實驗、理論分析、計算模擬並列的科學研究『第四範式』……大數據對社會科學的變革意義,與伽利略首次將望遠鏡指向太空對天文學的意義一樣重大。」[23]迄今為止,科學家們採用數據密集型範式開展研究,在諸多領域已經有了很多有趣的發現[24]。

Next

(三)數據密集型研究方法的幾個問題

在介紹數據密集型研究範式之後,以下圍繞與該方法相關的幾個問題展開討論。

1.大數據時代量化研究方法的特點

用量化的方法研究語言的歷史並不短暫。以往的語言定量研究也是以發現語言規律為目標的。受技術等條件約束,依靠傳統的卡片式等收集方法所獲得的語例比較有限。但是在今天,只要打開計算機聯上網,語言材料隨手可得。從數據規模上看,全世界幾十億人,幾乎每個人每天都在說話,真要全部收集起來,數據必然非常大。海量數據及操作技術為我們這個時代的語言學家提供了更有利的條件,這有助於反映不同場景下的語言樣貌,加深我們對語言的了解和認識。數據大當然有大的好處,但並不是越大越好。當語料庫達到一定的規模後,它的功能不一定會隨著規模變大而同步增長。對於文科的學者來說,要處理好大量的數據,可能也存在一些技術上的困難。此外,從建模的角度看,以往定量研究中的統計模型是驗證驅動的,強調先有設計,再通過數據驗證設計模型的合理性;而大數據模型是數據驅動的,強調建模過程以及模型的可更新性[4]。這是一個比較大的區別,但對於語言研究而言並沒有本質的差別。因為數據終究不能完全代替人,我們需要思考如何在數據的基礎上作出更科學的解釋,思考如何用數據回答關於語言結構規律和發展規律的問題。

2.兩種數據觀:數據是否會說話?

大數據時代存在兩種常見的數據觀:一種觀點認為數據會說話,不依賴於人,也很少受到人的影響;而另一種觀點認為數據自己沒法說話,是我們在為它說話並賦予它意義。

首先,我們認為數據當然不會說話,是人在用數據說話。比如「1」、「2」在不同場景下代表的意義不一樣,這隻有人才能理解這一點。所謂「數據會說話」是指人使用了數據,話可以說得更有理有據。定量方法或基於數據的方法,能夠幫助我們更科學地驗證過去的一些假設,或者更好地發現在小數據或沒有數據的時代難以發現的一些模式。但是如果一個人對所要研究的領域一無所知,那麼這些數據再多也毫無用處。所有這些過程都需要人的主動參與,尤其是高級的研究活動,如發現、分析、歸納、解釋和預測等,人的主動參與作用目前無法被機器所取代,這一點是毫無疑問的。因此,「大數據」最大的價值並不在於數據本身,而在於如何將數據與知識、社會、文化、行為以及人聯繫在一起,並通過數理統計方法,更科學地發現數據背後隱藏的有關人類認知、行為的模式以及人與社會、自然交互的規律。

其次,至於數據的中立性,前文也已經闡述過,人對現實世界的觀察和抽象是有選擇性的,這也是建模的一般問題。以語料標註為例,標註語料的過程中或離不開人的直覺分析,或受到現有語言理論的影響,這是在所難免的。分析一個句子的句法,需要通過大腦的認知機制和語言系統,識別出主語、賓語或狀語等等,然後標註出來。標註過程就反映了標註者對於這個句子以至這種語言的句法的認識,標註的過程實際上是人向機器傳授語言知識的過程。如果有足夠多的這樣標註過的句子,機器就可以從中抽象出這種語言的句法知識。當然這裡蘊含著一個問題:既然是人,對同一個句子的分析可能不一樣,那麼標註體系也就不一樣。從句法模型看,句法主要包括:研究詞間關係的依存句法、研究句子結構中部分與整體關係的短語結構句法以及把這兩者結合起來的句法框架。不論是哪一種模型,都涉及人類語言中句法的抽象和建模過程,與其它的科學領域一樣,我們需要對現實世界抽象到一個高度,構建模型之後,再去研究這個模型。當然,從現實到模型的抽象不可能面面俱到,要涉及因素的取捨問題,這是所有科學研究都無法避免的,但只要模型能反映研究對象的主要特點即可。建模之後開始標註語料,標註過程中會有一些語言現象存在爭議,因為每個人的語言直覺是不一樣的。標註過程中,當然可以爭論哪種標註方法更為合理。實際操作中,對於同一個有爭議的現象,只要統一標註方式,也應該意識到,標註過程中能引起爭議的部分畢竟很少,在整個系統中占的比例通常也是很小的。

也許有人會追問:如果擱置有爭議的那一小部分數據,是否會對研究整體產生影響?一般不會。語言是一個動態複雜系統,在正常情況下處於平衡狀態。平衡狀態意味著我們可以用這種語言來完成基本的交際功能。反之,如果語言中所有的組分及結構都有爭議,那麼這個語言是不穩定的,我們無法用它進行交流,所以,有爭議的只是其中極小的一部分,不影響全局,這是動態系統的特點:它是不斷變化發展的,而語言系統的核心具有穩定性,是它能夠作為交流工具而存在的基礎,這使得我們能用科學的方法來研究整個系統的核心。以詞性標註為例,10000個詞中,有10個詞很難界定詞性,那麼可以先臨時擱置這10個詞,因為規律最大的可能是在這9990個詞裡面。總之,要把語言看成一個系統,而不是孤立地糾結一兩個詞,這可能是和傳統的分析方法不太一樣的地方。除此之外,我們也應該時刻提醒自己,語言是一個複雜適應系統,這意味著絕大多數語言規律可能都是統計規律。

3.與大數據相關的幾個誤區

關於大數據,有一本暢銷書曾被廣泛推介,名為《大數據時代》[25]。該書可能出於宣傳目的,把核心內容壓縮成了三句比較簡短的口號:「要全體,不要抽樣;要效率,不要絕對精確;要相關,不要因果。」這三句口號曾一度引發爭議。在此需要指出的是,口號中說的「不要」並不是意味著完全拋棄,只是在強調重點發生了轉移,我們的思維和處理方式需要轉變。

關於第一句「要全體,不要抽樣」,過去的技術手段難以處理規模過大的數據,需要藉助隨機抽樣,以最少的數據來獲取最多的信息。當今天的機器軟硬體等技術條件日臻成熟,當機器可以支持處理關於全體的大數據,就不必抽樣了。當然如果仍想用抽樣同樣也是可以的,要根據研究問題來決定。

至於第二句「要效率,不要絕對精確」,統計關注的是趨勢,追求的不是絕對的精確。用計算機高效快速地處理完數據後得到數據的模式和趨勢即可。大數據的核心是預測,例如氣象大數據經過計算機處理得到模式和趨勢之後,可以用來提醒人們大約5個小時之後某個地區會降雨,預告人們出門記得帶傘就行了,無需把降雨時間精確到5個小時後的幾點幾分幾秒。大數據模型擅長做預測,但不具有演繹性,這與追求必然性的物理定律不同,但並不意味著它不科學,只是二者各自有其適用的範圍,目前還不能過多地苛求其精確性[4]。

第三句「要相關,不要因果」引起的爭議較大。我們知道,以理性主義為代表的學術研究追求的是因果關係。有人也許會問,如果不研究因果,我們還搞什麼研究呢?如果不研究因果,要數據還有什麼用?大數據尋求的是模式,然後在此基礎上進行預測,如預測購買行為、天氣狀況、流行病傳播等等,能解決實際的問題就行。但是不是意味著徹底拋棄了因果?事實並非如此。作為一個學者,當然要探索因果關係。如果兩個要素之間關係非常簡單,容易發現因果,那麼當然要研究因果。很多時候,涉及人與社會的情況錯綜複雜,利用大數據有助於我們發現相關,但進一步釐清因果則非常困難。比如,我們投入了大量的精力與物力才對「吸煙有害健康」有了一個初步的因果認識。大量的行為實驗難以重複的事例也說明,涉及人與社會的因果關係是很難一時半會釐清的,因為這樣的系統大多是非線性系統,而「因果」更多的是線性系統的特點[20]。筆者認為,因果關係是相關關係的一種,相關的偶然性蘊含著因果的必然性;如果相關已經能滿足需要,就不一定再追求單一的因果關係了。大數據有助於發現因果關係,至少可以在相關的基礎上接近因果。

由因果關係又引申出來一個小問題:目前基於數據的語言研究,發現的大多是一些可復現的模式;那這些模式與我們尋求因果的語言研究有什麼聯繫?我們知道,尋求因果的研究多是由好奇心驅動的。用大數據做研究的人,同樣具有學術好奇心。只要是研究,不論是大數據、小數據甚至無數據,都是有點好奇心的人才去做的。數據密集型研究範式,正如李國傑院士所說,是一種工具。人們用望遠鏡去觀測星空,探求過去用肉眼難以感受到宇宙深處的斑斕奇幻,現在感受到了,會不會更加好奇?工具能讓我們發現一些從前看不到的模式,而這些模式可能進一步激發我們的好奇心,去思索為什麼會形成這樣的模式。而好奇心是所有學術研究的動力,它也許能更好地促進我們探求這種語言現象背後的原因——這就轉到了因果關係的探索上。

三、幾項基於數據的語言研究

A BEAUTIFUL SPRING

關於信息時代的語言研究,前文已從研究方法上作出闡釋。本部分以我們此前的幾項研究成果為例,具體介紹如何開展基於數據的語言研究。

(一)依存距離最小化研究

首先介紹依存距離最小化研究的案例。依存語法是建立在詞間關係基礎上的語法理論[26][27]。我們知道,一個句子中的詞是呈線性排列的,兩個有句法關係的詞在句子中可能緊挨著,也可能間隔其它的詞。根據依存語法,兩個有依存關係的詞在句中的線性距離稱為依存距離。依存距離有遠有近,一般通過間隔詞數來計算。通過依存距離,我們分析了過去心理語言學家做過的一些句子,發現心理實驗中被認為難的句子,一般依存距離比較大。這說明依存距離可能與心理、認知因素有關,如工作記憶。如此,文本計量指標就可以和人的認知機制聯繫在一起,或者說有可能用經過依存句法分析的文本來研究人的認知。假設依存距離與工作記憶有關,那麼所有語言的依存距離應該十分接近,因為前文提到過,語言具有認知普遍性,受到認知規律的約束。十餘年前,我們開始基於20種語言的真實語料展開了進一步的研究[28]。這是世界上首次採用大規模、跨語言的真實語言數據來進行的依存距離最小化研究。結果非常清楚地展現了至少有十幾種語言的平均依存距離幾乎是一樣的;而人類語言的依存距離比所構擬的非人類的隨機語言的依存距離小。這驗證了我們的假設:依存距離最小化有可能是人類語言的普遍規律。依存距離最小化展現了一種我們過去所看不到的模式,這種模式的特徵展現了人類語言的普遍特徵,體現了(大)數據的作用。

值得指出的是,依存距離最小化如果是人類語言的普遍特徵,很容易讓人感覺平淡無奇,因為一些不太了解依存距離最小化原理的學者,可能認為這是對喬姆斯基普遍語法的驗證,但實際上兩者是不同的。喬姆斯基認為,普遍語法是人與生俱來的一種大腦機制,它決定了人類語言的普遍性。但我們的研究認為,依存距離最小化實際上是由於工作記憶容量的約束而導致的,人在線性化造句的時候,依存距離應儘可能小。工作記憶當然不是專司語言的,而是人類普遍認知系統的一部分。換言之,依存距離最小化的特徵是由人的普遍認知機制約束的,這並沒有證明、也無法證明人腦中存在一個生物學意義的專門負責語言或普遍語法的機制。也就是說,依存距離最小化並沒有驗證普遍語法存在與否。

在過去的十幾年間,筆者團隊從不同的角度繼續完善對依存距離最小化的理解,比如「為什麼漢語的依存距離比較大,我們卻感覺不到它難?」等等類似這樣的研究。從這個意義上說,採用大規模、多語言的真實語料,可以幫助我們發現一些平常注意不到的語言普遍特徵。

(二)基於依存方向的語言類型研究

第二個例子是基於依存方向的語序類型研究。依存語法分析有三個要素:支配詞、從屬詞和依存關係。一個句子中,支配詞或位於從屬詞之前,或位於它之後,即存在支配詞前置和後置兩種不同的依存方向。採用依存方向比例這一指標考察了二十種語言的依存方向分布。基於大規模真實語料的數據,我們發現依存方向可以作為判定語序類型的指標;語序類型是一個連續統,任何一種語言均可以在這個連續統中找到自己的位置,並根據依存距離的遠近來進行聚類分析[29]。例如,過去說某一種語言是「SOV語言」或「SVO語言」,但實際上每種語言可能都有SOV的成分,只不過可能某些語言中SOV的比例更大一些。這加深了我們對語言類型學的認識,也是(大)數據給我們帶來的新發現。

(三)基於依存距離的語言產出機制研究

第三個案例是從系統的觀點研究語言的產出機制。既然語言是一個複雜自適應系統,當中則會涉及到調節的問題。一個句子的依存距離要儘可能最小,人們交流起來才可能更省力。對於一個只有3個詞的短句,依存距離不會太大;而對於一個有30個詞的長句,依存距離則有可能很大。在遇到長句時,語言的自適應機制被觸發,從而使得這個句子的依存距離儘可能地小。我們知道,自適應系統在調節自身的過程中必然要圍繞一個目標。如果我們從系統的角度研究語言,也需要有一個明確的設定值。如果依存距離最小化是句子線性化的目標或設定值,那麼當人們產出一個長句時將會怎麼做?我們通過計算機模擬的手段、採用真實語言標註的語料庫對比的方法發現,在處理長句的過程中,很可能產生一種動態的語言單位,即組塊。組塊可以大大地減少長句的平均依存距離,在引入組塊之後可以達到依存距離最小化[30]。這是從系統的角度對語言產出機製作出的探索。

以上均是由我們通過數據去驗證或發現的,這些探索加深了我們對語言規律及語言處理機制的認識和理解。由此可見,數據密集型語言研究不但是可以進行的,而且能幫助我們發現過去難以發現的語言模式與規律、解決過去解決不好的問題。

多花の季節

4.

四、關於學科建設與發展的一些思考

本部分闡述與語言學學科發展相關的一些思考,關注基於數據的方法在其中所起的作用。首先提出語言學的學科教學需盡量體現時代特點,並結合社會的需求;其次介紹當前高校「雙一流」建設的背景下,基於數據的研究方法對於推動中國語言研究的科學化和國際化進程的作用;最後就跨學科語言研究加以討論。

(一)與時代需求相適應的課程設置與教學內容

關於語言學家的作用,傑利內克認為自然語言處理界其實一直期盼得到語言學家的幫助,但他們所需要的是將語言學與數據驅動的統計法相結合,使得機器能更好、更有效地反映人的語言知識[2]。類似的說法還有:「當僱傭一個受過良好訓練的語言學家的時候,樹庫就會更好。」[31]這與傑利內克的那句話遙相呼應。在今天,大部分建立在統計機器學習的自然語言處理以及建立在神經網路基礎上的深度學習,需要大量的語言材料來進行訓練。如果我們為語言材料賦予了句法或語義信息,機器就能夠更好地學到句法或語義知識,從而能更好地處理人類語言。這些標註過句法或語義等信息的語料庫被稱為樹庫。樹庫是機器學習的知識來源。值得一提的是,世界上最早的大規模句法樹庫正是在傑利內克的支持下建立起來的[7]。他最初想通過樹庫歸納出語法,從而為自動化語音識別服務[2]。如此說來,我們可能會感覺到語言學家是通過標樹庫來做貢獻的。但遺憾的是,並不是誰都能從事這樣的標註工作。一個「受過良好訓練」的語言學家,至少應該知道目前自然語言處理界所採用的主流分析方法是什麼。例如,就句法而言,在自然語言處理領域,大量實踐經驗已經證明了短語結構句法等分析方法存在一定的局限,目前主要採用的是依存句法理論。近年出現的基於普遍依存關係的依存句法標註體系,力圖面向全世界的人類語言,最新版本已包括了50種語言的70個樹庫(下載地址:http://universaldependencies.org/)。但是學校里學語言學課程卻很少涉及這些內容,或者說語言學專業的學生很少有機會了解自然語言處理領域的現狀。因此,從這個意義上說很難學以致用。儘管社會需要「受過良好訓練」的語言學家,但我們在專業教學內容卻在一定程度上已經脫離了時代,難以滿足社會的實際需求。如果語言學家憑空創造新的概念後,又圍繞這些難以反映真實語言樣貌的概念爭論不休,那便真的可能近似於在討論一個針尖上,究竟有幾個天使能在上面跳舞了[32]。當然,我們不是說在花園裡養的花沒有價值,即使是塑料花或絹花,也能為人們的生活增添色彩,但我們不能只是生活在花園中,人類也許更需要面對真實的世界,因為這奼紫嫣紅的大千世界不會由於我們的忽視就不復存在。因此,語言學家只有與時俱進,面對真實自然的語言材料,採用更科學的研究方法,所發現的語言規律以及得出的理論才有可能更好地服務社會。而語言學專業可能需要相應地開設一些課程,使得我們未來的語言學家有意也有能力從事具有鮮明時代特徵的工作。

(二)數據密集型方法與語言研究的「兩化」目標

從2010年至今,筆者一直在各種場合明確提出語言研究的目標——中國語言學的國際化與語言研究的科學化(簡稱為「兩化」)。我們為什麼需要這麼做呢?

一方面是中國語言學的國際化。根據定義,語言學研究的是語言系統的規律,它應該具有普遍意義。記得多年以前,筆者對語言感興趣是從學外語開始的。後來一次很偶然的機會,讀到一句話:「學語言是給個人增加新知識,研究語言學是給全人類增加新知識。」[33]這句話令人觸動頗深。語言學研究應該具有普遍價值。我們知道,中國擁有的語言學研究隊伍可能是世界上最為龐大的。但實事求是地講,改革開放以來或者更早一些,我們中國大陸本土的語言學家對於世界語言學的貢獻是比較有限的。這不是說我們自己的研究沒有價值,而是世界很少知道我們的研究。當然其中牽涉各種各樣的問題。無論出於什麼樣的原因,世界確實對於我們的研究所知甚少。這顯然和中國整體的經濟和科學發展水平不相適應。國家和社會的迫切需求使得中國語言學研究須走國際化之路,尤其在現在的「雙一流」建設背景下,更要求我們的學科不應該關起門來自己干,而是把優秀的成果拿出與世界分享。成為世界一流的前提是讓世界知道。當我們現在提倡要建設世界一流,而世界卻從未聽聞,又怎能談得上一流?正如一個人總說自己是某個體育項目的世界冠軍,但卻從未在世界各種體育比賽中露面,恐怕是不符合常理的。只有讓世界知道,站在世界比賽的起跑線上與別人同場競技,才有可能談得上爭取世界一流,才有可能證明中國的語言學家也可以研究一些有趣的問題,也能對世界語言學的發展做出貢獻。

另一方面是語言研究的科學化——這不只是中國語言學家的事情,可能也是全世界語言學家追求的目標。在高水平的科學期刊上發表學術論文,是獲得科學共同體認可的有效途徑。但目前看來,這樣的文章很難發表。如果一個學科在科學家認可的期刊上幾乎很少有文章發表,那麼它如何成為科學、甚至於是「領先科學」?之所以難,一個很重要的原因在於科學的研究需要採用科學的方法。反思語言學的發展現狀,以科學方法開展研究是語言研究走向科學化的必經之路。

那麼,數據密集型研究範式與「兩化」有什麼關係?細究起來,除了發表語言障礙之外,很多時候還有其他原因,其中也包括研究問題和研究方法。在研究問題的選擇上,如何從漢語中的特殊問題引向更具有普遍意義的語言學問題,是值得我們深思的。在研究方法方面,數據密集型的研究範式,可能比純粹思辨的、內省的方法更容易獲得當今學界的認可,而無論是驗證假設還是發現模式,都是需要數據的。我們應該思考如何在發揮傳統優勢的基礎上,結合學界通用的方法,把中國好的研究推向世界,讓世界知道中國人也可以做出好的研究成果。因此,數據密集型研究範式無疑是能促進「兩化」具體實現的。

(三)大數據時代的語言學跨學科研究

近年來,跨學科研究成為學術界的熱詞之一。我們知道,最早的時候學科劃分是不存在的,歷史上文理兼通的人數不勝數。後來由於技術的發展,探索的手段層出不窮,趨於複雜多樣,而一個人也不可能同時掌握那麼多知識和技能,因此學術分工更加精細,形成了學科劃分。經過幾十年的精細化研究歷程,我們發現精細化的方法近似於採用一種盲人摸象的方法,從整體來說對大象的認識還是需要合起來。因此在探討同一個研究對象的時候,傾向於採用不同的方法和工具。比如在研究語言的時候,借鑒生物學、物理學或數學的方法,這時便出現了所謂的跨學科或者交叉學科。

今天不少人存在一個誤區,以為任意幾個不同專業的人合在一起做事就是跨學科。這樣做的效果往往並不太理想,主要在於沒有釐清並落實研究問題。對於現階段的語言學跨學科研究,從理論上講,應該是借用別的學科的方法來研究語言學問題。比方我們對一個語言學問題比較好奇,當本學科現有的方法難以研究這個問題時,是不是可以借用其他學科的方法?

這裡舉一個語言學跨學科研究的例子。兒童語言習得研究發現,兒童大概在兩三歲時,母語的句法會出現一次飛躍。如果把語言看成一個複雜適應系統,那麼兒童的母語句法會出現湧現現象。儘管掌握的辭彙不如成人,但在兩三歲的時候說出的句子的句法模式可能已接近成人。過去的心理語言學、兒童語言習得的實例觀察均發現了這一現象,但很難清晰地展現出來。前幾年,西班牙的一些學者用複雜網路展示了兩歲左右時兒童母語句法的湧現現象[34],十分直觀形象。可見,「跨學科」並不是漫無邊際地「跨」,「跨」的本質是一種「拿來主義」,即從別的學科盡量借鑒一些方法來解決本學科的研究問題。

筆者團隊近幾年在語言學跨學科研究方面也取得了一點成果,例如借用複雜網路的方法,對斯拉夫語言進行了類型學研究。當今語言類型學的主流是語序類型學,而在分析形態變化比較豐富、語序相對自由的斯拉夫語族時,過去的語序類型學方法不太適用。我們從統計物理學中借鑒了複雜網路的方法,基於十二種斯拉夫語言的真實文本,採用複雜網路的指標對這些語言進行了分類研究[35]。大家如果有興趣,可以參看我們發表在《生命物理學評論》(Physics of Life Reviews)上的兩篇有關採用複雜網路研究人類語言規律以及如何採用依存距離來發現人類語言線性化模式的文章[36][37],體會跨學科語言學研究的旨趣。

前面提到的兩個案例中,「跨」並不是跨到物理學中——當然從物理學的角度來講,也拓展了複雜網路方法的應用領域,提供了蘊含普遍性的真實網路實例,豐富了複雜網路理論。而對於語言來講,採用複雜網路幫助我們解決了過去不太容易解決的語言學問題。當然,隨著兩個學科彼此借用越來越頻繁、關係越來越密切,極有可能形成一個交叉的學科,甚至可能形成新的研究範式。交融的程度加深,使得這個新學科不同於原來的任一學科,例如可能有一天分不清究竟是物理語言學,還是語言物理學。

那麼大數據是否也有助於跨學科發展?從實際操作層面來看,語言學的跨學科研究需要對所「跨」的領域有一定的了解。如果我們把語言學定義為「研究語言結構模式和演化規律」的學科,這當然是很狹義和傳統的定義,因為語言學中還涵蓋著很多內容,不過歸根結底還是要處理語言數據的。在處理語言數據時,要用統計學、數學和計算機科學的知識,例如藉助生物學用來研究網路的軟體,來研究從語言數據構造出來的網路,也屬於語言學的跨學科研究。此外,在語言作為複雜適應系統的視域下,從真實文本材料中得到的規律,有可能指導當今頗具潛力和發展前景的計算語言學和自然語言處理,那麼我們實際上還是在和語言數據打交道。因此,基於數據的方法顯然也能促進語言學的跨學科研究與發展。

余 論

語言學是一門科學,但不能只是我們自己嘴裡說說而已的科學,而應該得到科學共同體的承認。這些年的努力使我們體會到:語言學研究可以實現科學化,但前提是採用科學的方法。顯然,科學的方法,需要我們付出更多的努力去學習與掌握。從長遠來看,這樣的付出是值得的,不論是對語言學的學科建設還是個人的學術發展都不無裨益,而且非常必要。要有付出、敢於肯啃硬骨頭,才能有所突破。一個誰都可以輕易入門、指點江山的學科,可能很難與科學掛上鉤。復旦大學的葛兆光教授曾寫過一篇文章《人文學科拿什麼來自我拯救》。面對人文學科日漸衰落的境況,他在文中指出:「打鐵還需身板兒硬」。文章最末,他還寫道:「如果大學人文知識就是這些業餘可以模仿習得的東西,那麼何必還要這些擁有博士、教授頭銜的人在這裡坐館?」[38]人文學科都需如此,何況號稱科學的語言學?

參考文獻:

[1]Hirschberg J. 「Every time I fire a linguist, my performance goesup」, and other myths of the statistical natural language processing revolution (Invited speech)[R].15th National Conference on Artificial Intelligence (AAAI-98), Madison, Wisconsin, 1998.

[2]Jelinek, F. Some of My Best Friends Are Linguists. Language Resources and Evaluation, 2005, 39(1), 25-34.

[3]陳工孟,須成忠. 大數據導論:關鍵技術與行業應用最佳實踐[M]. 北京: 清華大學出版社, 2015.

[4]李國傑.對大數據的再認識[J]. 大數據, 2015, (01): 8-16.

[5]Bresnan J, Asudeh A, Toivonen I, et al. Lexical-Functional Syntax[M]. 2nd Edition John Wiley & Sons, 2015.

[6]Bresnan J. Linguistics: The garden and the bush[J].Computational Linguistics, 2017, 42(4): 599-617.

[7]Jelinek F. The dawn of statistical ASR and MT[J].Computational Linguistics, 2009, 35(4): 483-494.

[8]Bod R, Hay J, Jannedy S. Probabilistic Linguistics[M]. Cambridge, Mass: The MIT Press, 2003.

[9]伯納德·科姆里. 語言共性和語言類型[M]. 沈家煊,譯. 北京: 華夏出版社, 1989.

[10]Hauser M, Chomsky N, Fitch T. The Faculty of Language: "What Is It, Who Has It, and How Did It Evolve?"[J]. Science, 2002, 298(5598): 1569-1579.

[11]Sampson G. Depth in English grammar[J]. Journal of Linguistics, 1997, 33(01): 131-151.

[12]Karlsson F: "Syntactic recursion and iteration", Hulst H V D, editor, Recursion and Human Language, New York and Berlin: Mouton de Gruyter, 2010: 43-67.

[13]劉海濤,黃偉. 計量語言學的現狀、理論與方法[J]. 浙江大學學報(人文社會科學版), 2012, (02): 178-192.

[14]Holland J. H. Hidden Order: How Adaptation Builds Complexity[M]. NY: Basic Books, 1995.

[15]米勒,佩奇. 複雜適應系統:社會生活計算模型導論[M]. 隆雲滔,譯. 上海: 上海人民出版社, 2012: 309.

[16]王士元.語言是一個複雜適應系統[J]. 清華大學學報 (哲學社會科學版), 2006, 6(21): 5-13.

[17]Kretzschmar W. Language and Complex Systems[M]. Cambridge: Cambridge University Press, 2015.

[18]Ellis N C, Larsen-Freeman D. Language as a complex adaptive system[M]. New Jersey: Wiley-Blackwell, 2009.

[19]許國志.系統科學[M]. 上海: 上海科技教育出版社, 2000.

[20]Solé R V, Goodwin B. Signs Of Life How Complexity Pervades Biology: How Complexity Pervades Biology[M]. New York: Basic books, 2008.

[21]埃德加?莫蘭. 複雜性思想導論[M]. 陳一壯,譯. 上海: 華東師範大學出版社, 2008.

[22]Eddington D. Linguistics and the scientific method[J]. Southwest Journal of Linguistics, 2008, 27(2): 1-17.

[23]艾登,米歇爾. 可視化未來:數據透視下的人文大趨勢[M]. 王彤彤, 沈華偉, 程學旗,譯. 杭州: 浙江人民出版社, 2015.

[24]Hey T, Tansley S, Tolle K M. The Fourth Paradigm: Data-intensive Scientific Discovery[M]. 1.US: Microsoft research Redmond, WA, 2009.

[25]舍恩伯格,庫克耶. 大數據時代:生活、工作與思維的大變革[M]. 盛楊燕, 周濤,譯. 杭州: 浙江人民出版社, 2013.

[26]劉海濤.依存語法和機器翻譯[J]. 語言文字應用, 1997, 3: 87-93.

[27]劉海濤.依存語法的理論與實踐[M]. 北京: 科學出版社, 2009.

[28]Liu H. Dependency distance as a metric of language comprehension difficulty[J]. Journal of Cognitive Science, 2008, 9(2): 159-191.

[29]Liu H. Dependency direction as a means of word-order typology: A method based on dependency treebanks[J]. Lingua, 2010, 120(6): 1567-1578.

[30]Lu Q, Xu C, Liu H. Can chunking reduce syntactic complexity of natural languages?[J]. Complexity, 2016.

[31]Eberhard-Karls-Universit?t Tübingen. Linguistic Treebanks and Data-Intensive Parsing (ESSLLI 2005): Treebanks:An Overview[EB/OL]. http://www.sfs.uni-tuebingen.de/~kuebler/esslli05/treebank-intro.pdf.

[32]Percy W, Samway P. Signposts in a Strange Land[M]. New York: Farrar, Straus, and Giroux, 1991: xv, 428 p.

[33]徐烈炯.生成語法理論[M]. 上海: 上海外語教育出版社, 1988.

[34]Corominas-Murtra B, Valverde S, Sole R V. The ontogeny of scale-free syntax networks: phase transitions in early language acquisition[J]. Advances in Complex Systems, 2009, 12(03): 371-392.

[35]劉海濤,叢進. 基於平行詞同現網路的語言聚類[J]. 科學通報, 2013, 58(5): 432-437.

[36]Liu H, Xu C, Liang J. Dependency distance: A new perspective on syntactic patterns in natural languages[J]. Physics of Life Reviews, 2017.Retrieved from http://doi.org/10.1016/j.plrev.2017.03.002.

[37]Cong J, Liu H. Approaching human language with complex networks[J]. Physics of life reviews, 2014, 11(4): 598-618.

[38]葛兆光.人文學科拿什麼來自我拯救[J]. 上海採風, 2012, (9): 96-96.

收稿日期:2017-04-10

基金項目:本文系國家社科基金重大項目「現代漢語計量語言學研究」(11&ZD188)、中央高校基本科研業務費專項資金資助(浙江大學大數據+語言規律與認知創新團隊)的階段性成果。

作者簡介:劉海濤,浙江大學求是特聘教授,廣東外語外貿大學「雲山領軍學者」,國際世界語研究院院士;林燕妮,浙江大學外語學院博士研究生。

劉海濤、林燕妮.大數據時代語言研究的方法與趨向,《新疆師範大學學報》(哲學社會科學版),2018, (1): 72-83.《高等學校文科學術文摘》轉載,2018, 2: 99-101.


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 計量語言學 的精彩文章:

TAG:計量語言學 |