當前位置:
首頁 > 知識 > 語言的邊界在哪裡?

語言的邊界在哪裡?

原文:《Why languages and dialects really are different animals》
作者:S?ren Wichmann,08 January, 2019 / Edited by Sam Dresser / 有刪改


這世上有許多長篇大論的回答,都起自一個簡單的問題。例如:是什麼區分了「language/語言」和「dialect/方言」?要是拿著這問題去找一個語言學家,那在他開口之前,你最好先弄張沙發——因為這問題雖然不算問錯,但跟「先有雞還是先有蛋?」一樣,它簡單字面的後頭有各種關節要先鎖定,才好往下解。


首先,什麼是「區別」?自1850至1992年間,塞爾維亞-克羅埃西亞語下屬主要有三大口音,即塞爾維亞、克羅埃西亞和波斯尼亞話。隨著南斯拉夫解體成若干個獨立國家,這些口音各自又成了某國的標準官話,從此被區別開來。這是政治界定,雖然可行——因為無論如何都是我們人在定奪而已——但還嫌粗糙了些,放眼開去,有很多語言難以靠國界來區分,如西班牙語,沒有人能說南美現在用的西班牙語跟本土的是兩個語種(雖它們各自有名稱),反倒是西班牙國內有些方言還比較特立獨行,跟官方語疏遠得多。

又或者,設定一個互相理解度的評分標準,雙方理解度低於某個門檻便屬於方言,更低的則屬於另一語種?可惜的是這分法也太粗,其中一個問題在於理解度不對稱。一個丹麥人基本能聽懂瑞典人說的話,但瑞典人聽丹麥話則可能一頭霧水。譯:又如無論你是福南、湖建還是上海寧,都能聽懂東北銀說的話,反過來就麻麻地。雙向理解,或說「相互聽懂」,往往跟歷史、經貿、文化的傳播或接觸更有關聯,而不是全賴語言根底相通,不是個趁手的標準。


所以,為了這事我們該琢磨出一種更精細的工具來量度。想像我們建立一個體系,能讓兩種語言比較後得出一個總差異值「D」。在這個體系里,我們只需要為D確立一個臨界值,就可以用這個值來為廣泛的語言分門別類。


當然這體系要實際建起來是很難的,換幾十年前可能就只是種異想天開。簡單講,這裡面有兩大難點:一,是怎樣量度兩種話語之間的差異值,D。


語言的邊界在哪裡?

2008年,幾國語言學家聚到一起運籌一個「自動化相似度判定計劃」,簡稱ASJP,我是這團體的日常主持和發起人之一。我們暫定各地語言的實際狀況與ISO 639-3編碼所定義的相符,以其為基礎構建出了一個體系,裡面包含7655組能相互對應的單詞表,而這些詞表來自地球上三分之二的語種。


這體系磨出來後,所有詞表(不是語言、單詞)都可以轉碼成包含四十個固定符號的同一制式wiki,便於比較。比較所用方法是Levenshtein distance/字元串相似度演算法的變種。它的邏輯是核算通過替換、插入和刪除,要經多少步才能把一行字元完全換成別一行,合得的最小步數就是兩行字元串的「距離」。把距離換算後就能得出刻度落在在0至1之間的D值。


(註:這裡「換算」的原文是The Levenshtein distance can usefully be divided by the length of the longest of the two strings, because this puts all the distances on a scale from 0 to 1. This has become known as the normalised Levenshtein distance, or LDN /可以用LD距離,除以兩組詞錶轉化的字元串中最長字元的符號個數,從而得到一個0到1之間的值,籍此,同串內其它字元的距離也全可以用小數表示?黑人問號爆炸gif——這兩段無論ISO 639-3和步數演算法應用我都吃不準有沒有誤解作者的意思所以沒有攤開譯,只攏了個大意。水平夠不上,覺得有趣就屁顛顛的翻,見笑。估計在專業人士看來原文已經介紹得夠清楚?)


第二個難關是確定哪個值才可以作準。ASJP的詞庫包含有相當充足的「親戚」語種,很方便對比異同。當比較所得逐漸密集後,我們也漸漸發現各地詞語之間的差異是兩頭趨向的(像葫蘆),有些得數很小,有些則較大,兩群之間隔著一個空谷,位於0.48附近。雖然這樣說會喪失一點精確性,但語言不同,它們的基礎辭彙也就相應有差異。基礎辭彙要是能重合到一定程度,兩者就可以算作不同口音;基礎辭彙要是疏離到一定程度,就是兩種語言。換句話說,語言之間的界線,最終也投影在它們的辭彙上,待人釐定。


我們觀察到的分群現象,也許是移風易俗的遺痕。古人遷離舊地,言談也跟著與母語代代疏遠,對應著新的風土和需要,出現新的特徵。如果兩地始終還有往來,變化就會被牽制,讓這地方人們的言談不會離母語太遠,乃成方言。但如果兩地沒能維持聯繫,疏遠的勢頭沒有受牽制,就會慢慢加速直至完全剝離,乃成新語種。

這個有客觀根據的體系,能梳理全世界的語言。前文提及波斯尼亞和克羅埃西亞兩國的國語,D值遠遠低於0.48,雖稱呼不同實質就是同一語種,不管那片土地目前都有什麼國家;有些則只是稍低於0.48,如印地語和烏爾都語(均是印度大語種),算是遠房親戚;阿拉伯語和漢語的D值則遠遠高於0.48;此外還有比較棘手的組合,像丹麥語和瑞典語,是0.4921。


最後,ASJP還依據現有的數據,創製了一種年代演算法,可以算出一種子語言在脫離母語後平均要多少年才能改頭換面到稱得上新語種。帶著一點誤差,答案是1059年。要旁證的話,也可以挑選一些古語,追溯它開枝散葉,在周邊各地出現方言,方言又如何自立、剝離、向下分支的歷程,這追溯應用的手段跟ASJP所創的年代演算法不同,但其結果與演算法所得結論都是相近的——大概千年。


譯:有互聯網之後,語言繁衍的進程和速度應該全都不同了。結尾這裡的年代演算法不一定好使,這點原文評論里也有人舉例談了觀點。翻這篇文章沒別的,就是向各位介紹下語言學有時在搞什麼。


本文譯自 aeon,由譯者 梁兵 基於創作共用協議(BY-NC)發布。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 煎蛋 的精彩文章:

神奇香水:讓你在工作時提高生產力
倫敦打算全城封殺垃圾食品廣告

TAG:煎蛋 |