當前位置:
首頁 > 最新 > 世界上最怪異的語言是什麼?

世界上最怪異的語言是什麼?

作者:Robert Munro

編譯:江烈農

本文的作者是一家語言數據公司的CEO,這家公司為世界各地的企業提供結構化的語言解決方案——簡單說,就是處理郵件、簡訊和社交媒體上的自然語言資料。自然語言(Natural Language)是我們人類交流時所用的語言,與人造語言(如編程語言)相對;自然語言處理(Natural Language Processing,NPL)就是用計算機來處理人類的語言。評估語言的「怪異度」就是一種對自然語言的處理,這個話題本身固然有趣,而本文的價值還在於作者採取了一種非傳統的處理方式:不以英語為衡量基準,而使用一個全球性的價值觀。

我們主要是搞自然語言處理,涉及相關語言繁多。過去6個月,我們研究的語言有(深呼吸):英語、葡萄牙語(巴西葡萄牙語及葡萄牙本地語)、西班牙語、義大利語、法語、俄語、德語、土耳其語、阿拉伯語、日語、希臘語、漢語普通話、波斯語、波蘭語、荷蘭語、瑞典語、塞爾維亞語、羅馬尼亞語、韓語、匈牙利語、保加利亞語、印地語、克羅埃西亞語、捷克語、烏克蘭語、芬蘭語、希伯來語、烏爾都語、加泰羅尼亞語、斯洛伐克語、印尼語、馬來語、越南語、孟加拉語、泰語,以及一點拉脫維亞語、愛沙尼亞語、立陶宛語、庫爾德語、約魯巴語、阿姆哈拉語、祖魯語、豪薩語、哈薩克語、信德語、旁遮普語、他加祿語、宿霧語、丹麥語和納瓦霍語。

自然語言處理(Natural Language Processing,下稱 NLP)就是要找到語言的模式。例如:錄入大量非結構化的文本,自動從中抽離結構。NLP 有一個公開的秘密:它極以英語為中心。英語無疑是語言學家研究最多的一門語言,於計算機科學項目而言,也是具有最多可用資源的一門語言(就計算機科學而言,數據總是越多越好)。因此,測試一個 NLP 系統的最佳方式之一,就是換用不是英語的語言來測試。一個系統處理多樣化數據的能力越強,那麼其應付未預見數據的能力,也就更令人有信心。

NLP 有一個公開的秘密:它以英語為中心 | 圖片來源:pexels

為此,我們也許可以選擇去根據英語的特性來定義「怪異度」。但是,這樣的定義可是相當令人惱火。所以咱們來試試換一種方法吧。

縱觀全球,糾出「語言異類」

語言結構世界地圖(World Atlas of Language Structures,下稱 WALS)根據一大堆各種語言特徵,評估 2676 種不同的語言。這些語言特徵包括詞序、聲音種類、否定方式,以及許多其他方面——共計 192 種不同的語言特徵。

因此,與其採用一個以英語為中心的世界觀,WALS 毋寧允許我們換用一個世界性的世界觀。也就是說,我們評估每一門語言,根據的都是其每種語言特徵的不尋常度。例如,英語的詞序是「主語—動詞—賓語」, WALS 對 1377 種語言的詞序進行編碼,其中 35.5% 具有「主動賓」詞序。同時,只有 8.7% 的語言以動詞作為起始,比如威爾士語、夏威夷語和馬揚語(Majang)。因此,從跨語言學角度講,以動詞作為起始,就是不尋常。另外順帶一提,實際上全世界語言有 41.0% 是「主賓動」順序。(題外話:從事了一些夏威夷語和馬揚語的相關工作後,動詞對我而言,簡直就變成如結婚般重大的承諾:每每開口,我卻總是還沒有做好準備。)

WALS 的數據相當稀疏,所以我們把研究限定於 165 種語言特徵,這些特徵至少要包含 100 種不同語言的數據。(現階段,就這 165 種語言特徵而言,數據不足其中 10 種的語言,我們也剔除掉了。因此共計還剩 1693 種語言。)

現在,有個問題就是,如果我們的篩選到此為止,那麼數據共線性太高。之所以如此,部分是因 WALS 中列舉的語言特徵本質而決定——有整體考量「主語/動詞/賓語」順序的特徵項,另又有分別考量「賓語/動詞」和「主語/動詞」的項。理想情況下,我們希望基於不相關的特徵評斷怪異度。我們可以集中關注互相之間沒有很強相關度的語言特徵(在兩種互相關聯的特徵中,我們選擇有更多語言編碼的特徵)。最終我們篩得總計 21 種語言特徵。

最終篩得總計 21 種語言特徵 | 圖片來源:pexels

至於某種語言的每項數據值,我們考量其他所有具備該項編碼的語言,計算該項值的相對頻度。因此,如果我們把「主語—賓語—動詞」詞序也算進來的話,那麼英語得到的怪異度值就會是 0.355(實際上,我們根據每項語言特徵的整體熵值對所有數據值統一化處理,所以這個值本身並不正好就是 0.355,但你懂這意思就行了)。因此,得到的「怪異度指數」(Weirdness Index),就是一項交叉考量 21 種獨特結構特徵的平均值。但是,因為不同的特徵採集數值的數量不同,我們為了減少統計偏斜,實際上取了調和平均值(又因為我們希望「數字越大=越怪異」,所以終值是用 1 減去這個平均值)。本篇博文我彙報所涉及的語言,就這 21 項語言特徵而言,至少三分之二(即 14 項)具有數據值(即 239 種語言)。

答案揭曉:全世界最怪異的語言是—

與全世界大多數語言最不同的語言,是一種以動詞起句的聲調語言,在墨西哥的瓦哈卡(Oaxaca)有 6000 人使用,名叫「恰卡通戈米斯特克語」(Chalcatongo Mixtec),又名「大聖米格爾米斯特克語」(San Miguel el Grande Mixtec)。第二名在西伯利亞有 2.2 萬人使用:涅涅茨語(Nenets)——英文里「派克大衣」或稱毛皮風雪大衣(parka)一詞就來源於這種語言。第三名是喬克托語(Choctaw),約有 1 萬人使用,大多在美國俄克拉何馬州。

但是,難就難在這兒了——有些實際上最怪異的語言,是你聽說過的:德語、荷蘭語、挪威語、捷克語、西班牙語,以及漢語普通話。而且,實際上英語在「語言怪異度指數」(Language Weirdness Index)表中也位列第 33 名。

世界上最怪異的 25 種語言:北美洲的,恰卡通戈米斯特克語、喬克托語、大梅薩迪埃格諾語(Mesa Grande Diegue?o)、庫特奈語(Kutenai)、索克語(Zoque);南美洲的,帕烏瑪利語(Paumarí)、特魯邁語(Trumai);澳洲暨大洋洲的,皮詹加加拉語(Pitjantjatjara)、拉伍卡萊維語(Lavukaleve);非洲的,哈勒爾奧羅莫語(Harar Oromo)、伊拉庫語(Iraqw)、剛果語、穆穆耶語(Mumuye)、祖候語(Ju|"hoan)、科伊科伊語(Khoekhoe);亞洲的,涅涅茨語、東亞美尼亞語、阿布哈茲語、拉達克語、普通話;以及歐洲的:德語、荷蘭語、挪威語、捷克語和西班牙語 | 圖片來源:language-exchanges.org

順帶一提,皮詹加加拉語(Pitjantjatjara),這名字還能更牛嗎?(另外,你能猜出這個拉丁化拼寫中哪個音節可以不發音嗎?*)

以兩項特徵為例:問句與代詞

「這很怪。這很怪嗎?」(This is odd. Is this odd?)區分各種語言的特徵之一,是「是非問句」的提問方式。絕大多數語言都有特別的疑問語助詞,添加在句中某處(例如日語問句句末的「か」[ka])。在 WALS 中,有 954 種語言具有這項值的編碼,其中 584 種有疑問語助詞。(譯註:又如本段段首的普通話提問方式,添加語助詞「嗎」實現簡單疑問句提問。)但像英語那樣的提問方式,即調換詞序,其比例在所有語言中僅為 1.4%。也就是說,一共只有 13 種語言採用這樣的方式,而它們大部分都是歐洲語言:德語、捷克語、荷蘭語、瑞典語、挪威語、弗里西亞語、英語、丹麥語和西班牙語。

但還有一種語言,其是非問句的提問方式更加不走尋常路,那就是恰卡通戈米斯特克語:提問時,什麼都不變。我們調查所涉及語言中,唯有這種語言提問時沒有疑問語助詞,沒有詞序調換,沒有語調變換……這種語言就「是否」提問時,以及作簡單陳述時,講話真的是毫無任何區別。我花了好些時間,想像用這種語言做電視遊戲節目會是什麼樣。

語言還需應付的另一個問題,是如何處理簡單主語代詞,比如「我」(I)、「他們/她們/它們」(they)、「它」(it)。這些詞稱為「代詞主語」(而像「有關部門負責人含糊其辭」這樣的說法則是使用了名詞主語)。最通常的做法,是將代詞信息附加到動詞上——所調查的 711 中語言中有 437 中語言採用這樣的做法,如西班牙語、義大利語和葡萄牙語。但是,荷蘭語、德語和挪威語,與英語一樣,寧可使用特別的主語代詞,而這些代詞通常——或必須——在句中出現。不過,在 WALS 有編碼的 711 種語言里,也只有 82 種語言採用這樣的處理方法。庫特奈語(加拿大不列顛哥倫比亞省有 100 人使用)和穆穆耶語(奈及利亞有 40 萬使用者)的處理方法更不尋常:它們有類似主語代詞的東西,但其在句法中的位置,則與完整名詞性短語的位置不同。而比這還更不尋常的,又是恰卡通戈米斯特克語:這種語言混合多種不同策略,所以既有附著在動詞上的主語標記,又有代詞,而且這些代詞在句中出現的位置,還與完整名詞短語不同。

世界上最「不怪異」的語言

如果我現在請你考慮一下以下這幾種語言,你覺得它們有多怪呢?立陶宛語、印尼語、土耳其語、巴斯克語,以及粵語。嚇一跳吧!它們的怪異指數排名相當低呢。對於語言學家和語言學習者而言,這幾種語言可能並不顯得典型;但就我們研究的 21 種語言特徵而言,它們相當隨大溜。請注意,在怪異度各級分布中,我們有一些孤立語言(比如巴斯克語)。巴斯克語很「典型」;但是另一種孤立語言,庫特奈語,則相當怪異。更令人驚訝的是,漢語普通話名列 25 大最怪異語言,但粵語卻棲身倒數十大。這與二者發音系統不同有關:與粵語不同的是,普通話有小舌延續音(uvular continuants),而且在軟顎鼻音方面有一些局限(普通話同英語類似,可以發出英語「song」詞尾的那個音,比如漢語「頌」[sòng];但無法將這個尾音置於單詞的詞首發音——世界性地來看,這個特定限制實屬罕見。)

漢語普通話名列 25 大最怪異語言,但粵語卻棲身倒數十大 | 圖片來源:pexels

而在怪異指數列表最末尾的幾種語言里,有兩種你聽過,有 3 種你可能沒聽過:匈牙利語,通常享有「語言學異類」的美譽,但在我們考量的這些維度里,卻是徹頭徹尾的典型語言。(我去年夏天在布達佩斯住過,我發誓匈牙利語絕對有其怪異之處,只是隱藏在其他地方了而已。)查莫羅語(關島有 9.5 萬使用者)、阿伊努語(僅在日本有少量使用者的瀕危語言),以及布雷佩查語(Purépecha,5.5 萬使用者,多在墨西哥),這三種語言都很正常。但是,所有語言中最最正常、超級典型、最不詭異的一種語言,怪異指數僅 0.087 的語言,是印地語——只有一項怪異特徵。

這一點,一部分說明,有些你想當然以為正常的語言(如英語、西班牙語或德語),其實一貫與世界上其他語言格格不入。這令我想起心理學的一個基本問題:如果我們調查研究主要基於大學生——即如約瑟夫?亨利希(Joseph Henrich)及其同事所認為的,西方的、受過教育的、工業化的、富裕的、民主的大學生——那麼這樣的研究,其概括程度到底能有多高?換句話說,有時輸入的信息本身就「不正常」,或曰怪異,那你就要問問自己,這是否會導致研究的變化。

你講英語,你很怪

儘管這裡採用的方法沒有以英語界定,但仍然夾帶了一些文化特異性的私貨。即是說,開發這個系統以及注釋這些語言特徵的語言學家,大部分都是歐洲語言使用者。如果換為巴布亞紐幾內亞、衣索比亞或亞馬遜的某個人來做研究,最終確定的語言特徵又是哪些呢?而且,當然,WALS 並不具備全球約 4000 種語言的所有數據;其所擁有數據資料的語言,也並不真正足夠隨機。

話雖如此,英語排名仍然很高,是挺不尋常的一種語言(排名 33 位,指數值 0.756)。如果你能帶著一個英語思維的大腦,去讀這篇文章英語原文,那你可真是怪怪噠。(譯註:你操漢語,能讀這篇譯文,那你的腦子更怪。)

附錄:十大與倒數十大怪異語言列表

譯註:皮詹加加拉語(Pitjantjatjara)在當地原住民語言中或可簡稱為「皮詹加拉語」(Pitjantjara [?b???an?a?a])

編譯自:THE WEIRDEST LANGUAGES

題圖來源:katefletcher.com

歡迎個人轉發到朋友圈

喜歡記得點「在看」

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 我是科學家iScientist 的精彩文章:

我想讓幾何機器人摸爬滾打,成為美麗的強者造福人類
萬物都有形狀,你知道「意識」長什麼樣嗎?

TAG:我是科學家iScientist |