當前位置:
首頁 > 文史 > 漢語為何成為世界上信息熵最大的語言,英語只有漢語的十分之一

漢語為何成為世界上信息熵最大的語言,英語只有漢語的十分之一

漢語是世界上信息熵最大的主流語言。在1948年發表了一篇論文,震撼了學術界,而這篇論文也開創了一個信息度量的時代,既然事件發生的信息可以度量,語言作為一種信息傳遞的手段,那麼語言中的信息是多少?世界上有最優秀的語言嗎?

在此之前我們先來談談什麼叫做信息熵。信息熵是指所有可能發生事件中所包含信息的期望平均值。這麼說大家聽不懂,給大家舉一個簡單一點的例子。太陽從東方升起這句話是廢話,因為大家都知道太陽不可能從西方升起,所以這句話所包含的信息熵就是0。如果你在做一道判斷題,但是你不知道答案。所以你只能靠蒙,這個時候就有了信息熵,而如果把這個判斷題改為選擇題,那麼這個題的信息熵就會變大。除此之外還有概率的問題。假如一個選擇題你知道a和b可能是正確的,c和d是完全不正確的,那麼你就會選a或者是b。相比較其他選擇題來講,信息熵就會變少。

這就是信息熵。那麼語言的信息熵究竟是有多少呢?這個的計算方式很直觀,只需要把公式帶進去就行了,但是困擾學者很多年的問題是,大家都無法準確的知道一個語言中特定位置的出現概率,有時候甚至難以統計這個語言到底有多少種字元。

所以信息科學家只能用各種手段來估計各個語言的信息熵,比如說有某位學者認為英語的信息熵應該在0.6~1.3比特每位元組。而其他人有人認為英語的信息熵應該在1.25比特每位元組。英語還算是比較好統計的,但是放到漢語的統計難度就非常大了。不過還好的是當年信息熵剛剛發展出來,各個學者科學家都紛紛對此非常有興趣。即便是中文有很大的特殊性,依然有很多學者排除萬難,採用了統計的計算方式,計量了漢語的信息熵。

而在計量過程中他們發現中文不論是文字部首還是音節,他的信息熵都遠遠超過了英語。

但是這樣計算出來的結果,沒辦法和其他語言直接對比。因為他們是用的不同的資料庫。而且人為翻譯也可能導致信息誤差,所以在2002年哈佛大學的某位科學家做了重新的對比實驗。他們選用了一種很有意思的辦法,那就是在計算機上把文本壓縮到信息壓縮的下界。

也就是說不論是英語還是漢語或者西班牙語都不進行優化。之後再進行壓縮。研究者們對比了英語,西班牙語,法語,中文漢語,阿拉伯語,日文,俄語等等。像這樣壓縮情況下,如果沒有缺失文件,都是那麼所有的語言都會和英語壓縮後的文本一樣大。所以我們需要對比的就是他們的壓縮時間,壓縮時間越長的,他們的信息熵就越大。

而中文的壓縮效率遠遠低於其他文字。除此之外他們又做了其他的對比實驗,比如說換壓縮演算法。再比如說把譯文擴充。因為聖經中都是常見辭彙,但是其他語言中有很多特殊的辭彙。但是在壓縮過後,中文依然是壓縮效率最低的一個語言。可以說中文是信息熵最大的一種語言了。

雖然說這個實驗也不完美,有很多漏洞,但是多個實驗結果看上去都是很相似的。而且即便是有很大的漏洞,這樣的實驗依然存在著很強的指導意義。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 歷史翻斗雲 的精彩文章:

康有為人品這麼渣的一個人,為何歷史書對他還有如此正面的評價

TAG:歷史翻斗雲 |