計算機系統是如何顯示一個字元的？

最新 04-03

我們知道，計算機是美國人發明的，人家的英語體系總從來就只有26個英文字母和一些數字、特殊字元等，為了儲存文字信息，於是使用了最早的ascii碼進行字元編碼。而後來由於計算機的普及，多國語言文字變得重要起來，於是多語言的特性成為了計算機的必備，各國進行各國的國家標準編碼，中國的便是GB2312（1980年），而後1995年又頒布了《漢字編碼擴展規範》（GBK），GBK與GB2312相兼容，但又增加了一些兼容漢字，方便了和Big5碼等進行轉換。這套GBK編碼，逐漸成為了中國計算機的主流編碼。

Unicode字符集和UTF-8編碼

隨著計算機的發展，往往一款軟體不但要兼容一個國家的語言，還要兼容許多國家的語言，尤其是亞洲國家中日韓三國，光中文常用字元就有7000，所以要解決這麼多文字的編碼問題，就需要用更多規模的表示，Unicode是一個巨大的字符集，囊括了世界各地的語言，這樣編碼就更為統一和方便了。但Unicode並沒有規定這些字元具體應該怎麼樣在計算機中存儲，雖然字符集是全的，但計算機中要兼顧效率和方便等問題，UCS-2是其中的一種常用方案，採用兩個位元組來編碼一個字元，這和ascii碼不兼容，而且還有一個大問題，UCS-2並不能表示全部的漢字，漢字的簡繁體加起來總共有六七萬，UCS-2隻有65536個編碼，根本存不下，所以只收入了大部分常用字。也有表示所有漢字的方案UCS-4，不過4個位元組用來存儲漢字，效率就較為低下。

UTF是「UCS Transformation Format」的縮寫，是Unicode字符集的一類高效實現方式。

UTF-8是我個人比較喜歡的一種編碼方式，它是一種針對Unicode的可變長度字元編碼，又稱為萬國碼。它使用1-6個位元組進行編碼，最前面128個編碼內容和ascii碼兼容，所以我們用UTF-8編寫純英文文本是和ascii碼幾乎一樣的。（注意我說的是幾乎）。

如果UNICODE字元由2個位元組表示，則編碼成UTF-8很可能需要3個位元組。而如果UNICODE字元由4個位元組表示，則編碼成UTF-8可能需要6個位元組。用4個或6個位元組去編碼一個UNICODE字元可能太多了，但這樣的UNICODE字元往往是生僻字，極為少見。

這種編碼的思想和哈夫曼編碼是類似的，將高頻字元縮短，低頻字元變長，使得整體的編碼效率更優。

我以前有段時間，就經常將Unicode和UTF-8搞混了，Unicode是字符集，網上不嚴格的情況也指Unicode字符集的常用編碼UCS-2，也就是用兩個位元組編碼的Unicode碼。

MBCS(Multi-Byte Character Set)和內碼錶（codepage）

再介紹兩個字符集中較為深入的概念，MBCS和CodePage。

MBCS（Multi-Byte Chactacter System,即多位元組字元系統），是所有多位元組編碼方案的總稱，MBCS 編程主要用於為國際市場編寫的應用程序。由於往往是針對一國市場只有一種文字，那麼為了節約資源，往往將這些文字用雙位元組或盡量少的位元組的方式進行保存。

因為這些雙位元組文字和ANSI是混合在一起的，為了加以區別，Windows將這些字元的最高位置為1（即這些雙位元組文字的每個位元組都>=127），所以這種表示法可以表示 127x127 約一萬多種非ANSI文字，其本上可以表示任何一種語言的常用文字了。於是，Windows為每一個區域版本，都制定了分別獨立的文字編碼，這就是MBCS（多位元組碼）。

而這些分頁後的編碼方式，都被保存成了不同的CodePage（內碼錶，這裡內碼的意思是機器內部編碼，相對於外碼，外部輸入文字用的編碼，例如拼音、五筆、鄭碼等），例如中文就是大家熟知的CP936。要注意，這種編碼方式是早期windows獨有的，由於使用較早，應用也十分廣泛，而CP936和GB2312-80在編碼上則是幾乎一樣的（此處見Wiki百科——漢字內碼擴展規範），後來擴展GBK後，CP936也進行了同樣的擴展。

此技術的使用最早追溯到MS-DOS3.3（1987年4月發行）向IBMPC用戶引進了內碼錶的概念，Windows也使用此概念。