作者: BinaryStarXin
軟件開發(fā)人員經(jīng)常遇到“中文亂碼”、“軟件不能顯示日文”等類似問題。真相只有一個——對字符集編碼沒有一個系統(tǒng)的認(rèn)知。
常見字符集編碼有GB2312、GBK、BIG5、UTF-8、UTF-16,甚至有些從事MFC開發(fā)的人可能還會說字符集有ANSI和UNICODE。真的是這樣嗎?直接上干貨。
字符集分類
1. ANSI
American National Standards Institute 美國國家標(biāo)準(zhǔn)學(xué)會,由這個標(biāo)準(zhǔn)學(xué)會制訂的一種編碼規(guī)則。
采用多字節(jié)系統(tǒng) (MBCS) 的變長編碼,每個字符可以是單個字節(jié)、雙字節(jié),也可以是多字節(jié)的;
兼容單字節(jié)字符集 (SBCS) 和雙字節(jié)字符集 (DBCS);
兼容 EUC/EUC-CN 雙字節(jié)編碼。由于兼容了這個編碼,那么 ANSI 的雙字節(jié)編碼也是大端存儲 (Big Endian) 的了;
不同的國家和地區(qū)可以使用不同的編碼規(guī)則,這些編碼對應(yīng)到這些國家和地區(qū)的代碼頁 (Code Page) 上。
1.1. ASCII編碼
ASCII編碼即美國信息交換標(biāo)準(zhǔn)代碼(American Standard Code for Information Interchange)是一套共有128個字符的編碼,它基于阿拉丁字母,主要作用是用來表示英語和西歐語言字符。ASCII規(guī)范編碼第一次公布于1967年,ascii碼在1986年完成最后一次更新。ASCII碼對照表等同于國際標(biāo)準(zhǔn) ISO/IEC 646,ASCII碼對照表是世界最通用的信息交換標(biāo)準(zhǔn)。
ASCII編碼
1.2. GB2312編碼
GB2312簡體中文編碼,一個漢字占用2個字節(jié),在大陸是主要的編碼方式,兼容ASCII編碼。
為了支持繁體字,于是推出了GBK編碼,GBK是國標(biāo)擴(kuò)展(Guo Biao Kuozhan)編碼的縮寫,兼容GB2312。
為了支持少數(shù)名民族的文字,于是推出了GB1803,解決了中文、日文、朝鮮語等的編碼,兼容GBK。
2. UNICODE編碼
Unicode又稱為統(tǒng)一碼、萬國碼、單一碼,是國際組織制定的旨在容納全球所有字符的編碼方案,包括字符集、編碼方案等,它為每種語言中的每個字符設(shè)定了統(tǒng)一且唯一的二進(jìn)制編碼,以滿足跨語言、跨平臺的要求。
Unicode字符集被劃分為 17 個平面(即,17個區(qū),編號為 0-16 ),且具有以下特點(diǎn):
每個平面有216 = 65536個代碼點(diǎn),因此,整個Unicode字符集共有17 × 65536 = 111 4112 個碼點(diǎn)。
整個Unicode字符集的碼點(diǎn)空間為U+000000 ~ U+10FFFF
每個平面的碼點(diǎn)范圍可表示為U+xx0000 ~ U+xxFFFF,其中xx表示16進(jìn)制的0x00到0x10,比如,平面0的碼點(diǎn)范圍為U+000000 ~ U+00FFFF,平面2的碼點(diǎn)范圍為U+020000 ~ U+02FFFF,平面15的碼點(diǎn)范圍為U+0F0000 ~ U+0FFFFF
再次注意:并不是每個碼點(diǎn)就一定對應(yīng)有一個字符,因?yàn)?,目前Unicode字符集中有很多碼點(diǎn)都還未被使用。
Unicode 17 層平面
2.1. UTF-16編碼
UTF-16編碼源于UCS-2,是Unicode最早的編碼方式。
UCS-2編碼僅覆蓋了基本平面(即BMP,第0平面)中的碼點(diǎn),使用固定的兩字節(jié)將字符編號(類似于Unicode中的碼點(diǎn)值)直接映射為字符編碼,中間未經(jīng)過任何的編碼算法轉(zhuǎn)換。
很明顯,16位的二進(jìn)制位(范圍為0x0000 ~ 0xFFFF)無法表示Unicdoe引入的增補(bǔ)平面中的碼點(diǎn)(平面1 ~ 16,碼點(diǎn)范圍為0x10000~0x10FFFF),為此,Unicode在UTF-16編碼中使用“代理(代替)機(jī)制”來解決這個問題,代理機(jī)制使用4個字節(jié)來表示增補(bǔ)平面中的碼點(diǎn),從而使UTF-16成為一種變長編碼方式。
因此,若軟件僅支持UCS-2編碼,則意味著僅支持UCS字符集或Unicode字符集基本平面中的字符,而不支持增補(bǔ)平面中的字符。
UTF-16編碼后的碼元序列在映射為物理意義上的字節(jié)序列時,又分為UTF-16BE (大端序),UTF-16LE (小端序)兩種情況,大端序和小端序又分為帶有字節(jié)序標(biāo)記(with BOM)和不帶字節(jié)序標(biāo)記(without BOM)兩種情形。比如,“ABC”這三個字符的UTF-16編碼(碼元序列)為:00 41 00 42 00 43;其對應(yīng)的各種字節(jié)序列如下表所示:
”abc”的各種UTF-16編碼
2.2. UTF-32編碼
UTF-32是一種將Unicode字符編碼的協(xié)定,對每一個Unicode碼位使用恰好32位元。其它的Unicode transformation formats則使用不定長度編碼。因?yàn)閁TF-32對每個字符都使用4字節(jié),就空間而言,是非常沒有效率的。特別地,非基本多文種平面的字符在大部分文件中通常很罕見,以致于它們通常被認(rèn)為不存在占用空間大小的討論,使得UTF-32通常會是其它編碼的二到四倍。雖然每一個碼位使用固定長定的字節(jié)看似方便,它并不如其它Unicode編碼使用得廣泛。
與UTF-16一樣,也存在大端和小端存儲。
2.3. UTF-8編碼
UTF-8編碼是Unicode編碼的一種編碼形式。由1-6個字節(jié)表示一個字符,兼容ASCII編碼。
UTF-8編碼
3. MFC中的字符集
MFC字符集選擇多字節(jié)編碼時,對應(yīng)的編碼是GBK編碼
MFC字符集選擇Unicode編碼時,對應(yīng)的編碼是UTF-16編碼。
4. QT中的字符集
QString是按UTF-16存儲的。
1、當(dāng)選擇UTF-8編碼時,QString構(gòu)造函數(shù)的參數(shù)對應(yīng)UTF-8編碼(默認(rèn)設(shè)置)。
QTextCodec*codec=QTextCodec::codecForName("UTF-8"); QTextCodec::setCodecForLocale(codec); QStringstr=“右邊是UFT-8編碼的字符串”;
2、當(dāng)選擇GBK編碼時,QString構(gòu)造函數(shù)的參數(shù)對應(yīng)GBK編碼。
QTextCodec*codec=QTextCodec::codecForName("UTF-8"); QTextCodec::setCodecForLocale(codec); QStringstr=“右邊是GBK編碼的字符串”;
3、QString也可以指定編碼賦值。
QStringstr1=QString::fromLocal8Bit(“GBK編碼字符串”); QStringstr2=QString::fromUtf8(“UTF-8編碼字符串”);
審核編輯:湯梓紅
-
編碼
+關(guān)注
關(guān)注
6文章
932瀏覽量
54731 -
ASCII
+關(guān)注
關(guān)注
5文章
172瀏覽量
35019
原文標(biāo)題:干貨:一文帶你搞懂字符集編碼
文章出處:【微信號:良許Linux,微信公眾號:良許Linux】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論