0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一文帶你搞懂字符集編碼

Linux愛(ài)好者 ? 來(lái)源:CSDN-BinaryStarXin ? 2023-06-09 10:20 ? 次閱讀

軟件開發(fā)人員經(jīng)常遇到“中文亂碼”、“軟件不能顯示日文”等類似問(wèn)題。真相只有一個(gè)——對(duì)字符集編碼沒(méi)有一個(gè)系統(tǒng)的認(rèn)知。

常見(jiàn)字符集編碼有GB2312、GBK、BIG5、UTF-8、UTF-16,甚至有些從事MFC開發(fā)的人可能還會(huì)說(shuō)字符集有ANSI和UNICODE。真的是這樣嗎?直接上干貨。

5a5d4498-05da-11ee-962d-dac502259ad0.png

字符集分類

1. ANSI

American National Standards Institute 美國(guó)國(guó)家標(biāo)準(zhǔn)學(xué)會(huì),由這個(gè)標(biāo)準(zhǔn)學(xué)會(huì)制訂的一種編碼規(guī)則。

采用多字節(jié)系統(tǒng) (MBCS) 的變長(zhǎng)編碼,每個(gè)字符可以是單個(gè)字節(jié)、雙字節(jié),也可以是多字節(jié)的;

兼容單字節(jié)字符集 (SBCS) 和雙字節(jié)字符集 (DBCS);

兼容 EUC/EUC-CN 雙字節(jié)編碼。由于兼容了這個(gè)編碼,那么 ANSI 的雙字節(jié)編碼也是大端存儲(chǔ) (Big Endian) 的了;

不同的國(guó)家和地區(qū)可以使用不同的編碼規(guī)則,這些編碼對(duì)應(yīng)到這些國(guó)家和地區(qū)的代碼頁(yè) (Code Page) 上。

1.1. ASCII編碼

ASCII編碼即美國(guó)信息交換標(biāo)準(zhǔn)代碼(American Standard Code for Information Interchange)是一套共有128個(gè)字符的編碼,它基于阿拉丁字母,主要作用是用來(lái)表示英語(yǔ)和西歐語(yǔ)言字符。ASCII規(guī)范編碼第一次公布于1967年,ascii碼在1986年完成最后一次更新。ASCII碼對(duì)照表等同于國(guó)際標(biāo)準(zhǔn) ISO/IEC 646,ASCII碼對(duì)照表是世界最通用的信息交換標(biāo)準(zhǔn)。

5a67cd64-05da-11ee-962d-dac502259ad0.png

ASCII編碼

1.2. GB2312編碼

GB2312簡(jiǎn)體中文編碼,一個(gè)漢字占用2個(gè)字節(jié),在大陸是主要的編碼方式,兼容ASCII編碼。

為了支持繁體字,于是推出了GBK編碼,GBK是國(guó)標(biāo)擴(kuò)展(Guo Biao Kuozhan)編碼的縮寫,兼容GB2312。

為了支持少數(shù)名民族的文字,于是推出了GB1803,解決了中文、日文、朝鮮語(yǔ)等的編碼,兼容GBK。

5a876106-05da-11ee-962d-dac502259ad0.png

中文編碼

2. UNICODE編碼

Unicode又稱為統(tǒng)一碼、萬(wàn)國(guó)碼、單一碼,是國(guó)際組織制定的旨在容納全球所有字符的編碼方案,包括字符集、編碼方案等,它為每種語(yǔ)言中的每個(gè)字符設(shè)定了統(tǒng)一且唯一的二進(jìn)制編碼,以滿足跨語(yǔ)言、跨平臺(tái)的要求。

Unicode字符集被劃分為 17 個(gè)平面(即,17個(gè)區(qū),編號(hào)為 0-16 ),且具有以下特點(diǎn):

每個(gè)平面有216 = 65536個(gè)代碼點(diǎn),因此,整個(gè)Unicode字符集共有17 × 65536 = 111 4112 個(gè)碼點(diǎn)。

整個(gè)Unicode字符集的碼點(diǎn)空間為U+000000 ~ U+10FFFF

每個(gè)平面的碼點(diǎn)范圍可表示為U+xx0000 ~ U+xxFFFF,其中xx表示16進(jìn)制的0x00到0x10,比如,平面0的碼點(diǎn)范圍為U+000000 ~ U+00FFFF,平面2的碼點(diǎn)范圍為U+020000 ~ U+02FFFF,平面15的碼點(diǎn)范圍為U+0F0000 ~ U+0FFFFF

再次注意:并不是每個(gè)碼點(diǎn)就一定對(duì)應(yīng)有一個(gè)字符,因?yàn)?,目前Unicode字符集中有很多碼點(diǎn)都還未被使用。

5a92773a-05da-11ee-962d-dac502259ad0.png

Unicode 17 層平面

2.1. UTF-16編碼

UTF-16編碼源于UCS-2,是Unicode最早的編碼方式。

UCS-2編碼僅覆蓋了基本平面(即BMP,第0平面)中的碼點(diǎn),使用固定的兩字節(jié)將字符編號(hào)(類似于Unicode中的碼點(diǎn)值)直接映射為字符編碼,中間未經(jīng)過(guò)任何的編碼算法轉(zhuǎn)換。

很明顯,16位的二進(jìn)制位(范圍為0x0000 ~ 0xFFFF)無(wú)法表示Unicdoe引入的增補(bǔ)平面中的碼點(diǎn)(平面1 ~ 16,碼點(diǎn)范圍為0x10000~0x10FFFF),為此,Unicode在UTF-16編碼中使用“代理(代替)機(jī)制”來(lái)解決這個(gè)問(wèn)題,代理機(jī)制使用4個(gè)字節(jié)來(lái)表示增補(bǔ)平面中的碼點(diǎn),從而使UTF-16成為一種變長(zhǎng)編碼方式。

因此,若軟件僅支持UCS-2編碼,則意味著僅支持UCS字符集或Unicode字符集基本平面中的字符,而不支持增補(bǔ)平面中的字符。

UTF-16編碼后的碼元序列在映射為物理意義上的字節(jié)序列時(shí),又分為UTF-16BE (大端序),UTF-16LE (小端序)兩種情況,大端序和小端序又分為帶有字節(jié)序標(biāo)記(with BOM)和不帶字節(jié)序標(biāo)記(without BOM)兩種情形。比如,“ABC”這三個(gè)字符的UTF-16編碼(碼元序列)為:00 41 00 42 00 43;其對(duì)應(yīng)的各種字節(jié)序列如下表所示:

5aaa4e8c-05da-11ee-962d-dac502259ad0.jpg

”abc”的各種UTF-16編碼

2.2. UTF-32編碼

UTF-32是一種將Unicode字符編碼的協(xié)定,對(duì)每一個(gè)Unicode碼位使用恰好32位元。其它的Unicode transformation formats則使用不定長(zhǎng)度編碼。因?yàn)閁TF-32對(duì)每個(gè)字符都使用4字節(jié),就空間而言,是非常沒(méi)有效率的。特別地,非基本多文種平面的字符在大部分文件中通常很罕見(jiàn),以致于它們通常被認(rèn)為不存在占用空間大小的討論,使得UTF-32通常會(huì)是其它編碼的二到四倍。雖然每一個(gè)碼位使用固定長(zhǎng)定的字節(jié)看似方便,它并不如其它Unicode編碼使用得廣泛。

與UTF-16一樣,也存在大端和小端存儲(chǔ)。

2.3. UTF-8編碼

UTF-8編碼是Unicode編碼的一種編碼形式。由1-6個(gè)字節(jié)表示一個(gè)字符,兼容ASCII編碼。

5ab55b42-05da-11ee-962d-dac502259ad0.png

UTF-8編碼

3. MFC中的字符集

MFC字符集選擇多字節(jié)編碼時(shí),對(duì)應(yīng)的編碼是GBK編碼

MFC字符集選擇Unicode編碼時(shí),對(duì)應(yīng)的編碼是UTF-16編碼。

4. QT中的字符集

QString是按UTF-16存儲(chǔ)的。

1、當(dāng)選擇UTF-8編碼時(shí),QString構(gòu)造函數(shù)的參數(shù)對(duì)應(yīng)UTF-8編碼(默認(rèn)設(shè)置)。

QTextCodec*codec=QTextCodec::codecForName("UTF-8");
QTextCodec::setCodecForLocale(codec);
QStringstr=“右邊是UFT-8編碼的字符串”;

2、當(dāng)選擇GBK編碼時(shí),QString構(gòu)造函數(shù)的參數(shù)對(duì)應(yīng)GBK編碼。

QTextCodec*codec=QTextCodec::codecForName("UTF-8");
QTextCodec::setCodecForLocale(codec);
QStringstr=“右邊是GBK編碼的字符串”;

3、QString也可以指定編碼賦值。

QStringstr1=QString::fromLocal8Bit(“GBK編碼字符串”);
QStringstr2=QString::fromUtf8(“UTF-8編碼字符串”);
5ac9350e-05da-11ee-962d-dac502259ad0.jpg

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 軟件開發(fā)
    +關(guān)注

    關(guān)注

    0

    文章

    586

    瀏覽量

    27276
  • ANSI
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    20500
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    915

    瀏覽量

    54651
  • ASCII
    +關(guān)注

    關(guān)注

    5

    文章

    171

    瀏覽量

    34947
  • 字符
    +關(guān)注

    關(guān)注

    0

    文章

    230

    瀏覽量

    25106

原文標(biāo)題:4. QT中的字符集

文章出處:【微信號(hào):LinuxHub,微信公眾號(hào):Linux愛(ài)好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    如何查詢Oracle client端的字符集?

    什么是Oracle字符集?如何查詢dmp文件的字符集?如何查詢Oracle client端的字符集?
    發(fā)表于 05-26 06:42

    RISC-V MCU IDE MRS(MounRiver Studio)開發(fā)之:設(shè)置工程編碼字符集

    、Unicode、UTF-8、UTF-16等。而不同的集成開發(fā)環(huán)境,其默認(rèn)的字符集也不同,當(dāng)涉及到IDE間工程遷移需求時(shí),我們往往需要更改該工程在目標(biāo)IDE下的編碼字符集。以RISC-V IDE
    發(fā)表于 11-23 10:20

    怎樣去使用C語(yǔ)言字符集呢?有哪些規(guī)則

    C語(yǔ)言字符集的特點(diǎn)有哪些呢?怎樣去使用C語(yǔ)言字符集呢?有哪些規(guī)則?
    發(fā)表于 02-25 07:43

    python正則表達(dá)式字符集

    字符集是由對(duì)方括號(hào) “[]” 括起來(lái)的字符集合。使用字符集,可以匹配多個(gè)字符中的個(gè)。舉個(gè)例子
    發(fā)表于 03-17 16:48

    字符集和字庫(kù)有什么聯(lián)系?

    字符集和字庫(kù) 是同個(gè)對(duì)象嗎
    發(fā)表于 10-12 06:29

    信息交換用朝鮮文字編碼字符集 GB 12052-89

    本標(biāo) 準(zhǔn) 規(guī) 定了53 00個(gè)朝鮮宇及其十六進(jìn)制編碼表示。該字符集適用于朝鮮文字信息處理、朝鮮文字通信等系統(tǒng)之間的信息交換.2 引用標(biāo)準(zhǔn)GB 1 988 信息處理信息換用
    發(fā)表于 03-01 21:30 ?37次下載

    信息交換用藏文編碼字符集標(biāo)準(zhǔn) GB16959-1997

    信息交換用藏文編碼字符集標(biāo)準(zhǔn) GB16959-1997 本標(biāo)準(zhǔn)是根據(jù)GB13000.1和國(guó)際標(biāo)準(zhǔn)化組織正在補(bǔ)充制定的信息交換藏文編碼字符集標(biāo)準(zhǔn)編制的。
    發(fā)表于 04-17 14:40 ?14次下載

    信息處理交換用蒙古文七位和八位編碼圖形字符集 GB18045

    信息處理交換用蒙古文七位和八位編碼圖形字符集 GB18045-87 本標(biāo)準(zhǔn)規(guī)定我國(guó)現(xiàn)行的蒙古文七位和八位編碼圖形字符集,不包括托心文字符。
    發(fā)表于 04-17 14:43 ?14次下載

    信息交換用漢字編碼字符集 基本集GB 312-1980

    信息交換用漢字編碼字符集 基本集GB 312-1980 本標(biāo)準(zhǔn)規(guī)定了漢字信息交換用的基本圖形字符及其二進(jìn)制編碼表示。安適用于般漢字處理、漢字通信等系統(tǒng)之間的
    發(fā)表于 04-17 17:57 ?15次下載

    LCD液晶顯示漢字字符集

    LCD液晶顯示漢字字符集
    發(fā)表于 12-23 02:02 ?0次下載

    字符集字符集編碼詳解

    字符集字符集編碼詳解
    發(fā)表于 09-12 08:33 ?4次下載
    <b class='flag-5'>字符集</b>與<b class='flag-5'>字符集</b><b class='flag-5'>編碼</b>詳解

    MySQL字符集的設(shè)置修改和排序規(guī)則

    大家都知道,計(jì)算機(jī)只能識(shí)別二進(jìn)制碼,為了讓計(jì)算機(jī)能處理文字,人們給每個(gè)文字進(jìn)行編碼,這個(gè)編碼就是計(jì)算機(jī)字符集的由來(lái)。
    的頭像 發(fā)表于 04-16 17:10 ?1.8w次閱讀
    MySQL<b class='flag-5'>字符集</b>的設(shè)置修改和排序規(guī)則

    python正則表達(dá)式字符集

    字符集是由對(duì)方括號(hào) “[]” 括起來(lái)的字符集合。使用字符集,可以匹配多個(gè)字符中的個(gè)。 舉個(gè)例
    的頭像 發(fā)表于 03-17 16:48 ?1174次閱讀

    詳解字符集編碼

    軟件開發(fā)人員經(jīng)常遇到“中文亂碼”、“軟件不能顯示日文”等類似問(wèn)題。真相只有個(gè)——對(duì)字符集編碼沒(méi)有個(gè)系統(tǒng)的認(rèn)知。
    的頭像 發(fā)表于 07-18 09:57 ?569次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b>詳解<b class='flag-5'>字符集</b><b class='flag-5'>編碼</b>

    mysql8.0默認(rèn)字符集是什么

    支持存儲(chǔ)和處理 Unicode 字符,包括 emoji 表情符號(hào)。 字符集是用于定義數(shù)據(jù)庫(kù)中存儲(chǔ)的字符編碼規(guī)則的集合。它們指定了可以在數(shù)據(jù)庫(kù)中使用哪些
    的頭像 發(fā)表于 11-16 14:48 ?1585次閱讀