导图社区编码

编码

编码ANSI、GBK、GB2312、UTF-8、GB18030和 UNICODE的那些事，一幅图搞懂上述6者的关系

编辑于2020-03-02 07:02:08

编码

望风

他的近期作品查看更多>>

编码
编码ANSI、GBK、GB2312、UTF-8、GB18030和 UNICODE的那些事，一幅图搞懂上述6者的关系

编码

社区模板帮助中心，点此进入>>

望风

他的近期作品查看更多>>

编码
编码ANSI、GBK、GB2312、UTF-8、GB18030和 UNICODE的那些事，一幅图搞懂上述6者的关系

相似推荐
大纲

互联网9大思维
- 37.8k
- 968
- 2.4k
- 400
- 0
MindMaster
组织架构-单商户商城webAPP 思维导图。
- 17.0k
- 3
- 186
- 9
- 1
Kacyun
域控上线
- 3.4k
- 169
- 11
- 4
- 0
jackrao
python思维导图
- 7.9k
- 550
- 242
- 7
- 0
(*^▽^*)
css
- 2.9k
- 1
- 43
- 3
- 0
A张舫
CSS
- 5.2k
- 271
- 189
- 33
- 0
journey
计算机操作系统思维导图
- 6.5k
- 351
- 207
- 17
- 0
journey
计算机组成原理
- 3.1k
- 98
- 70
- 8
- 0
journey
IMX6UL(A7)
- 1.9k
- 41
- 5
- 0
- 0
Handler XU
考试学情分析系统
- 2.5k
- 51
- 10
- 1
- 0
蒋龙

编码ANSI、GBK、GB2312、UTF-8、GB18030和 UNICODE的那些事

8个可以开合的晶体管来组合成不同的状态，以表示世界上的万物，他们把这称为”字节”

一共可以组合出256种不同的状态。他们把其中的编号从0开始的32种状态分别规定了特殊的用途，遇上 00×10, 终端就换行，0×07, 嘟嘟叫，0x1b, 打印反白的字或用彩色显示字母。这些0×20以下的字节状态称为”控制码”

空格、标点符号、数字、大小写字母分别用连续的字节状态表示，一直编到了第127号，这个方案叫做 ANSI 的”Ascii”编码（American Standard Code for Information Interchange，美国信息互换标准代码）

中国人自主研发，把127号之后的奇异符号直接取消。规定：一个小于127的字符的意义与原来相同，但两个大于127的字符连在一起时，就表示一个汉字，前面的一个字节（他称之为高字节）从0xA1用到 0xF7，后面一个字节（低字节）从0xA1到0xFE，这样我们就可以组合出大约7000多个简体汉字了。在这些编码里，我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了，连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的”全角”字符，而原来在127号以下的那些就叫”半角”字符了。中国人民看到这样很不错，于是就把这种汉字方案叫做 “GB2312″。GB2312 是对 ASCII 的中文扩展

汉字太多了，还是不够用，于是干脆不再要求低字节一定是127号之后的内码，只要第一个字节是大于127就固定表示这是一个汉字的开始，不管后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为 GBK 标准，GBK 包括了 GB2312 的所有内容，同时又增加了近20000个新的汉字（包括繁体字）和符号。

后来少数民族也要用电脑了，于是我们再扩展，又加了几千个新的少数民族的字，GBK 扩成了 GB18030

因为当时各个国家都像中国这样搞出一套自己的编码标准，结果互相之间谁也不懂谁的编码，谁也不支持别人的编码。当时的中国人想让电脑显示汉字，就必须装上一个”汉字系统”，专门用来处理汉字的显示、输入的问题，装错了字符系统，显示就会乱了套。这怎么办？就在这时，一个叫 ISO （国际标谁化组织）的国际组织决定着手解决这个问题。他们采用的方法很简单：废了所有的地区性编码方案，重新搞一个包括了地球上所有文化、所有字母和符号的编码！他们打算叫它”Universal Multiple-Octet Coded Character Set”，简称 UCS, 俗称 “UNICODE”。

UNICODE 来到时，一起到来的还有计算机网络的兴起，UNICODE 如何在网络上传输也是一个必须考虑的问题，于是面向传输的众多 UTF（UCS Transfer Format）标准出现了，顾名思义，UTF8 就是每次8个位传输数据，而 UTF16 就是每次16个位，只不过为了传输时的可靠性，从UNICODE到 UTF时并不是直接的对应，而是要过一些算法和规则来转换

问：UTF-8 既然能保存那么多文字、符号，为什么国内还有这么多使用 GBK 等编码的人？因为 UTF-8 等编码体积比较大，占电脑空间比较多，如果面向的使用人群绝大部分都是中国人，用 GBK 等编码也可以。但是目前的电脑来看，硬盘都是白菜价，电脑性能也已经足够无视这点性能的消耗了。所以推荐所有的网页使用统一编码：UTF-8。

ANSI、GBK、GB2312、UTF-8、GB18030和 UNICODE

1、中国人民通过对 ASCII 编码的中文扩充改造，产生了 GB2312 编码，可以表示6000多个常用汉字。

2、汉字实在是太多了，包括繁体和各种字符，于是产生了 GBK 编码，它包括了 GB2312 中的编码，同时扩充了很多。

3、中国是个多民族国家，各个民族几乎都有自己独立的语言系统，为了表示那些字符，继续把 GBK 编码扩充为 GB18030 编码。

4、每个国家都像中国一样，把自己的语言编码，于是出现了各种各样的编码，如果你不安装相应的编码，就无法解释相应编码想表达的内容。

5、终于，有个叫 ISO 的组织看不下去了。他们一起创造了一种编码 UNICODE ，这种编码非常大，大到可以容纳世界上任何一个文字和标志。所以只要电脑上有 UNICODE 这种编码系统，无论是全球哪种文字，只需要保存文件的时候，保存成 UNICODE 编码就可以被其他电脑正常解释。

6、UNICODE 在网络传输中，出现了两个标准 UTF-8 和 UTF-16，分别每次传输 8个位和 16个位。