您的位置 首页 > 数码极客

计算机是如何处理汉字的——计算机对汉字信息的处理过程实际

我相信任何一位中国开发者,都绝对遇到过乱码这个问题。中文,特别是繁简中文的转换出现乱码是家常便饭。为何会出现乱码?到底计算机是如何存储我们的中文的?今天就让我们一起来深入了解一下:

字节、位、二进制

要搞清楚编码问题,必不可少需要对计算机数据存储原理的认识。我们都知道计算机只存储二进制,也即0和1。那么机器又是如何将我们人类可以识别的文字转换为0和1存起来呢?

大家还记得自己刚编程入坑时接触的ASCII码吗?可能很多人学了之后也不清楚ASCII码是干嘛的?它其实说白了就是一个人为制定的字符到数值的一个映射表。

比如,字符‘A’对应的数字是65,65是十进制表示方法,将它转换为二进制就是01000001;好,现在我们将A通过这种映射关系转换为了二进制01000001,那么怎么存呢?这又牵扯到字节和位的概念了。

字节是计算机中数据处理的基本单位。计算机中以字节为单位存储和解释信息,规定一个字节由八个二进制位构成,即1个字节等于8个比特(1Byte=8bit)。一个位可以存一个状态码也即0和1;而一个英文字符是一个字节,所有从字符A到存储关系就是这样的:

中文字符

了解了英文字符的存储,那么中文字符也按照英文那样存呗;但是,咱们中文博大精深,中文具体有多少个字符我是不知道,但据了解有近十万个。如果一个中文字符只是一个字节,也即是8位的话,根本不够用,因为一个字节最多自能表示到127(第一位为符号位,所以剩下七位是有效的用来表示数字),即每一位都是1,那么就是01111111,十进制为127,而0到127全部被ASCII码占用了。十万中文字,127对它来说实在是不够看,并且全世界那么多中语言,那么多字符,怎么办呢?这时候万国码Unicode就面世了。

Unicode是属于编码字符集(CCS)的范围。Unicode所做的事情就是将我们需要表示的字符表 中的每个字符映射成一个数字,这个数字被称为相应字符的code point码点。例如“严”字在Unicode中对应的码点是U+0x4E25。同样,将之转换为二进制:100111000100101,很显然,一个字节肯定不够存,我们需要两个或者更多个字节来存储,那么问题又来了,到底是用两个字节还是三个字节亦或是更多字节呢?聪明的人就站出来说了,我们不需要定死,我们用变长的字节。如果使用了变长的字节表示一个字符,那就必须要知道是几个字节表示了一个字符,要不然计算机可没 那么聪明。下面介绍一下最常用的UTF-8。

UTF-8 的编码规则很简单,只有二条:

1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的 Unicode 码。

2)对于n字节的符号(n > 1),第一个字节的前n位都设为1,第n + 1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的 Unicode 码。

下表总结了编码规则,字母x表示可用编码的位。

Unicode符号范围 | UTF-8编码方式 (十六进制) | (二进制) ----------------------+--------------------------------------------- 0000 0000-0000 007F | 0xxxxxxx

0000 0080~0000 07FF | 110xxxxx 10xxxxxx

0000 0800~0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx

0001 0000~0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

跟据上表,解读 UTF-8 编码非常简单。如果一个字节的第一位是0,则这个字节单独就是一个字符;如果第一位是1,则连续有多少个1,则这个字符就需要占用多少个字节。

例如:严的 Unicode 是4E25(100111000100101),根据上表,4E25处(0000 0800 - 0000 FFFF)的范围,因此”严“的 UTF-8 编码需要三个字节,即格式是1110xxxx 10xxxxxx 10xxxxxx。从严的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补0。于是得到,严的 UTF-8 编码是11100100 10111000 10100101。

所以用图示表示“严”从字符到计算机存储是这样的:

所以,以后别再说一个中文字符就是两个字节了;也别再说Unicode和UTF-8都是编码方式了。

END

手KEY不易,希望大家多多支持小编,点个关注~~~持续分享更多编程小知识;

责任编辑: 鲁达

1.内容基于多重复合算法人工智能语言模型创作,旨在以深度学习研究为目的传播信息知识,内容观点与本网站无关,反馈举报请
2.仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证;
3.本站属于非营利性站点无毒无广告,请读者放心使用!

“计算机是如何处理汉字的,计算机对汉字信息的处理过程实际,计算机处理汉字的过程,计算机处理汉字必须解决的三个问题,计算机内处理汉字信息时所用的”边界阅读