书香雅阁论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 619|回复: 0

【UTF-8和GBK】

[复制链接]

384

主题

407

帖子

158万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1581367
发表于 2023-3-31 01:45:48|字数:1,104 | 显示全部楼层 |阅读模式
LV10 站长

首先你需要阅读知道,什么是【ASCALL编码】


对于ascall码一共是256个,远远无法表示出全球的字符,对于汉字而言也无法表达,那么就使用2个ascall码表示一个汉字,那么256*256=65532,也就是说2个ascall码可以表示65532个字符,那么在此基础上发展出了gbk编码


但是这样会存在一个问题,比如a的ascall码是97,那{97,97}是表示aa还是表示一个汉字?


所以汉字使用了一个拓展码(129-255)+1个全码(0-255)来表示,这个设计很巧妙,只要出现一个拓展码,就要将这个拓展码及其后面的哪个ascall码看成一个整体


理论最多可表达汉字:
128*256=32768个



这就是我在ascall编码文章中说过的后面的128个不单独表示某个符号,而是为了防止出错,起到配合作用



重点:GBK和GB2312这是我们很长用到的2种编码,其中GB2312发布的时间早(1980年),GB2312 包含 6763 个汉字; GBK 包含 21886 个汉字和图形符号;GBK兼容GB2312,对于一般开发来说,GB2312完全足够了,GBK主要包括了很多生僻字
拓展:GBK第一个字节ascall码129-254(127个),第二个字节的范围是64-254(192个)
127*192=24384
很多人可能会问,不是21886吗?不一定全编码了,而且有几个ascall码没采用,这里我们就不探讨了,大概知道原理就好
重点:这里要说明的是gbk编码是由2个ascall码为一组构成的基本单元,比如“你”的gbk编码是{196,227},但是{196,227}只是在gbk编码中表示“你”,在其他双字节编码中可能表示“我”,这个没有什么技巧,就是一一对应的关系,编码设计者规定的

utf-8编码使用3个ascall编码来表达一个字符,所以是128(拓展码)*256(全码)*256(全码)= 8388608(理论值),显然可以满足几乎全球所有的字符,也就是说全球几乎任意一个字符都有唯一的一个utf-8编码去对应,所以utf-8编码也称为全球通用编码,现在大多数网站都是采用utf-8编码的

难点1:如果一个网站采用的是gbk编码,会如何
首先,在中国是可以正常阅读的,但是在外国可能会乱码,因为外国的设备上采用的不一定是gbk编码,比如{196,227}对应的是“你”,但是在外国的设备上对应的可能是其他字符,那么看上去就如同乱码一样

提示:utf-8中中文“你”对应的是编码是:{228,189,160}


(点击返回课程目录https://shuxiangyage.net/forum.php?mod=viewthread&tid=1134

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|小黑屋|书香雅阁论坛 ( 湘ICP备17011672号-3 )

GMT+8, 2024-5-6 03:15 , Processed in 0.133913 second(s), 24 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表