学习解析Unicode与gbk编码

前言

在做sqli-labs的less-32及后几关时接触到了宽字节注入,就学习了以上四种编码方式并且进行了辨析,通过这篇博客以记录下来。

从ascii开始

我们都知道计算机只能识别0和1的二进制语言,因此当我们想要表示字母或者数字时需要一个规则进行转换,因此我们有了ascii字符集。但是ascii只用了7bits来表示字符,后来经过补充用8bits,这对英文来说足够了,可是世界上还有千千万万个其他文字,1个字节显然是不够的,因此,宽字符就出现了。

Unicode就起到了补充作用,事实上,Unicode对计算机全球化发展起到了巨大作用。因为各个国家之间都推出了各自的编码标准,这些标准没有一个统一值,例如gbk就是中国标准,只在中国使用,而Unicode把全球所有语言统一到了一个编码里。

Unicode与UTF-8&16

Unicode(UCS-2)编码遵循着中英文及其符号全部占用2个字节,如果是一个英文字母,其二进制表达为(以s为例):
00000000 01110011
而一个汉字的二进制表达式为(以“日”字为例):
01100101 11100101

在Unicode字符集中,一个字符对应的一个十六进制,我们可以发现英文的二进制码前9位全部都是0,占据两个字节实在是一种浪费,这时候UTF就派上用场了。

  • 首先是UTF-8,对于英文字母这类单字节字符,UTF-8会将字节第一位设置为0,此时这个第一个0相当于代替了9个0,因此英文字符这类的字符只占用一个字节,与ascii码值完全相同。
  • 而对于多个字节的字符,就要转换为多字节的UTF-8,而中文在UTF-8中属于三字节。UTF-8对于n个字节的编码方式为,第一个字节的前n位用1表示,第n+1位用0表示,后面字节的前两位用10表示。

那么s与日的UTF-8编码就是如下所示:
s:01110011
日:11100110 10010111 10100101

是的,汉字在UTF-8中占据了3个字符,这就导致了在使用纯中文时反而消耗了更多的内存,因此对于纯中文UTF-8不是很友好。这时,我们把目光聚焦在UTF-16。

UTF-16的编码中字符一般占两个字节,因此有些人会将Unicode和UTF-16的概念混作一谈,这是错误的。但其实UTF-16编码的泛用性还是没有UTF-8广,因为UTF-16存在大小端字节序问题,容错率也更低。反观UTF-8局部的字节错误(丢失、增加、改变)不会导致连锁性的错误,因为UTF-8 的字符边界很容易检测出来。而url编码就是在uft-8编码的基础上,给编码的每个字节加上百分号。

这里给出不同编码方式的文件头:

1
2
3
4
5
EF BB BF    UTF-8
FE FF     UTF-16/UCS-2, little endian
FF FE     UTF-16/UCS-2, big endian
FF FE 00 00  UTF-32/UCS-4, little endian.
00 00 FE FF  UTF-32/UCS-4, big-endian.

走近gbk

在了解gbk之前,我们要先了解GB2312,而在了解GB2312之前,我们先认识下区位码。区位码是1980年中国制定的编码标准,每一个字符都有一个对应的四位编号,前两位为“区”,后两位为“位”,而中文汉字的区码为16。

GB2312编码正是基于区位码用双字节编码表示中文的,编码方式一般为0xA0+区号 0xA0+位号。而当编码对象是英文或数字时,一般情况下直接使用ascii编码。不过这里有个有意思的情况:

1
2
0x32
0xA3 0xB2

0x32自然是代表着2,那么下面那个根据GB2312编码的结果应该也为2,这两个2有什么区别呢?有,ascii码对应的2是半角字符,而GB2312编码的2是全角字符。

而gbk,即汉字国际扩展码,在GB2312的基础上进行了拓展,涵盖了Unicode中所有的汉字,因此也可以Unicode一一对应。和前面说到的GB2312不同,有的字的编码比0xA0 0xA0还小,但是其实只补充了计算机编码表,区位码是没有更新的。微软Windows安排给GBK的code page(代码页)是CP936,所以有时候看到编码格式是CP936,其实就是GBK的意思。

同一个编码文件里,高字节最高位为0则为ascii,为1则为中文。

总结

学习这些编码的原理,对于我们继续进行的靶场练习可以提供一定的帮助,了解到计算机是如何编码我们的文字的,不过这也算不顾正业一回了吧。