一.字符集
1.ascii =>编排了128个文字符号,只需要7个0和1就可以表示了。01111111 =>1 byte =>8bit
ANSI=> 一套标准,每个字符 16bit,2byte。
到了中国,gb2312编码,gbk编码(windows默认)
到了台湾,big5编码
到了日本,JIS编码
2.Unicode:万国码
3.utf:是可变长度的unicode,可以进行数据的传输和存储
utf-8:最短字节长度8 utf-16:最短字节长度16
二.编码
1.bytes
程序员平时遇到的所有的数据最终单位来自都是字节byte。encode()编码
1 | s="林俊杰" |
三.解码
2.decode()解码
2.1把一个gbk的字节转化成utf-8的字节的步骤
先变成字符串
1 | bs=b'\xc1\xd6\xbf\xa1\xbd\xdc' |