字符集和编码

一.字符集

1.ascii =>编排了128个文字符号,只需要7个0和1就可以表示了。01111111 =>1 byte =>8bit
ANSI=> 一套标准,每个字符 16bit,2byte。
到了中国,gb2312编码,gbk编码(windows默认)
到了台湾,big5编码
到了日本,JIS编码

2.Unicode:万国码
3.utf:是可变长度的unicode,可以进行数据的传输和存储
utf-8:最短字节长度8 utf-16:最短字节长度16
图片.png

二.编码

1.bytes
程序员平时遇到的所有的数据最终单位来自都是字节byte。encode()编码

1
2
3
4
5
s="林俊杰"
bs1=s.encode("gbk") # b'xxxx'bytes类型
bs2=s.encode("utf-8")
print(bs1)
print(bs2)

图片.png

三.解码

2.decode()解码
2.1把一个gbk的字节转化成utf-8的字节的步骤
先变成字符串

1
2
3
bs=b'\xc1\xd6\xbf\xa1\xbd\xdc'
s=bs.decode("gbk")
print(s)

图片.png

Contents
  1. 1. 一.字符集
  2. 2. 二.编码
  3. 3. 三.解码
|