Python中编码(encode)解码(decode)讲解

嗨害大家好鸭！我是小熊猫~

这次也是给大家带来一点干货~

请添加图片描述

所用素材:点击此处跳转文末名片获取

一、python3中str与unicode

在python3中，字符串有两种形式：str和bytes，两者区别如下：

unicode string(str类型)：以Unicode code points形式存储(人认识的形式)

byte string(bytes类型)：以byte形式存储(机器认识的形式)

在python3中所定义的所有字符串都是unicode string类型，

使用type和isinstance可以判别

请添加图片描述

而bytes是一个二进制序列对象，

你只要你在定义字符串时前面加一个b，

就表示你要定义一个bytes类型的字符串对象

请添加图片描述
但是在定义中文字符串时，

你就不能直接在前面加b了，

而应该使用encode转一下

请添加图片描述

二、python2中str与unicode

而在Python2中，
字符串的类型又与Python3不一样，需要仔细区分

在Python2里，字符串也只有两种类型，unicode和str

只有unicode object和非unicode object（其实应该叫str object）的区别：

unicode string（unicode类型）：以Unicode code points形式存储（人认识的形式）

byte string（str类型）：以byte形式存储（机器认识的形式）

当我们直接使用双引号或单引号包含字符的方式来定义字符串时，

就是str字符串对象，比如这样

请添加图片描述
而当我们在双引号或单引号前面加个u，

就表明我们定义的是unicode字符串对象，比如这样

请添加图片描述

三、如何检测对象的编码

所有的字符，在unicode字符集中都有对应的编码值（code point）

而把这些编码值按照一定的规则保存成二进制字节码，
就是我们说的编码方式，常见的有：UTF-8，GB2312等。

也就是说，当我们要将内存中的字符串持久化到硬盘中的时候，
都要指定编码方法，
而反过来，读取的时候，
也要指定正确的编码方法（这个过程叫解码），
不然会出现乱码。

那问题就来了，当我们知道了其对应的编码方法，
我们就可以正常解码，
但并不是所有时候我们都能知道应该用什么编码方式去解码？

这时候就要介绍到一个python的库–chardet，
使用它之前需要先安装

python3 -m pip install chardet

chardet有一个detect方法，可以预测其编码格式

import chardet

chardet.detect(encode(‘gbk’))

{‘encoding’: ‘GB2312’,‘confidence’: 0.99,‘language’: ‘Chinese’}

为什么说是预测呢，通过上面的输出来看，
你会看到有一个confidence字段，其表示预测的可信度，
或者说成功率。

但是使用它时，若你的字符数较少，就有可能“误诊”），
比如只有中文两个字，就像下面这样，
我们是使用gbk编码的，使用chardet却识别成KOI8-R编码。

请添加图片描述
所以为了编码诊断的准确，要尽量使用足够多的字符

四、编码与解码的区别

编码和解码，其实就是str与bytes的相互转化的过程（Python 2已经远去，这里以及后面都只用Python 3举例）

编码：encode方法，把字符串对象转化为二进制字节序列

解码：decode方法，把二进制字节序列转化为字符串对象

Unicode & Character Encodings in Python

那么假如我们真知道了其编码格式，如何来转成unicode呢？

有两种方法：

第一种是直接使用decode方法

 byte_obj.decode('gbk')

‘中文’

第二种是使用str类来转

str_obj=str(byte_obj,encoding='gbk')

str_obj

'中文'

五、如何设置文件编码

在Python 2中，默认使用的是ASCII编码来读取的，
因此，我们在使用Python 2的时候，
如果你的python文件里有中文，运行是会报错的。

SyntaxError:Non-ASCII character '\xe4' in file demo.py

原因就是ASCII编码表太小，无法解释中文。

而在Python 3中，默认使用的是uft-8来读取，所以省了不少的事。

对于这个问题，通常解决方法有两种：

第一种方法：在python2中，可以使用在头部指定

可以这样写，虽然很好看

# -*- coding: utf-8 -*-

但这样写太麻烦了，我通常使用下面两种写法

#coding:utf-8

#coding=utf-8

第二种方法：

import sys

reload(sys)


sys.setdefaultencoding('utf-8')

这里在调用sys.setdefaultencoding(‘utf-8’)设置默认的解码方式之前，

执行了reload(sys)，这是必须的，

因为python在加载完sys之后，

会删除sys.setdefaultencoding这个方法，

我们需要重新载入sys，

才能调用sys.setdefaultencoding这个方法

👇问题解答 · 源码获取 · 技术交流 · 抱团学习请联系👇

文章出处登录后可见！

已经登录？立即刷新

Python中编码(encode)解码(decode)讲解

嗨害大家好鸭！我是小熊猫~

所用素材:点击此处跳转文末名片获取

一、python3中str与unicode

二、python2中str与unicode

三、如何检测对象的编码

四、编码与解码的区别

五、如何设置文件编码

相关推荐