编程 Python

Python字符编码转码之GBK,UTF8互转

Posted in Python onFebruary 09, 2020

一、Python字符编码介绍

1、须知：

在python 2中默认编码是 ASCII，而在python 3中默认编码是 unicode

unicode 分为utf-32 (占4个字节),utf-16(占两个字节)，utf-8(占1-4个字节)，所以utf-16 是最常用的unicode版本，但是在文件里存的还是utf-8，因为utf8省空间

在python 3,encode编码的同时会把stringl变成bytes类型，decode解码的同时会把bytes类型变成string类型

在unicode编码中 1个中文字符=2个字节，1个英文字符 = 1个字节，切记：ASCII是不能存中文字符的

utf-8是可变长字符编码,它是unicode的优化，所有的英文字符依然按ASCII形式存储，所有的中文字符统一是3个字节

unicode包含了所有国家的字符编码，不同字符编码之间的转换都需要经过unicode的过程

python本身的默认编码是utf-8

2、py2中的编码和转码的过程，如图：

Python字符编码转码之GBK,UTF8互转

注：因为unicode是中间编码，任何字符编码之前的转换都必须解码成unicode，在编码成需要转的字符编码

二、字符编码的转换

1、py2字符编码的转换，代码如下：

#! /usr/bin/env python
# -*- coding:utf-8 -*-
# __auther__ == luoahong
 
s = "我是学员"
#utf-8解码成unicode编码
s_to_unicode = s.decode("utf-8")
print("--------s_to_unicode-----")
print(s_to_unicode)
#然后unicode再编码成gbk
s_to_gbk = s_to_unicode.encode("gbk")
print("-----s_to_gbk------")
print(s_to_gbk)
#gbk解码成unicode再编码成utf-8
gbk_to_utf8 = s_to_gbk.decode("gbk").encode("utf-8")
print("------gbk_to_utf8-----")
print(gbk_to_utf8)
 
#输出
--------s_to_unicode-----
我是学员
-----s_to_gbk------
�����˧
------gbk_to_utf8-----
我是学员

注：以上这种情况适合字符是非unicode编码请款下，但是如果字符编码已经是Unicode的了咋办呢？广告回来，更加精彩。。。。。

2、字符编码已经是unicode情况下，代码如下：

#! /usr/bin/env python
# -*- coding:utf-8 -*-
# __auther__ == luoahong
 
#u代码字符编码是unicode
s = u'你好'
#已经是unicode，所以这边直接是编码成gbk
s_to_gbk = s.encode("gbk")
print("----s_to_gbk----")
print(s_to_gbk)
#这边再解码成unicode然后再编码成utf-8
gbk_to_utf8 = s_to_gbk.decode("gbk").encode("utf-8")
print("-----gbk_to_utf8---")
print(gbk_to_utf8)
#输出
----s_to_gbk----
���
-----gbk_to_utf8---
你好

注：在python2中，在文件的开头指定字符编码，是要告诉解释器我现在的字符编码使用的是utf-8，那我在打印的中文时候，那么在utf-8中包含中文字符，那么可以打印出来。那么如果你不制定字符编码，默认使用系统编码，如果你的系统编码是ASCII，那么就会报错，因为ASCII不能存中文字符。

3、py3的字符编码转换

在须知中已经说到python 3的编码，默认是unicode，所以字符编码之间的转换不需要decode过程，直接encode即可，代码如下：

#! /usr/bin/env python
# __auther__ == luoahong
#无需声明字符编码，当然你声明也不会报错
 
s = '你好'
# 字符串s已经是unicode编码，无需decode,直接encode
s_to_gbk = s.encode("gbk")
print("----s_to_gbk----")
print(s_to_gbk)
#这边还是一样，gbk需要先解码成unicode，再编码成utf-8
gbk_to_utf8 = s_to_gbk.decode("gbk").encode("utf-8")
print("-----gbk_to_utf8---")
print(gbk_to_utf8)
#解码成unicode字符编码
utf8_decode = gbk_to_utf8.decode("utf-8")
print("-------utf8_decode----")
print(utf8_decode)
 
#输出
----s_to_gbk----
b'\xc4\xe3\xba\xc3'
-----gbk_to_utf8---
b'\xe4\xbd\xa0\xe5\xa5\xbd'
-------utf8_decode----
你好

注：在python 3,encode编码的同时会把stringl变成bytes类型，decode解码的同时会把bytes类型变成string类型，所以你就不难看出encode后的把它变成了一个bytes类型的数据。还有需要特别注意的是：不管是否在python 3的文件开头申明字符编码，只能表示，这个python文件是这个字符编码，文件中的字符串还是unicode，如下图：

三、总结：

1、uniocode能识别所有字符编码的字符串

2、在python 2中，字符编码之间的转化需要通过unicode才能转换，所以打印时，可以是使用unicode，也可以使用对应的字符编码(文件开头指定编码)，打印字符或者字符串，因为py2中没有对字符和字节做明显区分，所以才混导致这样的结果。

3、在python 3中，只有通过Unicode去识别字符的，如果转成编码成对应编码格式了，就直接变成对应编码的bytes类型的字节码，也就是二进制，需要识别，必须解码成Unicode才能识别

更多关于Python字符编码转码问题请查看下面的相关链接

Python字符编码转码之GBK,UTF8互转

- Author -

罗阿红

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python+matplotlib实现华丽的文本框演示代码

Jan 22 Python

简单的python协同过滤程序实例代码

Jan 31 Python

python3爬取数据至mysql的方法

Jun 26 Python

python处理数据,存进hive表的方法

Jul 04 Python

利用Python实现原创工具的Logo与Help

Dec 03 Python

详解Python函数式编程—高阶函数

Mar 29 Python

Python数据可视化：箱线图多种库画法

Nov 06 Python

Tensorflow中tf.ConfigProto()的用法详解

Feb 06 Python

opencv-python的RGB与BGR互转方式

Jun 02 Python

用Python开发app后端有优势吗

Jun 29 Python

matplotlib常见函数之plt.rcParams、matshow的使用(坐标轴设置)

Jan 05 Python

python 递归相关知识总结

Mar 03 Python

Python基础之字符串操作常用函数集合

Feb 09 #Python

python连接PostgreSQL过程解析

Feb 09 #Python

Python +Selenium解决图片验证码登录或注册问题(推荐)

Feb 09 #Python

python+selenium定时爬取丁香园的新型冠状病毒数据并制作出类似的地图（部署到云服务器）

Feb 09 #Python

python 爬取疫情数据的源码

Feb 09 #Python

python代码如何实现余弦相似性计算

Feb 09 #Python

python字符串替换re.sub()实例解析

Feb 09 #Python

You might like

php设计模式 Decorator(装饰模式)

2011/06/26 PHP

PHP中全面阻止SQL注入式攻击分析小结

2012/01/30 PHP

PHP中使用addslashes函数转义的安全性原理分析

2014/11/03 PHP

Laravel中的Blade模板引擎示例详解

2017/10/10 PHP

php实现微信支付之现金红包

2018/05/30 PHP

基于Jquery实现的一个图片滚动切换

2012/06/21 Javascript

nodejs中转换URL字符串与查询字符串详解

2014/11/26 NodeJs

对于jQuery性能的一些优化建议

2015/08/13 Javascript

JS打字效果的动态菜单代码分享

2015/08/21 Javascript

基于Jquery代码实现支持PC端手机端幻灯片代码

2015/11/17 Javascript

轻松学习jQuery插件EasyUI EasyUI创建RSS Feed阅读器

2015/11/30 Javascript

探究Javascript模板引擎mustache.js使用方法

2016/01/26 Javascript

原生JS实现平滑回到顶部组件

2016/03/16 Javascript

基于jQuery实现发送短信验证码后的倒计时功能(无视页面关闭)

2016/09/02 Javascript

jQuery+ajax的资源回收处理机制分析

2017/01/07 Javascript

详解Html a标签中href和onclick用法、区别、优先级别

2017/01/16 Javascript

关于layui的下拉搜索框异步加载数据的解决方法

2019/09/28 Javascript

python3实现二叉树的遍历与递归算法解析(小结)

2019/07/03 Python

Python尾递归优化实现代码及原理详解

2020/10/09 Python

matplotlib绘制鼠标的十字光标的实现(自定义方式，官方实例)

2021/01/10 Python

CSS3实现10种Loading效果

2016/07/11 HTML / CSS

ProBikeKit英国：在线公路自行车之家

2017/02/10 全球购物

可口可乐唇膏：Lip Smackers

2019/08/27 全球购物

Berghaus官网：户外服装和设备，防水服

2020/01/17 全球购物

如何填写个人简历自我评价

2013/12/10 职场文书

学生会副主席竞聘书

2014/03/31 职场文书

卖车协议书

2014/04/21 职场文书

软件项目实施计划书

2014/05/02 职场文书

计算机专业自荐信

2014/05/24 职场文书

党性锻炼的心得体会

2014/09/03 职场文书

品质保证书格式

2015/02/28 职场文书

大学生心理健康活动总结

2015/05/08 职场文书

家长通知书家长意见

2015/06/03 职场文书

幼儿园秋季开学通知

2015/07/16 职场文书

小学运动会入场词

2015/07/18 职场文书

2017年大学生寒假社会实践活动总结

2016/04/06 职场文书