编程 Python

详解Python在使用JSON时需要注意的编码问题

Posted in Python onDecember 06, 2019

写这篇文章的缘由是我使用 reqeusts 库请求接口的时候, 直接使用请求参数里的 json 字段发送数据, 但是服务器无法识别我发送的数据, 排查了好久才知道 requests 内部是使用 json.dumps 将字符串转成 json 的, 而 json.dumps 默认情况下会将非ASCII 字符转义, 也就是我发送数据中的中文被转义了, 所以服务器无法识别. 这篇文章虽然是 json.dumps 问题的总结, 但也会涉及到字符编码问题, 所以就简单先说一下字符编码.

Python 中的字符编码

在 Python3 中, 字符在内存中是使用 Unicode 存储的, 常规的字符使用两个字节表示, 一些很生僻的字符就需要四个字节. 默认使用 Unicode 存储是什么意思呢, 那就是例子来解释一下, 在 Python Shell 中输入以下字符串 '\u4e2d\u6587', 观察其输出:

In [51]: '\u4e2d\u6587'
Out[51]: '中文'

输出的为中文两个字. 其实 \u4e2d 和 \u6587 分别表示中和文的 Unicode 编码（术语称为码点）的十六进制表示, 在 Python3 中以 \u 开头的字符串被解析为 Unicode 字符, 然后通过其十六进制码点解析出具体的字符, 所以中文的内存表示即为 \u4e2d\u6587.

获取字符 Unicode 码点

标准库提供了 ord 函数输出一个字符的 Unicode 码点, 使用 chr 函数将码点转换成字符, 下面是示例:

In [54]: ord('中')
Out[54]: 20013

In [56]: chr(20013)
Out[56]: '中'

输出的码点是使用十进制表示的, 可以使用以下代码将整数格式化成十六进制字符串:

'{0:04x}'.format(20013)

使用 json.dumps

有了前面的铺垫, 就可以来说说 json.dumps 了. 下面以一个例子展开:

In [121]: json.dumps('中文', ensure_ascii=True)
Out[121]: '"\\u4e2d\\u6587"'

In [122]: json.dumps('中文', ensure_ascii=False)
Out[122]: '"中文"'

可以看到, 在 ensure_ascii 为 True 的情况下, 中文被编码成了 Unicode 码, 为 False 才能正常显示, 但是这跟 ASCII 有什么关系呢? 来看一下官方文档对这个参数的解释:

如果 ensure_ascii 是 true （即默认值），输出保证将所有输入的非 ASCII 字符转义。如果 ensure_ascii 是 false，这些字符会原样输出。

现在稍微明白了, 在 ensure_ascii 为 True 的情况下, 如果字符串中存在非ASCII 字符就将其转义, 根据结果可以知道这个字符被转义为 Unicode 码并格式化成了一个字符串, 注意 "\\u4e2d\\u6587" 与 "\u4e2d\\u6587" 是不同的, 前者是长度为 12 的字符串, 后者会被 Python 直接解析为中文, 长度为 2. 这也就是我一开始出现的问题, 直接将转义的字符串在网络上传输可能会无法被识别. 比如中文被转义成 \\u4e2d\\u6587, 而服务器如果不知道它是被转义过的字符串, 那它就是一个长度为 12 的普通字符串, 肯定会识别出错. 而将 ensure_ascii 设为 False 就不会进行转义, 使用原始字符.

识别转义字符

如果服务器收到数据后发现是被转化过的, 那怎么识别呢? 其实被转义字符串与使用 unicode_escape 对字符串进行编码再使用 utf-8 进行解码的结果一致, 代码如下:

In [129]: msg
Out[129]: '中文'

In [130]: msg.encode('unicode_escape').decode('utf-8')
Out[130]: '\\u4e2d\\u6587'

所以识别只要反过来使用 utf-8 编码再使用 unicode_escape 解码就可以了.

转义是如何进行的

现在来看一下 json 到底是怎么对字符进行转义的. 在 json.dumps 源码中仔细调试的话会发现, 它调用的是 JSONEncoder.encode 方法, 而 encode 中的代码片段如下:

if self.ensure_ascii:
  return encode_basestring_ascii(o)
else:
  return encode_basestring(o)

它会根据 ensure_ascii 的值选择调用函数. 而 encode_basestring_ascii 的值是 (c_encode_basestring_ascii or py_encode_basestring_ascii), 也就是默认是用 C 实现的版本, 其次使用 Python 实现的版本, 既然有 Python 版本, 当然要看一下是怎么实现的, py_encode_basestring_ascii 可以直接使用 from json.encoder import py_encode_basestring_ascii 导入, 直接在其内部就可以调试. 下面是其源码:

def py_encode_basestring_ascii(s):
  """Return an ASCII-only JSON representation of a Python string

  """
  def replace(match):
    s = match.group(0)
    try:
      return ESCAPE_DCT[s]
    except KeyError:
      n = ord(s)
      if n < 0x10000:
        return '\\u{0:04x}'.format(n)
        #return '\\u%04x' % (n,)
      else:
        # surrogate pair
        n -= 0x10000
        s1 = 0xd800 | ((n >> 10) & 0x3ff)
        s2 = 0xdc00 | (n & 0x3ff)
        return '\\u{0:04x}\\u{1:04x}'.format(s1, s2)
  return '"' + ESCAPE_ASCII.sub(replace, s) + '"'

从最后的 return 可以看到它实际上是正则替换最后在前后添加双引号. ESCAPE_ASCII 的定义如下:

ESCAPE_ASCII = re.compile(r'([\\"]|[^\ -~])')

其中 ([\\"] 用于匹配 \\ 和 ", 而 [^\ -~] 表示 \ -~ 取反（这里的反斜杠貌似是对空格进行转义, 我不是很理解, 不进行转义依旧可以匹配到）, 在 ASCII 表里, 空格字符对应十进制是 40, ~ 是 176, 这是所有的可打印字符, 取反就是所有编码不在 40 ~ 176 的字符, 所以中文就会被匹配到, 下面为 ASCII表:

详解Python在使用JSON时需要注意的编码问题

对于匹配到的字符, 会传入回调函数 replace 做转义. replace 函数中的 ESCAPE_DCT 为:

ESCAPE_DCT = {
  '\\': '\\\\',
  '"': '\\"',
  '\b': '\\b',
  '\f': '\\f',
  '\n': '\\n',
  '\r': '\\r',
  '\t': '\\t',
}

会对常用字符进行转义, 如果失败就获取它的 Unicode 码点, 然后判断是否为小于 0x10000 即是否为两字节字符（两字节最大为0xFFFF） , 如果是就格式化为 Unicode 码, 如果不是就使用四字节表示.

总结

记得使用 requests 发送 JSON 数据时将中文编码.

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

详解Python在使用JSON时需要注意的编码问题

- Author -

Abyssknight

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python多进程同步Lock、Semaphore、Event实例

Nov 21 Python

Python+Opencv识别两张相似图片

Mar 23 Python

Java编程迭代地删除文件夹及其下的所有文件实例

Feb 10 Python

Python中format()格式输出全解

Apr 12 Python

python实现名片管理系统项目

Apr 26 Python

python3.5安装python3-tk详解

Apr 26 Python

使用python写的opencv实时监测和解析二维码和条形码

Aug 14 Python

pytorch 加载(.pth)格式的模型实例

Aug 20 Python

Python如何把多个PDF文件合并代码实例

Feb 13 Python

Python实例方法、类方法、静态方法区别详解

Sep 05 Python

Python实现迪杰斯特拉算法过程解析

Sep 18 Python

python基础之类方法和静态方法

Oct 24 Python

用python求一重积分和二重积分的例子

Dec 06 #Python

解决Numpy中sum函数求和结果维度的问题

Dec 06 #Python

numpy按列连接两个维数不同的数组方式

Dec 06 #Python

使用Python实现分别输出每个数组

Dec 06 #Python

Python 获取numpy.array索引值的实例

Dec 06 #Python

python的json中方法及jsonpath模块用法分析

Dec 06 #Python

python输出数组中指定元素的所有索引示例

Dec 06 #Python

You might like

PHPWind与Discuz截取字符函数substrs与cutstr性能比较

2011/12/05 PHP

php中Array2xml类实现数组转化成XML实例

2014/12/08 PHP

discuz图片顺序混乱解决方案

2015/07/29 PHP

PHP中的数组处理函数实例总结

2016/01/09 PHP

PHP 7.0新增加的特性介绍

2017/06/08 PHP

php中用unset销毁变量并释放内存

2020/05/10 PHP

一段利用WSH修改和查看IP配置的代码

2008/05/11 Javascript

jquery.jstree 增加节点的双击事件代码

2010/07/27 Javascript

一个页面放2段图片滚动代码出现冲突的问题如何解决

2012/12/21 Javascript

Jquery树插件zTree用法入门教程

2015/02/17 Javascript

JQuery判断checkbox是否选中及其它复选框操作方法合集

2015/06/01 Javascript

JQuery中DOM事件合成用法实例分析

2015/06/13 Javascript

基于JavaScript创建动态Dom

2015/12/08 Javascript

AngularJS 执行流程详细介绍

2016/08/18 Javascript

详解基于webpack搭建react运行环境

2017/06/01 Javascript

VueJs组件prop验证简单介绍

2017/09/12 Javascript

关于预加载InstantClick的问题解决方法

2017/09/12 Javascript

浅谈vue的几种绑定变量的值防止其改变的方法

2018/03/01 Javascript

jQuery阻止事件冒泡实例分析

2018/07/03 jQuery

vue2实现搜索结果中的搜索关键字高亮的代码

2018/08/29 Javascript

微信小程序非swiper组件实现的自定义伪3D轮播图效果示例

2018/12/11 Javascript

如何利用node.js开发一个生成逐帧动画的小工具

2019/12/01 Javascript

实例解析Python的Twisted框架中Deferred对象的用法

2016/05/25 Python

python中单例常用的几种实现方法总结

2018/10/13 Python

树莓派用python中的OpenCV输出USB摄像头画面

2019/06/22 Python

Django实现CAS+OAuth2的方法示例

2019/10/30 Python

tensorflow使用CNN分析mnist手写体数字数据集

2020/06/17 Python

python使用ctypes库调用DLL动态链接库

2020/10/22 Python

python常量折叠基础知识点讲解

2021/02/28 Python

Etam德国：内衣精品店

2019/08/25 全球购物

教师申诉制度

2014/01/29 职场文书

初中三好学生自我鉴定

2014/04/07 职场文书

我的梦想演讲稿500字

2014/08/21 职场文书

管理人员岗位职责

2015/02/14 职场文书

公司更名通知函

2015/04/24 职场文书

Python+Tkinter制作专属图形化界面

2022/04/01 Python