浅谈python下含中文字符串正则表达式的编码问题


Posted in Python onDecember 07, 2018

前言

Python文件默认的编码格式是ascii ,无法识别汉字,因为ascii码中没有中文。

所以py文件中要写中文字符时,一般在开头加 # -*- coding: utf-8 -*- 或者 #coding=utf-8。

这是指定一种编码格式,意味着用该编码存储中文字符(也可以是gbk、gb2312等)。

关于测试的几点注意 --------------------------------------------

注1:代码中有中文,就要在头部指定编码方式,如果用编辑器写代码,还要注意IDE的文件存储编码格式(一般在setting)

注2:python3.x的源码文件默认使用utf-8编码,可以解析中文,开头不指定也行,但为了规范和避免一些意想不到的问题,都指定一下为好

注3:linux交互式命令(左)和py文件(右)的运行结果会有不同:

浅谈python下含中文字符串正则表达式的编码问题

左图,因为我cmd设置了gbk编码格式,所以u是s用gbk解码后的unicode对象,配套的解编码才能使原中文字符在print下正常显示,所以再用gbk编码;右图,py文件指定了utf8编码,所以u是s用utf8解码后的unicode对象(其他方式会运行错误),而且想要在屏幕上打印出中文,还须encode成cmd设置的编码(其他方式显示乱码)。

注4:测试中文字符的显示和匹配时,最好用py文件写,否则遇到两边不一样的情况就会感到十分坑爹

----------------------------------------------------------------

下面实验是基于python2.7和linux系统,不测试windows控制台和windows下的IDE;

下面实验是关于为了正常显示中文和正则匹配中文的转码测试。

(一)python的str和中文字符串

简单理解,编码意味着 unicode -> ch-str,解码意味着 ch-str -> unicode,

关于print显示中文。举个例子,用gb18030和utf-8编码的内容相同的两份文档测试:

#coding=utf-8
import sys
with open('ch_input_gbk', 'r') as f1, open('ch_input_utf', 'r') as f2:
 for l1 in f1:
 lines = l1.strip().split('\t') # lines是list, 通过打印它可以看看str不同编码的内容
 sent = lines[0]   # sent是ch-str
 print lines, sent
 for l2 in f2:
 lines = l2.strip().split('\t')
 sent = lines[0]
 print lines, sent
 print sent.decode('utf8').encode('gbk')
 #print str(sent).decode('string_escape').decode('utf8').encode('gbk')

输出:

['\xd3\xc4\xc8\xcb\xd6\xf1\xc9\xa3\xd4\xb0'] 幽人竹桑园
['\xb9\xe9\xce\xd4\xbc\xc5\xce\xde\xd0\xfa'] 归卧寂无喧
['\xce\xef\xc7\xe9\xbd\xf1\xd2\xd1\xbc\xfb'] 物情今已见
['\xb4\xd3\xb4\xcb\xd3\xfb\xce\xde\xd1\xd4'] 从此欲无言
['\xe5\xb9\xbd\xe4\xba\xba\xe7\xab\xb9\xe6\xa1\x91\xe5\x9b\xad'] 骞戒汉绔规??
幽人竹桑园
['\xe5\xbd\x92\xe5\x8d\xa7\xe5\xaf\x82\xe6\x97\xa0\xe5\x96\xa7'] 褰??у????
归卧寂无喧
['\xe7\x89\xa9\xe6\x83\x85\xe4\xbb\x8a\xe5\xb7\xb2\xe8\xa7\x81'] ?╂??浠?宸茶
物情今已见
['\xe4\xbb\x8e\xe6\xad\xa4\xe6\xac\xb2\xe6\x97\xa0\xe8\xa8\x80'] 浠?姝ゆ???瑷
从此欲无言

line7,f1的sent正常显示是因为,txt是gb18030编码,读入后仍为此(这与首行的#coding可不一样),我的cmd同样也是gb18030

line11,f2的sent乱码显示是因为,txt是utf8编码,读入后仍为此,但是print对str是按cmd设置的编码格式解读的

line12,sent又能正常显示是因为,utf8解码 -> unicode -> 编码为gb18030,所以print可以正常解读了

line13,有时读入或抓取的中文不是\xd3\xc4而是这个样子的\\xd3\\xc4,这是\被转义了,对它无法做decode转换编码,先用str(sent).decode('string_escape'),把反斜杠的转义去掉,然后就和第12行一样了

附,12行如果直接写 sent.encode('gbk') 会报错:

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 0

是说,当前位置这个str不能被py默认的ascii解码,因为它是中文str;要用它的实际编码来解码而不是ascii:

1 修改py默认编码,由ascii改为当前str实际编码(utf8或gb18030等)

reload(sys) 
sys.setdefaultencoding('utf8')

2 但是读入多个文档含有多个编码方式时,1的方法就不方便,还是对不同的ch-str都采用unicode转换编码较好 (上面例子中的方式)

(二)中文字符串的正则匹配

只有一项标准,匹配字符串和原字符串编码统一,

还是举例子,

# -*- coding: utf-8 -*- 
import re 
def findPart(regex, text, name): 
 res = re.findall(regex, text) 
 print "There are %d %s parts:" % (len(res), name) 
 for r in res: 
 print r.encode('gbk')
 
sample = '''en: Regular expression is a powerful tool for manipulating text. 
  zh: 正则表达式是一种很有用的处理文本的工具。 
  jp: 正?表?は非常に役に立つツ?ルテキストを操作することです。 
  jp-char: あアいイうウえエおオ 
  kr:정규 표현식은 매우 유용한 도구 텍스트를 조작하는 것입니다. 
  puc: ,。?!:,.?!:《》%&*#<>%&*#
  ''' 
#convert the utf8 to unicode 
usample = unicode(sample,'utf8') #相当于usample = sample.decode('utf8')
 
#get each language parts: 
findPart(u"[\u4e00-\u9fa5]+", usample, "unicode chinese") 
findPart(u"[\uac00-\ud7ff]+", usample, "unicode korean") 
findPart(u"[\u30a0-\u30ff]+", usample, "unicode japanese katakana") 
findPart(u"[\u3040-\u309f]+", usample, "unicode japanese hiragana") 
findPart(u"[\u3000-\u303f\ufb00-\ufffd]+", usample, "unicode cjk Punctuation")

line20,目标字符串usample是unicode类型,故匹配字符串regex也要同(如u"[\u4e00-\u9fa5]+"),u就是转成unicode;

line7,usample是unicode,要想print正确显示,则需要r.encode('gbk'),根据cmd的编码格式;

正则匹配规则不多述,[\u????-\u????] 是不同语言的unicode编码段,该例输出是,

中文6个part:正则表达式是一种很有用的处理文本的工具、正?表?、非常、役、立、操作

韩文8个part:정규、표현식은、매우、유용한、도구、텍스트를、조작하는、것입니다

日文片假名6个part:ツ?ルテキスト、ア、イ、ウ、エ、オ

日文平假名11个part:は、に、に、つ、を、することです、あ、い、う、え、お

非英文标点4个part:。、。、,。?!:、《》%&*#

另外,简单的正则匹配,举几个例子,

s1 = '天天天向上天天向上' 
print (re.sub(ur'[\u4e00-\u9fa5]{1,}', u'1', s1.decode('utf8'))).encode('gbk') # 1
print (re.sub(ur'([\u4e00-\u9fa5])\1{1,}', u'1', s1.decode('utf8'))).encode('gbk') # 1向上1向上
print (re.sub(ur'([\u4e00-\u9fa5])\1{2,}', u'1', s1.decode('utf8'))).encode('gbk') # 1向上天天向上
s2 = '【aa】天天bb@cc'
print (re.sub(ur'【.*】', u'1', s2.decode('utf8'))).encode('gbk')   # 1天天bb@cc
print (re.sub(ur'@', u'1', s2.decode('utf8'))).encode('gbk')   # 【aa】天天bb1cc

line2,{1,}匹配1~n个前面表达式,故6个汉字全部匹配

line3,()内为一个group,\1指第一个group,{1,}要再匹配1~n个前面group内容(若group内是1个字, {1,}要匹配第2个及往后的字),故匹配了3个天和2个天

line6和7,中英文标点符号匹配,regex没有转义符的话可以不写r,若text全是英文也可以不写u

以上这篇浅谈python下含中文字符串正则表达式的编码问题就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python获取当前日期和时间的方法
Apr 30 Python
Python字符串格式化的方法(两种)
Sep 19 Python
python实现反转部分单向链表
Sep 27 Python
Python socket实现多对多全双工通信的方法
Feb 13 Python
python卸载后再次安装遇到的问题解决
Jul 10 Python
tensorflow入门:tfrecord 和tf.data.TFRecordDataset的使用
Jan 20 Python
使用Django和Postgres进行全文搜索的实例代码
Feb 13 Python
python如何写出表白程序
Jun 01 Python
Python根据指定文件生成XML的方法
Jun 29 Python
python开发入门——set的使用
Sep 03 Python
Python一些基本的图像操作和处理总结
Jun 23 Python
利用 Python 的 Pandas和 NumPy 库来清理数据
Apr 13 Python
python 实现调用子文件下的模块方法
Dec 07 #Python
使用Python开发SQLite代理服务器的方法
Dec 07 #Python
解决python 未发现数据源名称并且未指定默认驱动程序的问题
Dec 07 #Python
Python中collections模块的基本使用教程
Dec 07 #Python
对python 操作solr索引数据的实例详解
Dec 07 #Python
python用post访问restful服务接口的方法
Dec 07 #Python
python3 实现验证码图片切割的方法
Dec 07 #Python
You might like
使用sockets:从新闻组中获取文章(二)
2006/10/09 PHP
php输出金字塔的2种实现方法
2014/12/16 PHP
PHPExcel实现表格导出功能示例【带有多个工作sheet】
2018/06/13 PHP
laravel dingo API返回自定义错误信息的实例
2019/09/29 PHP
Cookie 注入是怎样产生的
2009/04/08 Javascript
jquery 回车事件实现代码
2011/08/23 Javascript
从零学JSON之JSON数据结构
2014/05/19 Javascript
jQuery学习笔记之 Ajax操作篇(一) - 数据加载
2014/06/23 Javascript
js判断变量初始化的三种形式及推荐用的形式
2014/07/22 Javascript
JS获取iframe中marginHeight和marginWidth属性的方法
2015/04/01 Javascript
Nodejs Stream 数据流使用手册
2016/04/17 NodeJs
jQuery数据检索中根据关键字快速定位GridView指定行的实现方法
2016/06/08 Javascript
jQuery实现磁力图片跟随效果完整示例
2016/09/16 Javascript
详解AngularJs ui-router 路由的简单介绍
2017/04/26 Javascript
Mongoose实现虚拟字段查询的方法详解
2017/08/15 Javascript
详解微信小程序Page中data数据操作和函数调用
2017/09/27 Javascript
JavaScript轮播停留效果的实现思路
2018/05/24 Javascript
详解nodejs http请求相关总结
2019/03/31 NodeJs
详解在HTTPS 项目中使用百度地图 API
2019/04/26 Javascript
vue+element搭建后台小总结 el-dropdown下拉功能
2020/04/10 Javascript
详解Python的Flask框架中的signals信号机制
2016/06/13 Python
Python加密方法小结【md5,base64,sha1】
2017/07/13 Python
python模块smtplib实现纯文本邮件发送功能
2018/05/22 Python
Python理解递归的方法总结
2019/01/28 Python
Ubuntu中配置TensorFlow使用环境的方法
2020/04/21 Python
python自动从arxiv下载paper的示例代码
2020/12/05 Python
基于PyInstaller各参数的含义说明
2021/03/04 Python
Kipling澳洲官网:购买凯浦林包包
2020/12/17 全球购物
家长对孩子评语
2014/01/30 职场文书
党员创先争优承诺书
2014/03/26 职场文书
表扬稿范文
2015/01/17 职场文书
社区文明创建工作总结2015
2015/04/21 职场文书
因公司原因离职的辞职信范文
2015/05/12 职场文书
优秀班干部主要事迹材料
2015/11/04 职场文书
个人工作总结怎么写?
2019/04/09 职场文书
财务会计个人原因辞职信
2019/06/21 职场文书