Python匹配中文的正则表达式


Posted in Python onMay 11, 2016

正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同;但不用担心,不被支持的语法通常是不常用的部分。

Python正则表达式简介

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。

Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。

re 模块使 Python 语言拥有全部的正则表达式功能。

compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。

re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数。

以上说的都是给正文做铺垫的,下面看下python正则表达式如何匹配中文的。

# -*- coding: utf-8 -*-
import re
def findPart(regex, text, name):
res=re.findall(regex, text)
if res:
print "There are %d %s parts:\n"% (len(res), name)
for r in res:
print "\t",r.encode("utf8")
print
text ="#who#helloworld#a中文x#"
usample=unicode(text,'utf8')
findPart(u"#[\w\u2E80-\u9FFF]+#", usample, "unicode chinese")

注:

几个主要非英文语系字符范围

2E80~33FFh:中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符,中日韩的符号、标点、带圈或带括符文数字、月份,以及日本的假名组合、单位、年号、月份、日期、时间等。

3400~4DFFh:中日韩认同表意文字扩充A区,总计收容6,582个中日韩汉字。

4E00~9FFFh:中日韩认同表意文字区,总计收容20,902个中日韩汉字。

A000~A4FFh:彝族文字区,收容中国南方彝族文字和字根。

AC00~D7FFh:韩文拼音组合字区,收容以韩文音符拼成的文字。

F900~FAFFh:中日韩兼容表意文字区,总计收容302个中日韩汉字。

FB00~FFFDh:文字表现形式区,收容组合拉丁文字、希伯来文、阿拉伯文、中日韩直式标点、小符号、半角符号、全角

(
#!/usr/bin/python3
# -*- coding: UTF-8 -*-
import re
message = u'天人合一'.encode('utf8')
print(re.search(u'人'.encode('utf8'), message).group())
交互模式下的例子
>>> import re
>>> s='Phone No. 010-87654321'
>>> 
>>> r=re.compile(r'(\d+)-(\d+)')
>>> m=r.search(s)
>>> m
<_sre.SRE_Match object at 0x010EE218>
)

以上所述是小编给大家介绍的Python正则表达式匹配中文的方法,希望对大家有所帮助!

Python 相关文章推荐
python生成指定尺寸缩略图的示例
May 07 Python
探索Python3.4中新引入的asyncio模块
Apr 08 Python
解决Python字典写入文件出行首行有空格的问题
Sep 27 Python
Python3结合Dlib实现人脸识别和剪切
Jan 24 Python
Python图像处理之简单画板实现方法示例
Aug 30 Python
对python数据切割归并算法的实例讲解
Dec 12 Python
Python神奇的内置函数locals的实例讲解
Feb 22 Python
django模板加载静态文件的方法步骤
Mar 01 Python
PyQt5重写QComboBox的鼠标点击事件方法
Jun 25 Python
对pytorch中的梯度更新方法详解
Aug 20 Python
python实现简单日志记录库glog的使用
Dec 13 Python
超全Python图像处理讲解(多模块实现)
Apr 13 Python
Python3使用requests发闪存的方法
May 11 #Python
Python3控制路由器——使用requests重启极路由.py
May 11 #Python
Python3使用requests登录人人影视网站的方法
May 11 #Python
在Django中进行用户注册和邮箱验证的方法
May 09 #Python
Python数据类型详解(三)元祖:tuple
May 08 #Python
Python数据类型详解(二)列表
May 08 #Python
Python数据类型详解(一)字符串
May 08 #Python
You might like
全国FM电台频率大全 - 20 广西省
2020/03/11 无线电
php file_get_contents函数轻松采集html数据
2010/04/22 PHP
PHP判断搜索引擎蜘蛛并自动记忆到文件的代码
2012/02/04 PHP
php封装的表单验证类完整实例
2016/10/19 PHP
javascript YUI 读码日记之 YAHOO.util.Dom - Part.4
2008/03/22 Javascript
jQuery代码优化之基本事件
2011/11/01 Javascript
javascript简单实现滑动菜单效果的方法
2015/07/27 Javascript
JS实现超精简的链接列表在固定区域内滚动效果代码
2015/11/04 Javascript
JS中的forEach、$.each、map方法推荐
2016/04/05 Javascript
使用JavaScript实现ajax的实例代码
2016/05/11 Javascript
javascript 小数乘法结果错误的处理方法
2016/07/28 Javascript
BootStrap中Table隐藏后显示问题的实现代码
2017/08/31 Javascript
微信小程序wx.getImageInfo()如何获取图片信息
2018/01/26 Javascript
基于Vue+element-ui 的Table二次封装的实现
2018/07/20 Javascript
vue中设置height:100%无效的问题及解决方法
2018/07/27 Javascript
JS双向链表实现与使用方法示例(增加一个previous属性实现)
2019/01/31 Javascript
vue 集成 vis-network 实现网络拓扑图的方法
2019/08/07 Javascript
layui table表格数据的新增,修改,删除,查询,双击获取行数据方式
2019/11/14 Javascript
js实现百度登录窗口拖拽效果
2020/03/19 Javascript
Echarts在Taro微信小程序开发中的踩坑记录
2020/11/09 Javascript
python实现根据图标提取分类应用程序实例
2014/09/28 Python
NumPy 数组使用大全
2019/04/25 Python
python实现五子棋游戏
2019/06/18 Python
python、Matlab求定积分的实现
2019/11/20 Python
python3正则模块re的使用方法详解
2020/02/11 Python
Python tkinter之Bind(绑定事件)的使用示例
2021/02/05 Python
非常漂亮的CSS3百叶窗焦点图动画
2016/02/24 HTML / CSS
Debenhams百货英国官方网站:Debenhams UK
2016/07/12 全球购物
亚马逊墨西哥站:Amazon.com.mx
2018/08/26 全球购物
高校学生干部的自我评价分享
2013/11/04 职场文书
中学生纪念九一八事变演讲稿
2014/09/14 职场文书
学校师德师风整改措施
2014/10/27 职场文书
2014最新股权信托合同协议书
2014/11/18 职场文书
大学军训通讯稿
2015/07/18 职场文书
2015年公司国庆放假通知
2015/07/30 职场文书
python自动化调用百度api解决验证码
2021/04/13 Python