Python匹配中文的正则表达式


Posted in Python onMay 11, 2016

正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同;但不用担心,不被支持的语法通常是不常用的部分。

Python正则表达式简介

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。

Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。

re 模块使 Python 语言拥有全部的正则表达式功能。

compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。

re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数。

以上说的都是给正文做铺垫的,下面看下python正则表达式如何匹配中文的。

# -*- coding: utf-8 -*-
import re
def findPart(regex, text, name):
res=re.findall(regex, text)
if res:
print "There are %d %s parts:\n"% (len(res), name)
for r in res:
print "\t",r.encode("utf8")
print
text ="#who#helloworld#a中文x#"
usample=unicode(text,'utf8')
findPart(u"#[\w\u2E80-\u9FFF]+#", usample, "unicode chinese")

注:

几个主要非英文语系字符范围

2E80~33FFh:中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符,中日韩的符号、标点、带圈或带括符文数字、月份,以及日本的假名组合、单位、年号、月份、日期、时间等。

3400~4DFFh:中日韩认同表意文字扩充A区,总计收容6,582个中日韩汉字。

4E00~9FFFh:中日韩认同表意文字区,总计收容20,902个中日韩汉字。

A000~A4FFh:彝族文字区,收容中国南方彝族文字和字根。

AC00~D7FFh:韩文拼音组合字区,收容以韩文音符拼成的文字。

F900~FAFFh:中日韩兼容表意文字区,总计收容302个中日韩汉字。

FB00~FFFDh:文字表现形式区,收容组合拉丁文字、希伯来文、阿拉伯文、中日韩直式标点、小符号、半角符号、全角

(
#!/usr/bin/python3
# -*- coding: UTF-8 -*-
import re
message = u'天人合一'.encode('utf8')
print(re.search(u'人'.encode('utf8'), message).group())
交互模式下的例子
>>> import re
>>> s='Phone No. 010-87654321'
>>> 
>>> r=re.compile(r'(\d+)-(\d+)')
>>> m=r.search(s)
>>> m
<_sre.SRE_Match object at 0x010EE218>
)

以上所述是小编给大家介绍的Python正则表达式匹配中文的方法,希望对大家有所帮助!

Python 相关文章推荐
简单理解Python中基于生成器的状态机
Apr 13 Python
HTML中使用python屏蔽一些基本功能的方法
Jul 07 Python
python使用Tkinter实现在线音乐播放器
Jan 30 Python
python的staticmethod与classmethod实现实例代码
Feb 11 Python
解决Python一行输出不显示的问题
Dec 03 Python
利用python提取wav文件的mfcc方法
Jan 09 Python
Python注释、分支结构、循环结构、伪“选择结构”用法实例分析
Jan 09 Python
pytorch nn.Conv2d()中的padding以及输出大小方式
Jan 10 Python
Keras中 ImageDataGenerator函数的参数用法
Jul 03 Python
Python执行时间的几种计算方法
Jul 31 Python
Python实现DBSCAN聚类算法并样例测试
Jun 22 Python
python实现局部图像放大
Nov 17 Python
Python3使用requests发闪存的方法
May 11 #Python
Python3控制路由器——使用requests重启极路由.py
May 11 #Python
Python3使用requests登录人人影视网站的方法
May 11 #Python
在Django中进行用户注册和邮箱验证的方法
May 09 #Python
Python数据类型详解(三)元祖:tuple
May 08 #Python
Python数据类型详解(二)列表
May 08 #Python
Python数据类型详解(一)字符串
May 08 #Python
You might like
ADODB类使用
2006/11/25 PHP
php 分库分表hash算法
2009/11/12 PHP
开启CURL扩展,让服务器支持PHP curl函数(远程采集)
2011/03/19 PHP
php实现递归抓取网页类实例
2015/04/03 PHP
laravel 自定义常量的两种方案
2019/10/14 PHP
JQuery插件开发示例代码
2013/11/06 Javascript
JS根据浏览器窗口大小实时动态改变网页文字大小的方法
2016/02/25 Javascript
Bootstrap页面缩小变形的快速解决办法
2017/02/03 Javascript
Vue微信项目按需授权登录策略实践思路详解
2018/05/07 Javascript
JS 自执行函数原理及用法
2019/08/05 Javascript
浅谈laytpl 模板空值显示null的解决方法及简单的js表达式
2019/09/19 Javascript
JavaScript代码压缩工具UglifyJS和Google Closure Compiler的基本用法
2020/04/13 Javascript
python 如何快速找出两个电子表中数据的差异
2017/05/26 Python
python实现数据图表
2017/07/29 Python
对matplotlib改变colorbar位置和方向的方法详解
2018/12/13 Python
python实时获取外部程序输出结果的方法
2019/01/12 Python
解决在Python编辑器pycharm中程序run正常debug错误的问题
2019/01/17 Python
matlab 计算灰度图像的一阶矩,二阶矩,三阶矩实例
2020/04/22 Python
pyqt5 textEdit、lineEdit操作的示例代码
2020/08/12 Python
用python对excel进行操作(读,写,修改)
2020/12/25 Python
美国百货齐全的精品网站,提供美式风格的产品:Overstock.com
2016/07/22 全球购物
澳大利亚拥有最好的家具和家居用品在线目的地:Nestz
2019/02/23 全球购物
四川internet信息高速公路(C#)笔试题
2012/02/29 面试题
JSF的标签库有哪些
2012/04/27 面试题
博士研究生自我鉴定范文
2013/12/04 职场文书
房地产还款计划书
2014/01/10 职场文书
合作协议书
2014/04/23 职场文书
篮球比赛策划方案
2014/06/05 职场文书
端午节活动总结
2014/08/26 职场文书
授权委托书范本(单位)
2014/09/28 职场文书
2015年大学生工作总结
2015/04/21 职场文书
公司开业的祝贺语大全(60条)
2019/07/05 职场文书
解析:创业计划书和商业计划书二者之间到底有什么区别
2019/08/14 职场文书
详解非极大值抑制算法之Python实现
2021/06/28 Python
Vue自定义铃声提示音组件的实现
2022/01/22 Vue.js
Redis特殊数据类型bitmap位图
2022/06/01 Redis