Python正则表达式匹配中文用法示例


Posted in Python onJanuary 17, 2017

本文实例讲述了Python正则表达式匹配中文用法。分享给大家供大家参考,具体如下:

#!/usr/bin/python
#-*- coding:cp936-*-#思路,将str转换成unicode,方可用正则表达式,前提是,要知道文件的编码,本例中是gbk
import cPickle as mypickle
import re
import sys
if (__name__=='__main__'):
  fid1=file('demo.txt','r');#demo.txt写入字符如:三水点靠木
  p=re.compile('(^\s+|\s+$)');
  phanzigbk=re.compile('[\\x20-\\x7f]');
  phanzi=re.compile(u'[\u4e00-\u9fa5]');#这里要加u,注意
  commlines=fid1.readlines();
  fid1.close();
  dictfamilyname={};
  dictfirstname={};
  for line in commlines:
    line=p.sub('',line);
    print type(line);
    print line;
    uline=unicode(line,'gbk');
    print type(uline);
    candidates=phanzi.findall(uline);
    print len(candidates);
    if(len(candidates)==2):
      print candidates[0];
      familynamegbk=candidates[0].encode('gbk');#把unicode型的变量变成str型的变量
      firstnamegbk=candidates[1].encode('gbk');
      if(dictfamilyname.has_key(familynamegbk)):
        dictfamilyname[familynamegbk]=dictfamilyname[familynamegbk]+1;
      else:
        dictfamilyname[familynamegbk]=1;
      if(dictfirstname.has_key(firstnamegbk)):
        dictfirstname[firstnamegbk]=dictfirstname[firstnamegbk]+1;
      else:
        dictfirstname[firstnamegbk]=1;
  familynameitems=dictfamilyname.items();
  print familynameitems;
  firstnameitems=dictfirstname.items();
  familynameitems.sort(key=lambda d:d[1],reverse=True);
  firstnameitems.sort(key=lambda d :d[1],reverse=True);
  fid=file('familyname.txt','w');
  for m in familynameitems:
    s=m[0]+'\t'+str(m[1]);
    fid.write(s);
    fid.write('\n');
  fid.close();
  fid=file('firstname.txt','w');
  for m in firstnameitems:
    s=m[0]+'\t'+str(m[1]);
    fid.write(s);
    fid.write('\n');
  fid.close();
  print 'finish'

运行效果图如下:

Python正则表达式匹配中文用法示例

Python 相关文章推荐
Flask SQLAlchemy一对一,一对多的使用方法实践
Feb 10 Python
Python基于动态规划算法计算单词距离
Jul 25 Python
django轻松使用富文本编辑器CKEditor的方法
Mar 30 Python
Python爬虫通过替换http request header来欺骗浏览器实现登录功能
Jan 07 Python
一个可以套路别人的python小程序实例代码
Apr 09 Python
python实现二分类的卡方分箱示例
Nov 22 Python
python3检查字典传入函数键是否齐全的实例
Jun 05 Python
浅谈sklearn中predict与predict_proba区别
Jun 28 Python
Python3.9.1中使用match方法详解
Feb 08 Python
正确的理解和使用Django信号(Signals)
Apr 14 Python
Python入门之基础语法详解
May 11 Python
python通过opencv调用摄像头操作实例分析
Jun 07 Python
python下如何查询CS反恐精英的服务器信息
Jan 17 #Python
python基础教程之匿名函数lambda
Jan 17 #Python
python基础教程之Filter使用方法
Jan 17 #Python
python正则分析nginx的访问日志
Jan 17 #Python
你应该知道的python列表去重方法
Jan 17 #Python
Python实现FTP上传文件或文件夹实例(递归)
Jan 16 #Python
Python Socket传输文件示例
Jan 16 #Python
You might like
PHP实现文件下载断点续传详解
2014/10/15 PHP
PHP实现的线索二叉树及二叉树遍历方法详解
2016/04/25 PHP
JavaScript Event学习第三章 早期的事件处理程序
2010/02/07 Javascript
js 数组克隆方法 小结
2010/03/20 Javascript
js判断选择的时间是否大于今天的代码
2013/08/20 Javascript
JavaScript的strict模式与with关键字介绍
2014/02/08 Javascript
AngularJS中的过滤器使用详解
2015/06/16 Javascript
jquery实现适用于门户站的导航下拉菜单效果代码
2015/08/24 Javascript
JS简单模拟触发按钮点击功能的方法
2015/11/30 Javascript
jquery插件ajaxupload实现文件上传操作
2015/12/09 Javascript
微信小程序实现登录页云层漂浮的动画效果
2017/05/05 Javascript
Jquery中attr与prop的区别详解
2017/05/27 jQuery
JavaScript箭头(arrow)函数详解
2017/06/04 Javascript
vue中使用gojs/jointjs的示例代码
2018/08/24 Javascript
Vue.js 中的 v-model 指令及绑定表单元素的方法
2018/12/03 Javascript
CountUp.js实现数字滚动增值效果
2019/10/17 Javascript
JavaScript canvas实现文字时钟
2021/01/10 Javascript
[48:31]DOTA2-DPC中国联赛 正赛 Dynasty vs XG BO3 第一场 2月2日
2021/03/11 DOTA
Python version 2.7 required, which was not found in the registry
2014/08/26 Python
让 python 命令行也可以自动补全
2014/11/30 Python
python字典键值对的添加和遍历方法
2016/09/11 Python
python中Matplotlib实现绘制3D图的示例代码
2017/09/04 Python
Request的中断和ErrorHandler实例解析
2018/02/12 Python
Python实现按中文排序的方法示例
2018/04/25 Python
Python+Redis实现布隆过滤器
2019/12/08 Python
flask利用flask-wtf验证上传的文件的方法
2020/01/17 Python
Python Selenium参数配置方法解析
2020/01/19 Python
公司活动邀请函
2014/01/24 职场文书
2014年学生会生活部工作总结
2014/11/07 职场文书
中国世界遗产导游词
2015/02/13 职场文书
培训班通知
2015/04/25 职场文书
2016年全国爱眼日宣传教育活动总结
2016/04/05 职场文书
2019年度开业庆典祝福语大全!
2019/07/05 职场文书
HTML+css盒子模型案例(圆,半圆等)“border-radius” 简单易上手
2021/05/10 HTML / CSS
在HTML中引入CSS的几种方式介绍
2021/12/06 HTML / CSS
Python的三个重要函数详解
2022/01/18 Python