在python中使用正则表达式查找可嵌套字符串组


Posted in Python onOctober 24, 2017

在网上看到一个小需求,需要用正则表达式来处理。原需求如下:

找出文本中包含”因为……所以”的句子,并以两个词为中心对齐输出前后3个字,中间全输出,如果“因为”和“所以”中间还存在“因为”“所以”,也要找出来,另算一行,输出格式为:

行号 前面3个字 *因为* 全部 &所以& 后面3个字(标点符号算一个字)

2 还不是 *因为* 这里好, &所以& 没有人

实现方法如下:

#encoding:utf-8
import os
import re
def getPairStriList(filename):
  pairStrList = []
  textFile = open(filename, 'r')
  pattern = re.compile(u'.{3}\u56e0\u4e3a.*\u6240\u4ee5.{3}') #u'\u56e0\u4e3a和u'\u6240\u4ee5'分别为“因为”和“所以”的utf8码
  for line in textFile:
    utfLine = line.decode('utf8')
    result = pattern.search(utfLine)
    while result:
      resultStr = result.group()
      pairStrList.append(resultStr)
      result = pattern.search(resultStr,2,len(resultStr)-2)
  #对每个字符串进行格式转换和拼接  
  for i in range(len(pairStrList)):
    pairStrList[i] = pairStrList[i][:3] + pairStrList[i][3:5].replace(u'\u56e0\u4e3a',u' *\u56e0\u4e3a* ',1) + pairStrList[i][5:]
    pairStrList[i] = pairStrList[i][:len(pairStrList[i])-5] + pairStrList[i][len(pairStrList[i])-5:].replace(u'\u6240\u4ee5',u' &\u6240\u4ee5& ',1)
    pairStrList[i] = str(i+1) + ' ' + pairStrList[i]
  return pairStrList
  if __name__ == '__main__':
  pairStrList = getPairStriList('test.txt')
  for str in pairStrList:
    print str

PS:下面看下python里使用正则表达式的组嵌套

由于组本身是一个完整的正则表达式,所以可以将组嵌套在其他组中,以构建更复杂的表达式。下面的例子,就是进行组嵌套的例子:

#python 3.6 
#蔡军生  
#http://blog.csdn.net/caimouse/article/details/51749579 
# 
import re 
def test_patterns(text, patterns): 
  """Given source text and a list of patterns, look for 
  matches for each pattern within the text and print 
  them to stdout. 
  """ 
  # Look for each pattern in the text and print the results 
  for pattern, desc in patterns: 
    print('{!r} ({})\n'.format(pattern, desc)) 
    print(' {!r}'.format(text)) 
    for match in re.finditer(pattern, text): 
      s = match.start() 
      e = match.end() 
      prefix = ' ' * (s) 
      print( 
        ' {}{!r}{} '.format(prefix, 
                   text[s:e], 
                   ' ' * (len(text) - e)), 
        end=' ', 
      ) 
      print(match.groups()) 
      if match.groupdict(): 
        print('{}{}'.format( 
          ' ' * (len(text) - s), 
          match.groupdict()), 
        ) 
    print() 
  return

例子:

#python 3.6 
#蔡军生  
#http://blog.csdn.net/caimouse/article/details/51749579 
# 
from re_test_patterns_groups import test_patterns 
test_patterns( 
  'abbaabbba', 
  [(r'a((a*)(b*))', 'a followed by 0-n a and 0-n b')], 
)

结果输出如下:

'a((a*)(b*))' (a followed by 0-n a and 0-n b)
 'abbaabbba'
 'abb'    ('bb', '', 'bb')
   'aabbb'  ('abbb', 'a', 'bbb')
     'a' ('', '', '')

总结

以上所述是小编给大家介绍的在python中使用正则表达式查找可嵌套字符串组,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
Python多线程同步Lock、RLock、Semaphore、Event实例
Nov 21 Python
pymongo实现多结果进行多列排序的方法
May 16 Python
基于Python实现通过微信搜索功能查看谁把你删除了
Jan 27 Python
wxpython中自定义事件的实现与使用方法分析
Jul 21 Python
kaggle+mnist实现手写字体识别
Jul 26 Python
python 用所有标点符号分隔句子的示例
Jul 15 Python
浅析Python 引号、注释、字符串
Jul 25 Python
python用requests实现http请求代码实例
Oct 31 Python
Python的Django框架实现数据库查询(不返回QuerySet的方法)
May 19 Python
pytorch 查看cuda 版本方式
Jun 23 Python
PyCharm 解决找不到新打开项目的窗口问题
Jan 15 Python
python+selenium爬取微博热搜存入Mysql的实现方法
Jan 27 Python
python爬虫之BeautifulSoup 使用select方法详解
Oct 23 #Python
浅谈python中copy和deepcopy中的区别
Oct 23 #Python
python的构建工具setup.py的方法使用示例
Oct 23 #Python
python使用pyqt写带界面工具的示例代码
Oct 23 #Python
基于Django的python验证码(实例讲解)
Oct 23 #Python
itchat接口使用示例
Oct 23 #Python
python实现微信接口(itchat)详细介绍
Oct 23 #Python
You might like
PHP 读取和编写 XML
2014/11/19 PHP
PHP中的日期时间处理利器实例(Carbon)
2017/06/09 PHP
JavaScript文本框脚本编写的注意事项
2016/01/25 Javascript
Node.js操作Firebird数据库教程
2016/03/04 Javascript
Vue.js每天必学之组件与组件间的通信
2016/09/08 Javascript
轻松实现js弹框显示选项
2016/09/13 Javascript
在Angular中使用JWT认证方法示例
2018/09/10 Javascript
webpack打包多页面的方法
2018/11/30 Javascript
vue多层嵌套路由实例分析
2019/03/19 Javascript
javascript实现时间日期的格式化的方法汇总
2020/08/06 Javascript
浅谈es6中的元编程
2020/12/01 Javascript
[00:43]DOTA2小紫本全民票选福利PA至宝全方位展示
2014/11/25 DOTA
跟老齐学Python之从格式化表达式到方法
2014/09/28 Python
利用python将json数据转换为csv格式的方法
2018/03/22 Python
解决Pandas to_json()中文乱码,转化为json数组的问题
2018/05/10 Python
python使用tornado实现登录和登出
2018/07/28 Python
Selenium chrome配置代理Python版的方法
2018/11/29 Python
python 切换root 执行命令的方法
2019/01/19 Python
pytorch 图像预处理之减去均值,除以方差的实例
2020/01/02 Python
python实现遍历文件夹图片并重命名
2020/03/23 Python
JupyterNotebook 输出窗口的显示效果调整方法
2020/04/13 Python
Matplotlib.pyplot 三维绘图的实现示例
2020/07/28 Python
python 实现控制鼠标键盘
2020/11/27 Python
英格兰橄榄球商店:England Rugby Store
2016/12/17 全球购物
CHARLES & KEITH澳大利亚官网:新加坡时尚品牌
2019/01/22 全球购物
英国儿童鞋和靴子:Start-Rite
2019/05/06 全球购物
黄河象教学反思
2014/02/10 职场文书
小学老师寄语大全
2014/04/04 职场文书
2014年村计划生育工作总结
2014/11/14 职场文书
通报表扬范文
2015/01/17 职场文书
布达拉宫导游词
2015/02/02 职场文书
民间借贷借条如何写
2015/05/26 职场文书
开学第一周总结
2015/07/16 职场文书
实验室安全管理制度
2015/08/05 职场文书
浅析JavaScript中的变量提升
2022/06/01 Javascript
Linux中sftp常用命令整理
2022/06/28 Servers