python实现递归查找某个路径下所有文件中的中文字符


Posted in Python onAugust 31, 2019

本文实例为大家分享了python实现递归查找某个路径下所有文件中的中文字符,供大家参考,具体内容如下

# -*- coding: utf-8 -*-
# @ description:
# @ author: 
# @ created: 2018/7/21
 
import re
import sys
import os
 
reload(sys)
sys.setdefaultencoding("utf8")
 
 
def translate(str):
  out = set()
  line = str.strip().decode('utf-8', 'ignore') # 处理前进行相关的处理,包括转换成Unicode等
  p2 = re.compile(ur'[^\u4e00-\u9fa5]') # 中文的编码范围是:\u4e00到\u9fa5
  zh = " ".join(p2.split(line)).strip()
  # zh = "\n".join(zh.split()) #dsds经过相关处理后得到中文的文本
  for s in zh.split():
    out.add(s) # 经过相关处理后得到中文的文本
  return out
 
def extract_file(path):
  result = set()
  try:
    f = open(path) # 打开文件
    lines = f.readlines()
    for line in lines:
      string = translate(line)
      if string:
        result.update(string)
  except Exception as e:
    pass
  return result
 
 
def extract(path):
  result = set()
  files = os.listdir(path)
  for file in files:
    if not file.startswith("."):
      if not os.path.isdir(path + "/" + file): # 判断是否是文件夹,不是文件夹才打开ssgsg判断是否是文件夹,不是文件夹才打开
        sub_file = extract_file(path + "/" + file)
        if sub_file:
          result.update(sub_file)
      else:
        print file
        child = extract(path + "/" + file)
        if child:
          result.update(child)
  return result
 
 
if __name__ == '__main__':
  path = "/Users/common"
  result = extract(path)
  res_file = open("result.txt", "w")
  for s in result:
    res_file.write(s + "\n")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python完成FizzBuzzWhizz问题(拉勾网面试题)示例
May 05 Python
Python实现的归并排序算法示例
Nov 21 Python
Python将多个excel表格合并为一个表格
Feb 22 Python
一篇文章快速了解Python的GIL
Jan 12 Python
使用requests库制作Python爬虫
Mar 25 Python
详解python多线程、锁、event事件机制的简单使用
Apr 27 Python
pandas修改DataFrame列名的实现方法
Feb 22 Python
Python 二叉树的层序建立与三种遍历实现详解
Jul 29 Python
Django更新models数据库结构步骤
Apr 01 Python
如何实现更换Jupyter Notebook内核Python版本
May 18 Python
python中子类与父类的关系基础知识点
Feb 02 Python
浅谈Python数学建模之固定费用问题
Jun 23 Python
python+django+rest框架配置创建方法
Aug 31 #Python
Python实现Restful API的例子
Aug 31 #Python
python递归下载文件夹下所有文件
Aug 31 #Python
python或C++读取指定文件夹下的所有图片
Aug 31 #Python
解决Django删除migrations文件夹中的文件后出现的异常问题
Aug 31 #Python
Django项目后台不挂断运行的方法
Aug 31 #Python
python遍历文件目录、批量处理同类文件
Aug 31 #Python
You might like
杏林同学录(二)
2006/10/09 PHP
php smarty函数扩展
2010/03/15 PHP
PHP explode()函数用法、切分字符串
2012/10/03 PHP
Yii2选项卡的简单使用
2017/05/26 PHP
解决在Laravel 中处理OPTIONS请求的问题
2019/10/11 PHP
laravel model模型处理之修改查询或修改字段时的类型格式案例
2019/10/17 PHP
jquery插件 cluetip 关键词注释
2010/01/12 Javascript
js 动态文字滚动的例子
2011/01/17 Javascript
jQuery AjaxQueue改进步骤
2011/10/06 Javascript
jQuery模拟超链接点击效果代码
2013/04/21 Javascript
关于页面嵌入swf覆盖div层的问题的解决方法
2014/02/11 Javascript
JavaScript设置表单上传时文件个数的方法
2015/08/11 Javascript
使用jQuery加载html页面到指定的div实现方法
2016/07/13 Javascript
jQuery实现的自动加载页面功能示例
2016/09/04 Javascript
D3.js实现雷达图的方法详解
2016/09/22 Javascript
JS简单获取当前年月日星期的方法示例
2017/02/07 Javascript
ReactJs实现树形结构的数据显示的组件的示例
2017/08/18 Javascript
js实现鼠标移动到图片产生遮罩效果
2017/10/21 Javascript
Fundebug支持监控微信小程序HTTP请求错误的方法
2019/02/21 Javascript
VUE的history模式下除了index外其他路由404报错解决办法
2019/08/21 Javascript
js+h5 canvas实现图片验证码
2020/10/11 Javascript
python 字符串split的用法分享
2013/03/23 Python
Python实现多属性排序的方法
2018/12/05 Python
pyqt5 获取显示器的分辨率的方法
2019/06/18 Python
详解python tkinter包获取本地绝对路径(以获取图片并展示)
2020/09/04 Python
10分钟理解CSS3 Grid布局
2018/12/20 HTML / CSS
英国创新设计文具、卡片和礼品包装网站:Paperchase
2018/07/14 全球购物
给实习单位的感谢信
2014/02/01 职场文书
迟到早退检讨书
2014/02/10 职场文书
初中军训感想300字
2014/03/05 职场文书
生日主持词
2014/03/20 职场文书
物业管理专业自荐信
2014/07/01 职场文书
环卫工人节活动总结
2014/08/29 职场文书
民主评议党员自我评议范文2014
2014/09/26 职场文书
大学生自我鉴定怎么写
2019/05/07 职场文书
JavaWeb 入门篇(3)ServletContext 详解 具体应用
2021/07/16 Java/Android