python实现递归查找某个路径下所有文件中的中文字符


Posted in Python onAugust 31, 2019

本文实例为大家分享了python实现递归查找某个路径下所有文件中的中文字符,供大家参考,具体内容如下

# -*- coding: utf-8 -*-
# @ description:
# @ author: 
# @ created: 2018/7/21
 
import re
import sys
import os
 
reload(sys)
sys.setdefaultencoding("utf8")
 
 
def translate(str):
  out = set()
  line = str.strip().decode('utf-8', 'ignore') # 处理前进行相关的处理,包括转换成Unicode等
  p2 = re.compile(ur'[^\u4e00-\u9fa5]') # 中文的编码范围是:\u4e00到\u9fa5
  zh = " ".join(p2.split(line)).strip()
  # zh = "\n".join(zh.split()) #dsds经过相关处理后得到中文的文本
  for s in zh.split():
    out.add(s) # 经过相关处理后得到中文的文本
  return out
 
def extract_file(path):
  result = set()
  try:
    f = open(path) # 打开文件
    lines = f.readlines()
    for line in lines:
      string = translate(line)
      if string:
        result.update(string)
  except Exception as e:
    pass
  return result
 
 
def extract(path):
  result = set()
  files = os.listdir(path)
  for file in files:
    if not file.startswith("."):
      if not os.path.isdir(path + "/" + file): # 判断是否是文件夹,不是文件夹才打开ssgsg判断是否是文件夹,不是文件夹才打开
        sub_file = extract_file(path + "/" + file)
        if sub_file:
          result.update(sub_file)
      else:
        print file
        child = extract(path + "/" + file)
        if child:
          result.update(child)
  return result
 
 
if __name__ == '__main__':
  path = "/Users/common"
  result = extract(path)
  res_file = open("result.txt", "w")
  for s in result:
    res_file.write(s + "\n")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python语言的12个基础知识点小结
Jul 10 Python
浅谈Python中的数据类型
May 05 Python
Pycharm技巧之代码跳转该如何回退
Jul 16 Python
Python格式化输出%s和%d
May 07 Python
python flask框架实现传数据到js的方法分析
Jun 11 Python
PyQt 实现使窗口中的元素跟随窗口大小的变化而变化
Jun 18 Python
Python操作excel的方法总结(xlrd、xlwt、openpyxl)
Sep 02 Python
Python小程序之在图片上加入数字的代码
Nov 26 Python
flask的orm框架SQLAlchemy查询实现解析
Dec 12 Python
python实现超级马里奥
Mar 18 Python
python图片合成的示例
Nov 09 Python
一篇文章教你用python画动态爱心表白
Nov 22 Python
python+django+rest框架配置创建方法
Aug 31 #Python
Python实现Restful API的例子
Aug 31 #Python
python递归下载文件夹下所有文件
Aug 31 #Python
python或C++读取指定文件夹下的所有图片
Aug 31 #Python
解决Django删除migrations文件夹中的文件后出现的异常问题
Aug 31 #Python
Django项目后台不挂断运行的方法
Aug 31 #Python
python遍历文件目录、批量处理同类文件
Aug 31 #Python
You might like
《PHP编程最快明白》第六讲:Mysql数据库操作
2010/11/01 PHP
实例讲解如何在PHP的Yii框架中进行错误和异常处理
2016/03/17 PHP
ThinkPHP整合datatables实现服务端分页的示例代码
2018/02/10 PHP
PHP操作Redis常用技巧总结
2018/04/24 PHP
利用PHP扩展Xhprof分析项目性能实践教程
2018/09/05 PHP
新老版本juqery获取radio对象的方法
2010/03/01 Javascript
js利用与或运算符优先级实现if else条件判断表达式
2010/04/15 Javascript
获取css样式表内样式的js函数currentStyle(IE),defaultView(FF)
2011/02/14 Javascript
javascript使用正则表达式实现去掉空格之后的字符
2015/02/15 Javascript
jQuery带进度条全屏图片轮播特效代码分享
2020/06/28 Javascript
Bootstrap开关(switch)控件学习笔记分享
2016/05/30 Javascript
微信小程序 选择器(时间,日期,地区)实例详解
2016/11/16 Javascript
使用Node.js实现RESTful API的示例
2017/08/01 Javascript
完美解决linux下node.js全局模块找不到的情况
2018/05/16 Javascript
JS算法题之查找数字在数组中的索引位置
2019/05/15 Javascript
JS 数组基本用法入门示例解析
2020/01/16 Javascript
[47:53]DOTA2上海特级锦标赛主赛事日 - 1 败者组第一轮#2COL VS Spirit
2016/03/02 DOTA
python3爬取淘宝信息代码分析
2018/02/10 Python
Python Selenium Cookie 绕过验证码实现登录示例代码
2018/04/10 Python
Flask之请求钩子的实现
2018/12/23 Python
iPython pylab模式启动方式
2020/04/24 Python
python:HDF和CSV存储优劣对比分析
2020/06/08 Python
为什么是 Python -m
2020/06/19 Python
pytorch简介
2020/11/11 Python
命名空间(namespace)和程序集(Assembly)有什么区别
2015/09/25 面试题
公务员培训自我鉴定
2013/09/19 职场文书
药学专业个人自我评价
2013/11/11 职场文书
2014自荐信的写作技巧
2014/01/28 职场文书
商场促销活动方案
2014/02/08 职场文书
法人委托书范本
2014/04/04 职场文书
学雷锋的心得体会
2014/09/04 职场文书
教师读书笔记
2015/06/29 职场文书
关于教师节的广播稿
2015/08/19 职场文书
pytorch 中autograd.grad()函数的用法说明
2021/05/12 Python
MySQL笔记 —SQL运算符
2022/01/18 MySQL
vue实现书本翻页动画效果实例详解
2022/04/08 Vue.js