python实现递归查找某个路径下所有文件中的中文字符


Posted in Python onAugust 31, 2019

本文实例为大家分享了python实现递归查找某个路径下所有文件中的中文字符,供大家参考,具体内容如下

# -*- coding: utf-8 -*-
# @ description:
# @ author: 
# @ created: 2018/7/21
 
import re
import sys
import os
 
reload(sys)
sys.setdefaultencoding("utf8")
 
 
def translate(str):
  out = set()
  line = str.strip().decode('utf-8', 'ignore') # 处理前进行相关的处理,包括转换成Unicode等
  p2 = re.compile(ur'[^\u4e00-\u9fa5]') # 中文的编码范围是:\u4e00到\u9fa5
  zh = " ".join(p2.split(line)).strip()
  # zh = "\n".join(zh.split()) #dsds经过相关处理后得到中文的文本
  for s in zh.split():
    out.add(s) # 经过相关处理后得到中文的文本
  return out
 
def extract_file(path):
  result = set()
  try:
    f = open(path) # 打开文件
    lines = f.readlines()
    for line in lines:
      string = translate(line)
      if string:
        result.update(string)
  except Exception as e:
    pass
  return result
 
 
def extract(path):
  result = set()
  files = os.listdir(path)
  for file in files:
    if not file.startswith("."):
      if not os.path.isdir(path + "/" + file): # 判断是否是文件夹,不是文件夹才打开ssgsg判断是否是文件夹,不是文件夹才打开
        sub_file = extract_file(path + "/" + file)
        if sub_file:
          result.update(sub_file)
      else:
        print file
        child = extract(path + "/" + file)
        if child:
          result.update(child)
  return result
 
 
if __name__ == '__main__':
  path = "/Users/common"
  result = extract(path)
  res_file = open("result.txt", "w")
  for s in result:
    res_file.write(s + "\n")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
深入理解Javascript中的this关键字
Mar 27 Python
Python记录详细调用堆栈日志的方法
May 05 Python
Python实现数据库并行读取和写入实例
Jun 09 Python
python+requests+unittest API接口测试实例(详解)
Jun 10 Python
基于python元祖与字典与集合的粗浅认识
Aug 23 Python
Django 2.0版本的新特性抢先看!
Jan 05 Python
Python中矩阵创建和矩阵运算方法
Aug 04 Python
numpy.where() 用法详解
May 27 Python
python基础教程之while循环
Aug 14 Python
python django 原生sql 获取数据的例子
Aug 14 Python
Python通过cv2读取多个USB摄像头
Aug 28 Python
python实现A*寻路算法
Jun 13 Python
python+django+rest框架配置创建方法
Aug 31 #Python
Python实现Restful API的例子
Aug 31 #Python
python递归下载文件夹下所有文件
Aug 31 #Python
python或C++读取指定文件夹下的所有图片
Aug 31 #Python
解决Django删除migrations文件夹中的文件后出现的异常问题
Aug 31 #Python
Django项目后台不挂断运行的方法
Aug 31 #Python
python遍历文件目录、批量处理同类文件
Aug 31 #Python
You might like
php判断类是否存在函数class_exists用法分析
2014/11/14 PHP
php表单文件iframe异步上传实例讲解
2017/07/26 PHP
js 表单验证方法(实用)
2009/04/28 Javascript
密码框显示提示文字jquery示例
2013/08/29 Javascript
javascript ajax 仿百度分页函数
2013/10/29 Javascript
使用js判断TextBox控件值改变然后出发事件
2014/03/07 Javascript
jQuery实现单击按钮遮罩弹出对话框(仿天猫的删除对话框)
2014/04/10 Javascript
jQuery分别获取选中的复选框值的示例
2014/06/17 Javascript
javascript实现完美拖拽效果
2015/05/06 Javascript
解决js函数闭包内存泄露问题的办法
2016/01/25 Javascript
JS实现动态表格的添加,修改,删除功能(推荐)
2016/06/15 Javascript
angularjs2中父子组件的数据传递的实例代码
2017/07/05 Javascript
Vim快速合并行及vim 将文件所有行合并到一行
2017/11/27 Javascript
javascript实现获取一个日期段内每天不同的价格(计算入住总价格)
2018/02/05 Javascript
jQuery实现的滑块滑动导航效果示例
2018/06/04 jQuery
详解vue填坑之解决部分浏览器不支持pushState方法
2018/07/12 Javascript
vue中进入详情页记住滚动位置的方法(keep-alive)
2018/09/21 Javascript
JS实现灯泡开关特效
2020/03/30 Javascript
Python深入学习之上下文管理器
2014/08/31 Python
零基础写python爬虫之抓取百度贴吧并存储到本地txt文件改进版
2014/11/06 Python
python求列表交集的方法汇总
2014/11/10 Python
深入浅析python中的多进程、多线程、协程
2016/06/22 Python
Python实现字典去除重复的方法示例
2017/07/31 Python
关于Tensorflow分布式并行策略
2020/02/03 Python
Pycharm添加虚拟解释器报错问题解决方案
2020/10/13 Python
Python 爬虫批量爬取网页图片保存到本地的实现代码
2020/12/24 Python
Html5让容器充满屏幕高度或自适应剩余高度的布局实现
2020/05/14 HTML / CSS
瑞贝卡·泰勒官方网站:Rebecca Taylor
2016/09/24 全球购物
美国花布包包品牌:Vera Bradley
2017/08/11 全球购物
SCDKey德国:全球领先的数字游戏市场
2019/04/09 全球购物
控制工程专业个人求职信
2013/09/25 职场文书
大学生就业自荐信
2013/10/26 职场文书
少先队学雷锋活动总结范文
2014/03/09 职场文书
少先队学雷锋活动月总结
2014/03/09 职场文书
《得道多助,失道寡助》教学反思
2014/04/19 职场文书
Python音乐爬虫完美绕过反爬
2021/08/30 Python