编程 Python

python实现递归查找某个路径下所有文件中的中文字符

Posted in Python onAugust 31, 2019

本文实例为大家分享了python实现递归查找某个路径下所有文件中的中文字符，供大家参考，具体内容如下

# -*- coding: utf-8 -*-
# @ description:
# @ author: 
# @ created: 2018/7/21
 
import re
import sys
import os
 
reload(sys)
sys.setdefaultencoding("utf8")
 
 
def translate(str):
  out = set()
  line = str.strip().decode('utf-8', 'ignore') # 处理前进行相关的处理，包括转换成Unicode等
  p2 = re.compile(ur'[^\u4e00-\u9fa5]') # 中文的编码范围是：\u4e00到\u9fa5
  zh = " ".join(p2.split(line)).strip()
  # zh = "\n".join(zh.split()) #dsds经过相关处理后得到中文的文本
  for s in zh.split():
    out.add(s) # 经过相关处理后得到中文的文本
  return out
 
def extract_file(path):
  result = set()
  try:
    f = open(path) # 打开文件
    lines = f.readlines()
    for line in lines:
      string = translate(line)
      if string:
        result.update(string)
  except Exception as e:
    pass
  return result
 
 
def extract(path):
  result = set()
  files = os.listdir(path)
  for file in files:
    if not file.startswith("."):
      if not os.path.isdir(path + "/" + file): # 判断是否是文件夹，不是文件夹才打开ssgsg判断是否是文件夹，不是文件夹才打开
        sub_file = extract_file(path + "/" + file)
        if sub_file:
          result.update(sub_file)
      else:
        print file
        child = extract(path + "/" + file)
        if child:
          result.update(child)
  return result
 
 
if __name__ == '__main__':
  path = "/Users/common"
  result = extract(path)
  res_file = open("result.txt", "w")
  for s in result:
    res_file.write(s + "\n")

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

- Author -

weiguang1111

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

深入理解Javascript中的this关键字

Mar 27 Python

Python记录详细调用堆栈日志的方法

May 05 Python

Python实现数据库并行读取和写入实例

Jun 09 Python

python+requests+unittest API接口测试实例(详解)

Jun 10 Python

基于python元祖与字典与集合的粗浅认识

Aug 23 Python

Django 2.0版本的新特性抢先看！

Jan 05 Python

Python中矩阵创建和矩阵运算方法

Aug 04 Python

numpy.where() 用法详解

May 27 Python

python基础教程之while循环

Aug 14 Python

python django 原生sql 获取数据的例子

Aug 14 Python

Python通过cv2读取多个USB摄像头

Aug 28 Python

python实现A*寻路算法

Jun 13 Python

python+django+rest框架配置创建方法

Aug 31 #Python

Python实现Restful API的例子

Aug 31 #Python

python递归下载文件夹下所有文件

Aug 31 #Python

python或C++读取指定文件夹下的所有图片

Aug 31 #Python

解决Django删除migrations文件夹中的文件后出现的异常问题

Aug 31 #Python

Django项目后台不挂断运行的方法

Aug 31 #Python

python遍历文件目录、批量处理同类文件

Aug 31 #Python

You might like

php判断类是否存在函数class_exists用法分析

2014/11/14 PHP

php表单文件iframe异步上传实例讲解

2017/07/26 PHP

js 表单验证方法(实用)

2009/04/28 Javascript

密码框显示提示文字jquery示例

2013/08/29 Javascript

javascript ajax 仿百度分页函数

2013/10/29 Javascript

使用js判断TextBox控件值改变然后出发事件

2014/03/07 Javascript

jQuery实现单击按钮遮罩弹出对话框(仿天猫的删除对话框)

2014/04/10 Javascript

jQuery分别获取选中的复选框值的示例

2014/06/17 Javascript

javascript实现完美拖拽效果

2015/05/06 Javascript

解决js函数闭包内存泄露问题的办法

2016/01/25 Javascript

JS实现动态表格的添加，修改，删除功能(推荐)

2016/06/15 Javascript

angularjs2中父子组件的数据传递的实例代码

2017/07/05 Javascript

Vim快速合并行及vim 将文件所有行合并到一行

2017/11/27 Javascript

javascript实现获取一个日期段内每天不同的价格(计算入住总价格)

2018/02/05 Javascript

jQuery实现的滑块滑动导航效果示例

2018/06/04 jQuery

详解vue填坑之解决部分浏览器不支持pushState方法

2018/07/12 Javascript

vue中进入详情页记住滚动位置的方法(keep-alive)

2018/09/21 Javascript

JS实现灯泡开关特效

2020/03/30 Javascript

Python深入学习之上下文管理器

2014/08/31 Python

零基础写python爬虫之抓取百度贴吧并存储到本地txt文件改进版

2014/11/06 Python

python求列表交集的方法汇总

2014/11/10 Python

深入浅析python中的多进程、多线程、协程

2016/06/22 Python

Python实现字典去除重复的方法示例

2017/07/31 Python

关于Tensorflow分布式并行策略

2020/02/03 Python

Pycharm添加虚拟解释器报错问题解决方案

2020/10/13 Python

Python 爬虫批量爬取网页图片保存到本地的实现代码

2020/12/24 Python

Html5让容器充满屏幕高度或自适应剩余高度的布局实现

2020/05/14 HTML / CSS

瑞贝卡·泰勒官方网站：Rebecca Taylor

2016/09/24 全球购物

美国花布包包品牌：Vera Bradley

2017/08/11 全球购物

SCDKey德国：全球领先的数字游戏市场

2019/04/09 全球购物

控制工程专业个人求职信

2013/09/25 职场文书

大学生就业自荐信

2013/10/26 职场文书

少先队学雷锋活动总结范文

2014/03/09 职场文书

少先队学雷锋活动月总结

2014/03/09 职场文书

《得道多助，失道寡助》教学反思

2014/04/19 职场文书

Python音乐爬虫完美绕过反爬

2021/08/30 Python