python实现递归查找某个路径下所有文件中的中文字符


Posted in Python onAugust 31, 2019

本文实例为大家分享了python实现递归查找某个路径下所有文件中的中文字符,供大家参考,具体内容如下

# -*- coding: utf-8 -*-
# @ description:
# @ author: 
# @ created: 2018/7/21
 
import re
import sys
import os
 
reload(sys)
sys.setdefaultencoding("utf8")
 
 
def translate(str):
  out = set()
  line = str.strip().decode('utf-8', 'ignore') # 处理前进行相关的处理,包括转换成Unicode等
  p2 = re.compile(ur'[^\u4e00-\u9fa5]') # 中文的编码范围是:\u4e00到\u9fa5
  zh = " ".join(p2.split(line)).strip()
  # zh = "\n".join(zh.split()) #dsds经过相关处理后得到中文的文本
  for s in zh.split():
    out.add(s) # 经过相关处理后得到中文的文本
  return out
 
def extract_file(path):
  result = set()
  try:
    f = open(path) # 打开文件
    lines = f.readlines()
    for line in lines:
      string = translate(line)
      if string:
        result.update(string)
  except Exception as e:
    pass
  return result
 
 
def extract(path):
  result = set()
  files = os.listdir(path)
  for file in files:
    if not file.startswith("."):
      if not os.path.isdir(path + "/" + file): # 判断是否是文件夹,不是文件夹才打开ssgsg判断是否是文件夹,不是文件夹才打开
        sub_file = extract_file(path + "/" + file)
        if sub_file:
          result.update(sub_file)
      else:
        print file
        child = extract(path + "/" + file)
        if child:
          result.update(child)
  return result
 
 
if __name__ == '__main__':
  path = "/Users/common"
  result = extract(path)
  res_file = open("result.txt", "w")
  for s in result:
    res_file.write(s + "\n")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python字符串逐字符或逐词反转方法
May 21 Python
python编程实现希尔排序
Apr 13 Python
python僵尸进程产生的原因
Jul 21 Python
Python 和 JS 有哪些相同之处
Nov 23 Python
带你认识Django
Jan 15 Python
对Python生成汉字字库文字,以及转换为文字图片的实例详解
Jan 29 Python
使用pip安装python库的多种方式
Jul 31 Python
浅谈tensorflow 中tf.concat()的使用
Feb 07 Python
Python tkinter界面实现历史天气查询的示例代码
Aug 23 Python
python 实现表情识别
Nov 21 Python
python中类与对象之间的关系详解
Dec 16 Python
Python+Matplotlib图像上指定坐标的位置添加文本标签与注释
Apr 11 Python
python+django+rest框架配置创建方法
Aug 31 #Python
Python实现Restful API的例子
Aug 31 #Python
python递归下载文件夹下所有文件
Aug 31 #Python
python或C++读取指定文件夹下的所有图片
Aug 31 #Python
解决Django删除migrations文件夹中的文件后出现的异常问题
Aug 31 #Python
Django项目后台不挂断运行的方法
Aug 31 #Python
python遍历文件目录、批量处理同类文件
Aug 31 #Python
You might like
PHP字符串处理的10个简单方法
2010/06/30 PHP
php字符串函数学习之substr()
2015/03/27 PHP
PHP重置数组为连续数字索引的几种方式总结
2018/03/12 PHP
PHP编程实现的TCP服务端和客户端功能示例
2018/04/13 PHP
获取当前网页document.url location.href区别总结
2008/05/10 Javascript
div+css布局的图片连续滚动js实现代码
2010/05/04 Javascript
JavaScript对象属性检查、增加、删除、访问操作实例
2015/07/08 Javascript
js图片卷帘门导航菜单特效代码分享
2015/09/10 Javascript
javascript 中的 delete及delete运算符
2015/11/15 Javascript
Angularjs注入拦截器实现Loading效果
2015/12/28 Javascript
一个用jquery写的判断div滚动条到底部的方法【推荐】
2016/04/29 Javascript
canvas实现环形进度条效果
2017/03/23 Javascript
jQuery实现动态生成表格并为行绑定单击变色动作的方法
2017/04/17 jQuery
Angular2里获取(input file)上传文件的内容的方法
2017/09/05 Javascript
spirngmvc js传递复杂json参数到controller的实例
2018/03/29 Javascript
利用Decorator如何控制Koa路由详解
2018/06/26 Javascript
使用Vuex解决Vue中的身份验证问题
2018/09/28 Javascript
vue-cli 打包后提交到线上出现 "Uncaught SyntaxError:Unexpected token" 报错
2018/11/06 Javascript
基于canvasJS在PHP中制作动态图表
2020/05/30 Javascript
vue prop传值类型检验方式
2020/07/30 Javascript
ESLint 是如何检查 .vue 文件的
2020/11/30 Vue.js
Pycharm内置终端及远程SSH工具的使用教程图文详解
2020/03/19 Python
torchxrayvision包安装过程(附pytorch1.6cpu版安装)
2020/08/26 Python
Python实现中英文全文搜索的示例
2020/12/04 Python
使用CSS3来制作消息提醒框
2015/07/12 HTML / CSS
纯CSS3实现漂亮的input输入框动画样式库(Text input love)
2018/12/29 HTML / CSS
html5如何在Canvas中实现自定义路径动画示例
2017/09/18 HTML / CSS
特罗佩亚包官方网站:Tropea
2017/01/03 全球购物
Topshop美国官网:英国快速时尚品牌
2019/05/16 全球购物
Shopping happy life西班牙:以最优惠的价格提供最好的时尚配饰
2020/03/13 全球购物
优秀生推荐信范文
2013/11/28 职场文书
材料物理专业个人求职信
2013/12/15 职场文书
纪律教育学习心得体会
2014/09/02 职场文书
专题组织生活会发言材料
2014/10/17 职场文书
2015年党性分析材料
2014/12/19 职场文书
安阳殷墟导游词
2015/02/10 职场文书