python实现递归查找某个路径下所有文件中的中文字符


Posted in Python onAugust 31, 2019

本文实例为大家分享了python实现递归查找某个路径下所有文件中的中文字符,供大家参考,具体内容如下

# -*- coding: utf-8 -*-
# @ description:
# @ author: 
# @ created: 2018/7/21
 
import re
import sys
import os
 
reload(sys)
sys.setdefaultencoding("utf8")
 
 
def translate(str):
  out = set()
  line = str.strip().decode('utf-8', 'ignore') # 处理前进行相关的处理,包括转换成Unicode等
  p2 = re.compile(ur'[^\u4e00-\u9fa5]') # 中文的编码范围是:\u4e00到\u9fa5
  zh = " ".join(p2.split(line)).strip()
  # zh = "\n".join(zh.split()) #dsds经过相关处理后得到中文的文本
  for s in zh.split():
    out.add(s) # 经过相关处理后得到中文的文本
  return out
 
def extract_file(path):
  result = set()
  try:
    f = open(path) # 打开文件
    lines = f.readlines()
    for line in lines:
      string = translate(line)
      if string:
        result.update(string)
  except Exception as e:
    pass
  return result
 
 
def extract(path):
  result = set()
  files = os.listdir(path)
  for file in files:
    if not file.startswith("."):
      if not os.path.isdir(path + "/" + file): # 判断是否是文件夹,不是文件夹才打开ssgsg判断是否是文件夹,不是文件夹才打开
        sub_file = extract_file(path + "/" + file)
        if sub_file:
          result.update(sub_file)
      else:
        print file
        child = extract(path + "/" + file)
        if child:
          result.update(child)
  return result
 
 
if __name__ == '__main__':
  path = "/Users/common"
  result = extract(path)
  res_file = open("result.txt", "w")
  for s in result:
    res_file.write(s + "\n")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
以Flask为例讲解Python的框架的使用方法
Apr 29 Python
python实现红包裂变算法
Feb 16 Python
python3新特性函数注释Function Annotations用法分析
Jul 28 Python
django model去掉unique_together报错的解决方案
Oct 18 Python
Python运算符重载详解及实例代码
Mar 07 Python
python爬虫的数据库连接问题【推荐】
Jun 25 Python
解决python文件双击运行秒退的问题
Jun 24 Python
Python Django Vue 项目创建过程详解
Jul 29 Python
TensorFlow绘制loss/accuracy曲线的实例
Jan 21 Python
PySide2出现“ImportError: DLL load failed: 找不到指定的模块”的问题及解决方法
Jun 10 Python
Python脚本打包成可执行文件过程解析
Oct 20 Python
一些让Python代码简洁的实用技巧总结
Aug 23 Python
python+django+rest框架配置创建方法
Aug 31 #Python
Python实现Restful API的例子
Aug 31 #Python
python递归下载文件夹下所有文件
Aug 31 #Python
python或C++读取指定文件夹下的所有图片
Aug 31 #Python
解决Django删除migrations文件夹中的文件后出现的异常问题
Aug 31 #Python
Django项目后台不挂断运行的方法
Aug 31 #Python
python遍历文件目录、批量处理同类文件
Aug 31 #Python
You might like
PHP数学运算与数据处理实例分析
2016/04/01 PHP
PHP实现生成带背景的图形验证码功能
2016/10/03 PHP
PHP的mysqli_sqlstate()函数讲解
2019/01/23 PHP
thinkPHP框架乐观锁和悲观锁实例分析
2019/10/30 PHP
Jquey拖拽控件Draggable使用方法(asp.net环境)
2010/09/28 Javascript
JS获取后台Cookies值的小例子
2013/03/04 Javascript
js jq 单击和双击区分示例介绍
2013/11/05 Javascript
[原创]JQuery 在表单提交之前修改 提交的值
2016/04/14 Javascript
Javascript的无new构建实例详解
2016/05/15 Javascript
Bootstrap中的Dropdown下拉菜单更改为悬停(hover)触发
2016/08/31 Javascript
canvas实现图片根据滑块放大缩小效果
2017/02/24 Javascript
JS使用ActiveXObject实现用户提交表单时屏蔽敏感词功能
2017/06/20 Javascript
JavaScript函数定义方法实例详解
2019/03/05 Javascript
详解Vue中组件的缓存
2019/04/20 Javascript
extjs图形绘制之饼图实现方法分析
2020/03/06 Javascript
Vue 组件复用多次自定义参数操作
2020/07/27 Javascript
vue中watch的用法汇总
2020/12/28 Vue.js
python将MongoDB里的ObjectId转换为时间戳的方法
2015/03/13 Python
python发送邮件功能实现代码
2016/07/15 Python
对numpy中数组转置的求解以及向量内积计算方法
2018/10/31 Python
python jenkins 打包构建代码的示例代码
2019/11/29 Python
如何使用Python多线程测试并发漏洞
2019/12/18 Python
PyTorch中反卷积的用法详解
2019/12/30 Python
Python连接字符串过程详解
2020/01/06 Python
Python基于paramunittest模块实现excl参数化
2020/04/26 Python
深入理解HTML的FormData对象
2016/05/17 HTML / CSS
销售自荐信
2013/10/22 职场文书
公司财务工作总结的自我评价
2013/11/23 职场文书
法律专业应届生自荐信范文
2014/01/06 职场文书
铁路工务反思材料
2014/02/07 职场文书
思想作风纪律整顿心得体会
2014/09/04 职场文书
纪念九一八事变83周年国旗下讲话稿
2014/09/15 职场文书
2014年网络管理员工作总结
2014/12/01 职场文书
求职简历自我评价范文
2015/03/10 职场文书
Python如何使用logging为Flask增加logid
2021/03/30 Python
SpringBoot+Redis实现布隆过滤器的示例代码
2022/03/17 Java/Android