python实现递归查找某个路径下所有文件中的中文字符


Posted in Python onAugust 31, 2019

本文实例为大家分享了python实现递归查找某个路径下所有文件中的中文字符,供大家参考,具体内容如下

# -*- coding: utf-8 -*-
# @ description:
# @ author: 
# @ created: 2018/7/21
 
import re
import sys
import os
 
reload(sys)
sys.setdefaultencoding("utf8")
 
 
def translate(str):
  out = set()
  line = str.strip().decode('utf-8', 'ignore') # 处理前进行相关的处理,包括转换成Unicode等
  p2 = re.compile(ur'[^\u4e00-\u9fa5]') # 中文的编码范围是:\u4e00到\u9fa5
  zh = " ".join(p2.split(line)).strip()
  # zh = "\n".join(zh.split()) #dsds经过相关处理后得到中文的文本
  for s in zh.split():
    out.add(s) # 经过相关处理后得到中文的文本
  return out
 
def extract_file(path):
  result = set()
  try:
    f = open(path) # 打开文件
    lines = f.readlines()
    for line in lines:
      string = translate(line)
      if string:
        result.update(string)
  except Exception as e:
    pass
  return result
 
 
def extract(path):
  result = set()
  files = os.listdir(path)
  for file in files:
    if not file.startswith("."):
      if not os.path.isdir(path + "/" + file): # 判断是否是文件夹,不是文件夹才打开ssgsg判断是否是文件夹,不是文件夹才打开
        sub_file = extract_file(path + "/" + file)
        if sub_file:
          result.update(sub_file)
      else:
        print file
        child = extract(path + "/" + file)
        if child:
          result.update(child)
  return result
 
 
if __name__ == '__main__':
  path = "/Users/common"
  result = extract(path)
  res_file = open("result.txt", "w")
  for s in result:
    res_file.write(s + "\n")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
状态机的概念和在Python下使用状态机的教程
Apr 11 Python
python中dir函数用法分析
Apr 17 Python
从Python程序中访问Java类的简单示例
Apr 20 Python
Python实现队列的方法
May 26 Python
Djang中静态文件配置方法
Jul 30 Python
Python实现将HTML转换成doc格式文件的方法示例
Nov 20 Python
Vue的el-scrollbar实现自定义滚动
May 29 Python
python PIL和CV对 图片的读取,显示,裁剪,保存实现方法
Aug 07 Python
将自己的数据集制作成TFRecord格式教程
Feb 17 Python
python opencv进行图像拼接
Mar 27 Python
快速解决jupyter notebook启动需要密码的问题
Apr 21 Python
python自动统计zabbix系统监控覆盖率的示例代码
Apr 03 Python
python+django+rest框架配置创建方法
Aug 31 #Python
Python实现Restful API的例子
Aug 31 #Python
python递归下载文件夹下所有文件
Aug 31 #Python
python或C++读取指定文件夹下的所有图片
Aug 31 #Python
解决Django删除migrations文件夹中的文件后出现的异常问题
Aug 31 #Python
Django项目后台不挂断运行的方法
Aug 31 #Python
python遍历文件目录、批量处理同类文件
Aug 31 #Python
You might like
ThinkPHP之A方法实例讲解
2014/06/20 PHP
PDO防注入原理分析以及注意事项
2015/02/25 PHP
PHP实现广度优先搜索算法(BFS,Broad First Search)详解
2017/09/16 PHP
PHP pthreads v3在centos7平台下的安装与配置操作方法
2020/02/21 PHP
XML+XSL 与 HTML 两种方案的结合
2007/04/22 Javascript
jQuery实现向下滑出的平滑下拉菜单效果
2015/08/21 Javascript
jquery中表单 多选框的一种巧妙写法
2015/09/06 Javascript
JS实现超简单的鼠标拖动效果
2015/11/02 Javascript
jQuery拖拽排序插件制作拖拽排序效果(附源码下载)
2016/02/23 Javascript
全面了解JavaScirpt 的垃圾(garbage collection)回收机制
2016/07/11 Javascript
jQuery中ztree 点击文本框弹出下拉框的实例代码
2017/02/05 Javascript
JavaScript原生数组Array常用方法
2017/04/06 Javascript
javascript编程实现栈的方法详解【经典数据结构】
2017/04/11 Javascript
js 简易版滚动条实例(适用于移动端H5开发)
2017/06/26 Javascript
基于vue.js无缝滚动效果
2018/01/25 Javascript
vue中实现在外部调用methods的方法(推荐)
2018/02/08 Javascript
vue修改Element的el-table样式的4种方法
2020/09/17 Javascript
手机浏览器唤起微信分享(JS)
2020/10/11 Javascript
python每隔N秒运行指定函数的方法
2015/03/16 Python
玩转python爬虫之URLError异常处理
2016/02/17 Python
浅析Python 引号、注释、字符串
2019/07/25 Python
Python Scrapy图片爬取原理及代码实例
2020/06/12 Python
keras实现图像预处理并生成一个generator的案例
2020/06/17 Python
Keras SGD 随机梯度下降优化器参数设置方式
2020/06/19 Python
捷克汽车配件和工具销售网站:TorriaCars
2018/02/26 全球购物
TCP协议通讯的过程和步骤是什么
2015/10/18 面试题
测量工程专业求职信
2014/02/24 职场文书
高二学生评语大全
2014/04/25 职场文书
高中运动会广播稿
2014/09/16 职场文书
贫困证明书格式及范文
2014/10/15 职场文书
销售经理工作检讨书
2015/02/19 职场文书
2017年寒假社区服务活动总结
2016/04/06 职场文书
初中生入团申请书范文(五篇)
2019/10/16 职场文书
小学三年级作文之写景
2019/11/05 职场文书
Python字符串对齐方法使用(ljust()、rjust()和center())
2021/04/26 Python
SpringBoot整合MongoDB的实现步骤
2021/06/23 MongoDB