python实现递归查找某个路径下所有文件中的中文字符


Posted in Python onAugust 31, 2019

本文实例为大家分享了python实现递归查找某个路径下所有文件中的中文字符,供大家参考,具体内容如下

# -*- coding: utf-8 -*-
# @ description:
# @ author: 
# @ created: 2018/7/21
 
import re
import sys
import os
 
reload(sys)
sys.setdefaultencoding("utf8")
 
 
def translate(str):
  out = set()
  line = str.strip().decode('utf-8', 'ignore') # 处理前进行相关的处理,包括转换成Unicode等
  p2 = re.compile(ur'[^\u4e00-\u9fa5]') # 中文的编码范围是:\u4e00到\u9fa5
  zh = " ".join(p2.split(line)).strip()
  # zh = "\n".join(zh.split()) #dsds经过相关处理后得到中文的文本
  for s in zh.split():
    out.add(s) # 经过相关处理后得到中文的文本
  return out
 
def extract_file(path):
  result = set()
  try:
    f = open(path) # 打开文件
    lines = f.readlines()
    for line in lines:
      string = translate(line)
      if string:
        result.update(string)
  except Exception as e:
    pass
  return result
 
 
def extract(path):
  result = set()
  files = os.listdir(path)
  for file in files:
    if not file.startswith("."):
      if not os.path.isdir(path + "/" + file): # 判断是否是文件夹,不是文件夹才打开ssgsg判断是否是文件夹,不是文件夹才打开
        sub_file = extract_file(path + "/" + file)
        if sub_file:
          result.update(sub_file)
      else:
        print file
        child = extract(path + "/" + file)
        if child:
          result.update(child)
  return result
 
 
if __name__ == '__main__':
  path = "/Users/common"
  result = extract(path)
  res_file = open("result.txt", "w")
  for s in result:
    res_file.write(s + "\n")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中的闭包实例详解
Aug 29 Python
详细介绍Python中的偏函数
Apr 27 Python
python实现单线程多任务非阻塞TCP服务端
Jun 13 Python
深入分析python数据挖掘 Json结构分析
Apr 21 Python
python实现对指定字符串补足固定长度倍数截断输出的方法
Nov 15 Python
Pandas库之DataFrame使用的学习笔记
Jun 21 Python
基于Python共轭梯度法与最速下降法之间的对比
Apr 02 Python
Python flask框架实现浏览器点击自定义跳转页面
Jun 04 Python
windows10在visual studio2019下配置使用openCV4.3.0
Jul 14 Python
Python浮点型(float)运算结果不正确的解决方案
Sep 22 Python
Python 列表推导式需要注意的地方
Oct 23 Python
python opencv检测直线 cv2.HoughLinesP的实现
Jun 18 Python
python+django+rest框架配置创建方法
Aug 31 #Python
Python实现Restful API的例子
Aug 31 #Python
python递归下载文件夹下所有文件
Aug 31 #Python
python或C++读取指定文件夹下的所有图片
Aug 31 #Python
解决Django删除migrations文件夹中的文件后出现的异常问题
Aug 31 #Python
Django项目后台不挂断运行的方法
Aug 31 #Python
python遍历文件目录、批量处理同类文件
Aug 31 #Python
You might like
关于PHP中的Class的几点个人看法
2006/10/09 PHP
Windows下PHP的任意文件执行漏洞
2006/10/09 PHP
PHP求小于1000的所有水仙花数的代码
2012/01/10 PHP
PHP代码保护--Zend Guard的使用详解
2013/06/03 PHP
使用php 获取时间今天明天昨天时间戳的详解
2013/06/20 PHP
浅析THINKPHP的addAll支持的最大数据量
2015/02/03 PHP
php实现映射操作实例详解
2019/10/02 PHP
javascript 面向对象编程基础 多态
2009/08/21 Javascript
XmlUtils JS操作XML工具类
2009/10/01 Javascript
jquery offset函数应用实例
2012/11/14 Javascript
关于innerHTML后丢失动态绑定的EVENT问题解决方法
2013/05/19 Javascript
JavaScript插件化开发教程(六)
2015/02/01 Javascript
gameboy网页闯关游戏(riddle webgame)--仿微信聊天的前端页面设计和难点
2016/02/21 Javascript
Angular.js回顾ng-app和ng-model使用技巧
2016/04/26 Javascript
浅析BootStrap栅格系统
2016/06/07 Javascript
jQuery UI Draggable + Sortable 结合使用(实例讲解)
2017/09/07 jQuery
vue 指定组件缓存实例详解
2018/04/01 Javascript
iview通过Dropdown(下拉菜单)实现的右键菜单
2018/10/26 Javascript
js设计模式之单例模式原理与用法详解
2019/08/15 Javascript
VUE单页面切换动画代码(全网最好的切换效果)
2019/10/31 Javascript
python下如何让web元素的生成更简单的分析
2008/07/17 Python
Python实现建立SSH连接的方法
2015/06/03 Python
深入学习Python中的上下文管理器与else块
2017/08/27 Python
win8下python3.4安装和环境配置图文教程
2018/07/31 Python
Python使用pandas对数据进行差分运算的方法
2018/12/22 Python
python使用PIL模块获取图片像素点的方法
2019/01/08 Python
python模块常用用法实例详解
2019/10/17 Python
Django websocket原理及功能实现代码
2020/11/14 Python
Python根据URL地址下载文件并保存至对应目录的实现
2020/11/15 Python
python爬虫中抓取指数的实例讲解
2020/12/01 Python
web字体加载方案优化小结
2019/11/29 HTML / CSS
百联网上商城:i百联
2017/01/28 全球购物
法院信息化建设方案
2014/05/21 职场文书
预备党员转正思想汇报
2014/09/26 职场文书
小学校长个人总结
2015/03/03 职场文书
Mysql多层子查询示例代码(收藏夹案例)
2022/03/31 MySQL