python实现递归查找某个路径下所有文件中的中文字符


Posted in Python onAugust 31, 2019

本文实例为大家分享了python实现递归查找某个路径下所有文件中的中文字符,供大家参考,具体内容如下

# -*- coding: utf-8 -*-
# @ description:
# @ author: 
# @ created: 2018/7/21
 
import re
import sys
import os
 
reload(sys)
sys.setdefaultencoding("utf8")
 
 
def translate(str):
  out = set()
  line = str.strip().decode('utf-8', 'ignore') # 处理前进行相关的处理,包括转换成Unicode等
  p2 = re.compile(ur'[^\u4e00-\u9fa5]') # 中文的编码范围是:\u4e00到\u9fa5
  zh = " ".join(p2.split(line)).strip()
  # zh = "\n".join(zh.split()) #dsds经过相关处理后得到中文的文本
  for s in zh.split():
    out.add(s) # 经过相关处理后得到中文的文本
  return out
 
def extract_file(path):
  result = set()
  try:
    f = open(path) # 打开文件
    lines = f.readlines()
    for line in lines:
      string = translate(line)
      if string:
        result.update(string)
  except Exception as e:
    pass
  return result
 
 
def extract(path):
  result = set()
  files = os.listdir(path)
  for file in files:
    if not file.startswith("."):
      if not os.path.isdir(path + "/" + file): # 判断是否是文件夹,不是文件夹才打开ssgsg判断是否是文件夹,不是文件夹才打开
        sub_file = extract_file(path + "/" + file)
        if sub_file:
          result.update(sub_file)
      else:
        print file
        child = extract(path + "/" + file)
        if child:
          result.update(child)
  return result
 
 
if __name__ == '__main__':
  path = "/Users/common"
  result = extract(path)
  res_file = open("result.txt", "w")
  for s in result:
    res_file.write(s + "\n")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中使用SAX解析xml实例
Nov 21 Python
Python爬取京东的商品分类与链接
Aug 26 Python
python爬虫入门教程--优雅的HTTP库requests(二)
May 25 Python
Python实现matplotlib显示中文的方法详解
Feb 06 Python
python生成lmdb格式的文件实例
Nov 08 Python
Django中在xadmin中集成DjangoUeditor过程详解
Jul 24 Python
python 消除 futureWarning问题的解决
Dec 25 Python
Python 2种方法求某个范围内的所有素数(质数)
Jan 31 Python
Django 博客实现简单的全文搜索的示例代码
Feb 17 Python
Python object类中的特殊方法代码讲解
Mar 06 Python
使用tensorflow框架在Colab上跑通猫狗识别代码
Apr 26 Python
keras做CNN的训练误差loss的下降操作
Jun 22 Python
python+django+rest框架配置创建方法
Aug 31 #Python
Python实现Restful API的例子
Aug 31 #Python
python递归下载文件夹下所有文件
Aug 31 #Python
python或C++读取指定文件夹下的所有图片
Aug 31 #Python
解决Django删除migrations文件夹中的文件后出现的异常问题
Aug 31 #Python
Django项目后台不挂断运行的方法
Aug 31 #Python
python遍历文件目录、批量处理同类文件
Aug 31 #Python
You might like
安装APACHE
2007/01/15 PHP
PHP实现文件上传和多文件上传
2015/12/24 PHP
键盘 keycode的值 javascript时触发事件时很有用的要素
2009/11/02 Javascript
自己整理的一个javascript日期处理函数
2010/10/16 Javascript
jquery入门—访问DOM对象方法
2013/01/07 Javascript
一个级联菜单代码学习及removeClass与addClass的应用
2013/01/24 Javascript
nodejs分页类代码分享
2014/06/17 NodeJs
从数据库读取数据后将其输出成html标签的三种方法
2014/10/13 Javascript
javascript框架设计之框架分类及主要功能
2015/06/23 Javascript
jQuery实现判断滚动条到底部
2015/06/23 Javascript
PhantomJS快速入门教程(服务器端的 JavaScript API 的 WebKit)
2015/08/06 Javascript
jQuery操作基本控件方法实例分析
2015/12/31 Javascript
Javascript数组中push方法用法分析
2016/10/31 Javascript
vue实现前进刷新后退不刷新效果
2018/01/26 Javascript
Redux实现组合计数器的示例代码
2018/07/04 Javascript
Vue3.0结合bootstrap创建多页面应用
2019/05/28 Javascript
微信小程序后端(java)开发流程的详细步骤
2019/11/13 Javascript
15分钟上手vue3.0(小结)
2020/05/20 Javascript
Python fileinput模块使用实例
2015/05/28 Python
Django与遗留的数据库整合的方法指南
2015/07/24 Python
Python使用微信SDK实现的微信支付功能示例
2017/06/30 Python
利用Python如何生成hash值示例详解
2017/12/20 Python
win8下python3.4安装和环境配置图文教程
2018/07/31 Python
Python在图片中插入大量文字并且自动换行
2019/01/02 Python
django model的update时auto_now不被更新的原因及解决方式
2020/04/01 Python
Django实现列表页商品数据返回教程
2020/04/03 Python
Under Armour澳大利亚官网:美国知名的高端功能性运动品牌
2018/02/22 全球购物
美国摩托车头盔、零件、齿轮及配件商店:Cycle Gear
2019/06/12 全球购物
eHarmony英国:全球领先的认真恋爱约会平台之一
2020/11/16 全球购物
Linux的主要特性
2014/10/06 面试题
研究生自荐信
2013/10/09 职场文书
网吧七夕活动策划方案
2014/08/31 职场文书
三严三实对照检查材料范文
2014/09/23 职场文书
铅球加油稿100字
2014/09/26 职场文书
2014年学校工作总结
2014/11/20 职场文书
python 中的jieba分词库
2021/11/23 Python