Python查找文件中包含中文的行方法


Posted in Python onDecember 19, 2018

前言

近几天在做多语言版本的时候再次发现,区分各种语言真的是一件比较困难的事情,上一次做中文提取工具的就花了不少时间,这次决定用python试一试,结果写起来发现真是方便不少,自己整理了一下方便以后查找使用。

代码

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# find the line of containing chinese in files

__author__ = 'AlbertS'

import re

def start_find_chinese():
 find_count = 0;
 with open('ko_untranslated.txt', 'wb') as outfile:
  with open('source_ko.txt', 'rb') as infile:
   while True:
    content = infile.readline()
    if re.match(r'(.*[\u4E00-\u9FA5]+)|([\u4E00-\u9FA5]+.*)', content.decode('utf-8')):
     outfile.write(content)
     find_count += 1;

    if not content:
     return find_count

# start to find
if __name__ == '__main__':
 count = start_find_chinese()
 print("find complete! count =", count)

原始文件

source_ko.txt文件内容

3 캐릭터 Lv.50 달성
8 캐릭터 Lv.80 달성
10 캐릭터 Lv.90 달성
...
...
2840 飞黄腾达
4841 同归于尽
8848 캐릭터 Lv.50 달

运行效果(ko_untranslated.txt文件)

2840 飞黄腾达
4841 同归于尽

总结

1. 其实这段小小的代码中包含了两个常用的功能,那就是读写文件和正则表达式。

2. 这也是两个重要的知识点,其中with操作可能防止资源泄漏,操作起来更加方便。

3. 正则表达式可是一个文字处理的利器,代码中的正则可能还不太完善,后续我会继续补充更新。

以上这篇Python查找文件中包含中文的行方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
zbar解码二维码和条形码示例
Feb 07 Python
python实现字符串和日期相互转换的方法
May 13 Python
python+opencv实现动态物体识别
Jan 09 Python
Python对CSV、Excel、txt、dat文件的处理
Sep 18 Python
python+mysql实现教务管理系统
Feb 20 Python
python远程连接MySQL数据库
Apr 19 Python
python中return的返回和执行实例
Dec 24 Python
Python socket处理client连接过程解析
Mar 18 Python
Python私有属性私有方法应用实例解析
Sep 15 Python
python中pivot()函数基础知识点
Jan 03 Python
python中封包建立过程实例
Feb 18 Python
python爬虫scrapy基本使用超详细教程
Feb 20 Python
对python requests发送json格式数据的实例详解
Dec 19 #Python
解决Python下json.loads()中文字符出错的问题
Dec 19 #Python
python执行CMD指令,并获取返回的方法
Dec 19 #Python
python使用response.read()接收json数据的实例
Dec 19 #Python
Python通用循环的构造方法实例分析
Dec 19 #Python
Python实现对字典分别按键(key)和值(value)进行排序的方法分析
Dec 19 #Python
对json字符串与python字符串的不同之处详解
Dec 19 #Python
You might like
PHP Ajax中文乱码问题解决方法
2009/02/27 PHP
PHP实现删除非站内外部链接实例代码
2014/06/17 PHP
PHP mysql事务问题实例分析
2016/01/18 PHP
又拍云异步上传实例教程详解
2016/04/19 PHP
3种方法轻松处理php开发中emoji表情的问题
2016/07/18 PHP
thinkPHP5.0框架自动加载机制分析
2017/03/18 PHP
PHP实现网站应用微信登录功能详解
2019/04/11 PHP
php和js实现根据子网掩码和ip计算子网功能示例
2019/11/09 PHP
为超链接加上disabled后的故事
2010/12/10 Javascript
javascript分页代码实例分享(js分页)
2013/12/13 Javascript
javascript生成随机颜色示例代码
2014/05/05 Javascript
javascript实现获取浏览器版本、操作系统类型
2015/01/29 Javascript
javascript嵌套函数和在函数内调用外部函数的区别分析
2016/01/31 Javascript
Node.js本地文件操作之文件拷贝与目录遍历的方法
2016/02/16 Javascript
在js中做数字字符串补0(js补零)
2017/03/25 Javascript
捕获未处理的Promise错误方法
2017/10/13 Javascript
详解vue填坑之解决部分浏览器不支持pushState方法
2018/07/12 Javascript
解决koa2 ctx.render is not a function报错问题
2018/08/07 Javascript
Vue.js组件间通信方式总结【推荐】
2018/11/23 Javascript
js实现验证码干扰(动态)
2021/02/23 Javascript
[04:52]DOTA2亚洲邀请赛附加赛 TOP10精彩集锦
2015/01/29 DOTA
详解Python设计模式编程中观察者模式与策略模式的运用
2016/03/02 Python
Python实现字典的遍历与排序功能示例
2017/12/23 Python
Python搭建FTP服务器的方法示例
2018/01/19 Python
python用opencv批量截取图像指定区域的方法
2019/01/24 Python
Python通用函数实现数组计算的方法
2019/06/13 Python
python实现提取COCO,VOC数据集中特定的类
2020/03/10 Python
海外淘书首选:AbeBooks
2017/07/31 全球购物
Joules美国官网:出色的英国风格
2017/10/30 全球购物
如何清空Session
2015/02/23 面试题
班组长竞聘书
2014/03/31 职场文书
乡镇党委书记第三阶段个人整改措施
2014/09/16 职场文书
2014社会治安综合治理工作总结
2014/12/04 职场文书
2014年度工作总结报告
2014/12/15 职场文书
走近毛泽东观后感
2015/06/04 职场文书
企业管理不到位检讨书
2019/06/27 职场文书