Python查找文件中包含中文的行方法


Posted in Python onDecember 19, 2018

前言

近几天在做多语言版本的时候再次发现,区分各种语言真的是一件比较困难的事情,上一次做中文提取工具的就花了不少时间,这次决定用python试一试,结果写起来发现真是方便不少,自己整理了一下方便以后查找使用。

代码

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# find the line of containing chinese in files

__author__ = 'AlbertS'

import re

def start_find_chinese():
 find_count = 0;
 with open('ko_untranslated.txt', 'wb') as outfile:
  with open('source_ko.txt', 'rb') as infile:
   while True:
    content = infile.readline()
    if re.match(r'(.*[\u4E00-\u9FA5]+)|([\u4E00-\u9FA5]+.*)', content.decode('utf-8')):
     outfile.write(content)
     find_count += 1;

    if not content:
     return find_count

# start to find
if __name__ == '__main__':
 count = start_find_chinese()
 print("find complete! count =", count)

原始文件

source_ko.txt文件内容

3 캐릭터 Lv.50 달성
8 캐릭터 Lv.80 달성
10 캐릭터 Lv.90 달성
...
...
2840 飞黄腾达
4841 同归于尽
8848 캐릭터 Lv.50 달

运行效果(ko_untranslated.txt文件)

2840 飞黄腾达
4841 同归于尽

总结

1. 其实这段小小的代码中包含了两个常用的功能,那就是读写文件和正则表达式。

2. 这也是两个重要的知识点,其中with操作可能防止资源泄漏,操作起来更加方便。

3. 正则表达式可是一个文字处理的利器,代码中的正则可能还不太完善,后续我会继续补充更新。

以上这篇Python查找文件中包含中文的行方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中使用bidict模块双向字典结构的奇技淫巧
Jul 12 Python
Python程序中设置HTTP代理
Nov 06 Python
python访问抓取网页常用命令总结
Apr 11 Python
Python读取和处理文件后缀为.sqlite的数据文件(实例讲解)
Jun 27 Python
Python3多线程操作简单示例
May 22 Python
Python装饰器基础概念与用法详解
Dec 22 Python
python+os根据文件名自动生成文本
Mar 21 Python
详解Python locals()的陷阱
Mar 26 Python
python中时间模块的基本使用教程
May 14 Python
Python实现微信机器人的方法
Sep 06 Python
TensorFlow:将ckpt文件固化成pb文件教程
Feb 11 Python
在Python3.74+PyCharm2020.1 x64中安装使用Kivy的详细教程
Aug 07 Python
对python requests发送json格式数据的实例详解
Dec 19 #Python
解决Python下json.loads()中文字符出错的问题
Dec 19 #Python
python执行CMD指令,并获取返回的方法
Dec 19 #Python
python使用response.read()接收json数据的实例
Dec 19 #Python
Python通用循环的构造方法实例分析
Dec 19 #Python
Python实现对字典分别按键(key)和值(value)进行排序的方法分析
Dec 19 #Python
对json字符串与python字符串的不同之处详解
Dec 19 #Python
You might like
php图片验证码代码
2008/03/27 PHP
解析php如何将日志写进syslog
2013/06/28 PHP
PHP编译安装中遇到的两个错误和解决方法
2014/08/20 PHP
3种方法轻松处理php开发中emoji表情的问题
2016/07/18 PHP
PHP生成推广海报的方法分享
2018/04/22 PHP
Laravel框架基础语法与知识点整理【模板变量、输出、include引入子视图等】
2019/12/03 PHP
jQuery获取文本节点之 text()/val()/html() 方法区别
2011/03/01 Javascript
jQuery中remove()方法用法实例
2014/12/25 Javascript
JavaScript中实现单体模式分享
2015/01/29 Javascript
jQuery实现预加载图片的方法
2015/03/17 Javascript
JavaScript操作XML/HTML比较常用的对象属性集锦
2015/10/30 Javascript
js贪吃蛇游戏实现思路和源码
2016/04/14 Javascript
使用ionic(选项卡栏tab) icon(图标) ionic上拉菜单(ActionSheet) 实现通讯录界面切换实例代码
2017/10/20 Javascript
jquery弹窗时禁止body滚动条滚动的例子
2019/09/21 jQuery
JS实现网站楼层导航效果代码实例
2020/06/16 Javascript
[52:02]DOTA2-DPC中国联赛 正赛 Phoenix vs Dragon BO3 第二场 2月26日
2021/03/11 DOTA
Python创建xml文件示例
2017/03/22 Python
python+matplotlib实现礼盒柱状图实例代码
2018/01/16 Python
对numpy中数组元素的统一赋值实例
2018/04/04 Python
PyTorch学习笔记之回归实战
2018/05/28 Python
Python应用领域和就业形势分析总结
2019/05/14 Python
pandas对dataFrame中某一个列的数据进行处理的方法
2019/07/08 Python
Python生态圈图像格式转换问题(推荐)
2019/12/02 Python
Python爬虫爬取电影票房数据及图表展示操作示例
2020/03/27 Python
python实现处理mysql结果输出方式
2020/04/09 Python
python删除某个目录文件夹的方法
2020/05/26 Python
实例讲解CSS3中的box-flex弹性盒属性布局
2016/06/09 HTML / CSS
HTML5 绘制图像(上)之:关于canvas元素引领下一代web页面的问题
2013/04/24 HTML / CSS
英国奢侈品网站:MatchesFashion
2016/12/16 全球购物
应聘护士自荐信
2013/10/21 职场文书
中医学专业自荐信范文
2014/04/01 职场文书
出国留学计划书
2014/04/27 职场文书
教导主任竞聘演讲稿
2014/05/16 职场文书
实习协议书范本
2014/09/25 职场文书
如何书写民事调解协议书?
2019/06/25 职场文书
深入理解java.lang.String类的不可变性
2021/06/27 Java/Android