Python查找文件中包含中文的行方法


Posted in Python onDecember 19, 2018

前言

近几天在做多语言版本的时候再次发现,区分各种语言真的是一件比较困难的事情,上一次做中文提取工具的就花了不少时间,这次决定用python试一试,结果写起来发现真是方便不少,自己整理了一下方便以后查找使用。

代码

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# find the line of containing chinese in files

__author__ = 'AlbertS'

import re

def start_find_chinese():
 find_count = 0;
 with open('ko_untranslated.txt', 'wb') as outfile:
  with open('source_ko.txt', 'rb') as infile:
   while True:
    content = infile.readline()
    if re.match(r'(.*[\u4E00-\u9FA5]+)|([\u4E00-\u9FA5]+.*)', content.decode('utf-8')):
     outfile.write(content)
     find_count += 1;

    if not content:
     return find_count

# start to find
if __name__ == '__main__':
 count = start_find_chinese()
 print("find complete! count =", count)

原始文件

source_ko.txt文件内容

3 캐릭터 Lv.50 달성
8 캐릭터 Lv.80 달성
10 캐릭터 Lv.90 달성
...
...
2840 飞黄腾达
4841 同归于尽
8848 캐릭터 Lv.50 달

运行效果(ko_untranslated.txt文件)

2840 飞黄腾达
4841 同归于尽

总结

1. 其实这段小小的代码中包含了两个常用的功能,那就是读写文件和正则表达式。

2. 这也是两个重要的知识点,其中with操作可能防止资源泄漏,操作起来更加方便。

3. 正则表达式可是一个文字处理的利器,代码中的正则可能还不太完善,后续我会继续补充更新。

以上这篇Python查找文件中包含中文的行方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
跟老齐学Python之有容乃大的list(1)
Sep 14 Python
详解Python中映射类型(字典)操作符的概念和使用
Aug 19 Python
Python实现的堆排序算法示例
Apr 29 Python
python 移除字符串尾部的数字方法
Jul 17 Python
Python OpenCV读取png图像转成jpg图像存储的方法
Oct 28 Python
分析经典Python开发工程师面试题
Apr 08 Python
一篇文章了解Python中常见的序列化操作
Jun 20 Python
python中hasattr()、getattr()、setattr()函数的使用
Aug 16 Python
解决python彩色螺旋线绘制引发的问题
Nov 23 Python
如何理解python面向对象编程
Jun 01 Python
用Python开发app后端有优势吗
Jun 29 Python
Python创建简单的神经网络实例讲解
Jan 04 Python
对python requests发送json格式数据的实例详解
Dec 19 #Python
解决Python下json.loads()中文字符出错的问题
Dec 19 #Python
python执行CMD指令,并获取返回的方法
Dec 19 #Python
python使用response.read()接收json数据的实例
Dec 19 #Python
Python通用循环的构造方法实例分析
Dec 19 #Python
Python实现对字典分别按键(key)和值(value)进行排序的方法分析
Dec 19 #Python
对json字符串与python字符串的不同之处详解
Dec 19 #Python
You might like
解决了Ajax、MySQL 和 Zend Framework 的乱码问题
2009/03/03 PHP
PHP获取数组中某元素的位置及array_keys函数应用
2013/01/29 PHP
PHP+MySQL实现消息队列的方法分析
2018/05/09 PHP
jQuery TextBox自动完成条
2009/07/22 Javascript
JS input 数字验证代码
2009/07/30 Javascript
Javascript实现的鼠标经过时播放声音
2010/05/18 Javascript
jQuery 遍历-nextUntil()方法以及prevUntil()方法的使用介绍
2013/04/26 Javascript
js 显示base64编码的二进制流网页图片
2014/04/04 Javascript
Javascript中浮点数相乘的一个解决方法
2014/06/03 Javascript
使用Browserify配合jQuery进行编程的超级指南
2015/07/28 Javascript
深入解析JavaScript编程中的this关键字使用
2015/11/09 Javascript
BootStrap导航栏问题记录
2017/07/31 Javascript
浅谈Angular文字折叠展开组件的原理分析
2017/11/24 Javascript
vue2.0 中使用transition实现动画效果使用心得
2018/08/13 Javascript
iview在vue-cli3如何按需加载的方法
2018/10/31 Javascript
CryptoJS中AES实现前后端通用加解密技术
2018/12/18 Javascript
关于js陀螺仪的理解分析
2019/04/11 Javascript
详解vue 自定义组件使用v-model 及探究其中原理
2019/10/11 Javascript
JavaScript鼠标拖拽事件详解
2020/04/03 Javascript
python创建一个最简单http webserver服务器的方法
2015/05/08 Python
Django Admin中增加导出Excel功能过程解析
2019/09/04 Python
PyQt5高级界面控件之QTableWidget的具体使用方法
2020/02/23 Python
浅谈Python 命令行参数argparse写入图片路径操作
2020/07/12 Python
python 中关于pycharm选择运行环境的问题
2020/10/31 Python
印度最大的酒店品牌网络:OYO Rooms
2016/07/24 全球购物
实习生个人找工作的自我评价
2013/10/30 职场文书
乐观自信演讲稿范文
2014/05/21 职场文书
学校安全工作汇报材料
2014/08/16 职场文书
社区文艺活动方案
2014/08/19 职场文书
机关领导查摆四风思想汇报
2014/09/13 职场文书
党员民主评议个人总结
2014/10/20 职场文书
小学教学工作总结2015
2015/05/13 职场文书
新闻稿件写作技巧
2015/07/18 职场文书
公务员岗前培训心得体会
2016/01/08 职场文书
《观察物体》教学反思
2016/02/17 职场文书
Pytorch 如何实现常用正则化
2021/05/27 Python