Python查找文件中包含中文的行方法


Posted in Python onDecember 19, 2018

前言

近几天在做多语言版本的时候再次发现,区分各种语言真的是一件比较困难的事情,上一次做中文提取工具的就花了不少时间,这次决定用python试一试,结果写起来发现真是方便不少,自己整理了一下方便以后查找使用。

代码

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# find the line of containing chinese in files

__author__ = 'AlbertS'

import re

def start_find_chinese():
 find_count = 0;
 with open('ko_untranslated.txt', 'wb') as outfile:
  with open('source_ko.txt', 'rb') as infile:
   while True:
    content = infile.readline()
    if re.match(r'(.*[\u4E00-\u9FA5]+)|([\u4E00-\u9FA5]+.*)', content.decode('utf-8')):
     outfile.write(content)
     find_count += 1;

    if not content:
     return find_count

# start to find
if __name__ == '__main__':
 count = start_find_chinese()
 print("find complete! count =", count)

原始文件

source_ko.txt文件内容

3 캐릭터 Lv.50 달성
8 캐릭터 Lv.80 달성
10 캐릭터 Lv.90 달성
...
...
2840 飞黄腾达
4841 同归于尽
8848 캐릭터 Lv.50 달

运行效果(ko_untranslated.txt文件)

2840 飞黄腾达
4841 同归于尽

总结

1. 其实这段小小的代码中包含了两个常用的功能,那就是读写文件和正则表达式。

2. 这也是两个重要的知识点,其中with操作可能防止资源泄漏,操作起来更加方便。

3. 正则表达式可是一个文字处理的利器,代码中的正则可能还不太完善,后续我会继续补充更新。

以上这篇Python查找文件中包含中文的行方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现文件分组复制到不同目录的例子
Jun 04 Python
python实现无证书加密解密实例
Oct 27 Python
Python常见异常分类与处理方法
Jun 04 Python
Tensorflow之构建自己的图片数据集TFrecords的方法
Feb 07 Python
对python打乱数据集中X,y标签对的方法详解
Dec 14 Python
python 数据生成excel导出(xlwt,wlsxwrite)代码实例
Aug 23 Python
Python: tkinter窗口屏幕居中,设置窗口最大,最小尺寸实例
Mar 04 Python
Django media static外部访问Django中的图片设置教程
Apr 07 Python
python实现逢七拍腿小游戏的思路详解
May 26 Python
python自动生成证件号的方法示例
Jan 14 Python
python使用Windows的wmic命令监控文件运行状况,如有异常发送邮件报警
Jan 30 Python
快速一键生成Python爬虫请求头
Mar 04 Python
对python requests发送json格式数据的实例详解
Dec 19 #Python
解决Python下json.loads()中文字符出错的问题
Dec 19 #Python
python执行CMD指令,并获取返回的方法
Dec 19 #Python
python使用response.read()接收json数据的实例
Dec 19 #Python
Python通用循环的构造方法实例分析
Dec 19 #Python
Python实现对字典分别按键(key)和值(value)进行排序的方法分析
Dec 19 #Python
对json字符串与python字符串的不同之处详解
Dec 19 #Python
You might like
php中通过Ajax如何实现异步文件上传的代码实例
2011/05/07 PHP
yii框架builder、update、delete使用方法
2014/04/30 PHP
php实现微信公众平台账号自定义菜单类
2015/10/11 PHP
thinkPHP交易详情查询功能详解
2016/12/02 PHP
JavaScript 获得选中文本内容的方法
2009/02/15 Javascript
仿新浪微博返回顶部的jquery实现代码
2012/10/01 Javascript
javascript 实现简单的table排序及table操作练习
2012/12/28 Javascript
我用的一些Node.js开发工具、开发包、框架等总结
2014/09/25 Javascript
jQuery实现渐变弹出层和弹出菜单的方法
2015/02/20 Javascript
jquery实现浮动的侧栏实例
2015/06/25 Javascript
JS实现网页标题随机显示名人名言的方法
2015/11/03 Javascript
跟我学习javascript的全局变量
2015/11/16 Javascript
AngularJs自定义服务之实现签名和加密
2016/08/02 Javascript
javascript之IE版本检测超简单方法
2016/08/20 Javascript
AngularJs bootstrap搭载前台框架——js控制部分
2016/09/01 Javascript
需要牢记的JavaScript基础知识
2016/09/25 Javascript
利用jquery实现下拉框的禁用与启用
2016/12/07 Javascript
微信小程序(六):列表上拉加载下拉刷新示例
2017/01/13 Javascript
jquery拖动改变div大小
2017/07/04 jQuery
vue-router+nginx 非根路径配置方法
2018/06/30 Javascript
Vue拖拽组件列表实现动态页面配置功能
2019/06/17 Javascript
layui点击数据表格添加或删除一行的例子
2019/09/12 Javascript
原生JS实现多条件筛选
2020/08/19 Javascript
详解ES6 扩展运算符的使用与注意事项
2020/11/12 Javascript
python获得两个数组交集、并集、差集的方法
2015/03/27 Python
python3 与python2 异常处理的区别与联系
2016/06/19 Python
python3中str(字符串)的使用教程
2017/03/23 Python
Python更新数据库脚本两种方法及对比介绍
2017/07/27 Python
django中ORM模型常用的字段的使用方法
2019/03/05 Python
pytorch模型存储的2种实现方法
2020/02/14 Python
瑞典度假品牌:OAS
2019/05/28 全球购物
西安当代医院管理研究院笔试题
2015/12/11 面试题
介绍一下XMLHttpRequest对象
2012/02/12 面试题
大学班级学风建设方案
2014/05/01 职场文书
教师远程培训心得体会
2016/01/09 职场文书
python多次执行绘制条形图
2022/04/20 Python