Python查找文件中包含中文的行方法


Posted in Python onDecember 19, 2018

前言

近几天在做多语言版本的时候再次发现,区分各种语言真的是一件比较困难的事情,上一次做中文提取工具的就花了不少时间,这次决定用python试一试,结果写起来发现真是方便不少,自己整理了一下方便以后查找使用。

代码

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# find the line of containing chinese in files

__author__ = 'AlbertS'

import re

def start_find_chinese():
 find_count = 0;
 with open('ko_untranslated.txt', 'wb') as outfile:
  with open('source_ko.txt', 'rb') as infile:
   while True:
    content = infile.readline()
    if re.match(r'(.*[\u4E00-\u9FA5]+)|([\u4E00-\u9FA5]+.*)', content.decode('utf-8')):
     outfile.write(content)
     find_count += 1;

    if not content:
     return find_count

# start to find
if __name__ == '__main__':
 count = start_find_chinese()
 print("find complete! count =", count)

原始文件

source_ko.txt文件内容

3 캐릭터 Lv.50 달성
8 캐릭터 Lv.80 달성
10 캐릭터 Lv.90 달성
...
...
2840 飞黄腾达
4841 同归于尽
8848 캐릭터 Lv.50 달

运行效果(ko_untranslated.txt文件)

2840 飞黄腾达
4841 同归于尽

总结

1. 其实这段小小的代码中包含了两个常用的功能,那就是读写文件和正则表达式。

2. 这也是两个重要的知识点,其中with操作可能防止资源泄漏,操作起来更加方便。

3. 正则表达式可是一个文字处理的利器,代码中的正则可能还不太完善,后续我会继续补充更新。

以上这篇Python查找文件中包含中文的行方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python通过pil模块获得图片exif信息的方法
Mar 16 Python
python编写爬虫小程序
May 14 Python
python通过pip更新所有已安装的包实现方法
May 19 Python
Python基于回溯法解决01背包问题实例
Dec 06 Python
python中join()方法介绍
Oct 11 Python
对python中Librosa的mfcc步骤详解
Jan 09 Python
python获取Pandas列名的几种方法
Aug 07 Python
Python使用itchat模块实现简单的微信控制电脑功能示例
Aug 26 Python
Django中文件上传和文件访问微项目的方法
Apr 27 Python
django queryset相加和筛选教程
May 18 Python
Manjaro、pip、conda更换国内源的方法
Nov 17 Python
python实现代码审查自动回复消息
Feb 01 Python
对python requests发送json格式数据的实例详解
Dec 19 #Python
解决Python下json.loads()中文字符出错的问题
Dec 19 #Python
python执行CMD指令,并获取返回的方法
Dec 19 #Python
python使用response.read()接收json数据的实例
Dec 19 #Python
Python通用循环的构造方法实例分析
Dec 19 #Python
Python实现对字典分别按键(key)和值(value)进行排序的方法分析
Dec 19 #Python
对json字符串与python字符串的不同之处详解
Dec 19 #Python
You might like
php实现文件下载功能的几个代码分享
2014/05/10 PHP
php检测apache mod_rewrite模块是否安装的方法
2015/03/14 PHP
PHP传参之传值与传址的区别
2015/04/24 PHP
php使用Imagick生成图片的方法
2015/07/31 PHP
ThinkPHP框架搭建及常见问题(XAMPP安装失败、Apache/MySQL启动失败)
2016/04/15 PHP
PHP实现对二维数组某个键排序的方法
2016/09/14 PHP
jQuery each()方法的使用方法
2010/03/18 Javascript
在网页中使用document.write时遭遇的奇怪问题
2010/08/24 Javascript
jQuery实现的导航条切换可显示隐藏
2014/10/22 Javascript
js实现浏览器窗口大小被改变时触发事件的方法
2015/02/02 Javascript
cookie的secure属性详解
2015/04/08 Javascript
元素绑定click点击事件方法
2015/06/08 Javascript
谈一谈js中的执行环境及作用域
2016/03/30 Javascript
基于jQuery的AJAX和JSON实现纯html数据模板
2016/08/09 Javascript
AngularJs bootstrap搭载前台框架——准备工作
2016/09/01 Javascript
js图片放大镜实例讲解(必看篇)
2017/07/17 Javascript
说说node中的可读流和可写流的区别
2018/06/01 Javascript
解决Layui数据表格中checkbox位置不居中的方法
2018/08/15 Javascript
微信小程序自定义组件传值 页面和组件相互传数据操作示例
2019/05/05 Javascript
Android 自定义view仿微信相机单击拍照长按录视频按钮
2019/07/19 Javascript
Nodejs中使用puppeteer控制浏览器中视频播放功能
2019/08/26 NodeJs
js实现移动端tab切换时下划线滑动效果
2019/09/08 Javascript
解决vue项目本地启动时无法携带cookie的问题
2021/02/06 Vue.js
[24:42]VP vs TNC Supermajor小组赛B组 BO3 第三场 6.2
2018/06/03 DOTA
Python实现文件按照日期命名的方法
2015/07/09 Python
Python用模块pytz来转换时区
2016/08/19 Python
python opencv实现任意角度的透视变换实例代码
2018/01/12 Python
TensorFlow saver指定变量的存取
2018/03/10 Python
TensorFlow实现简单的CNN的方法
2019/07/18 Python
利用python实现.dcm格式图像转为.jpg格式
2020/01/13 Python
CSS3常用的几种颜色渐变模式总结
2016/11/18 HTML / CSS
德国鞋子网上商店:Omoda.de
2017/03/31 全球购物
新西兰珠宝品牌:Michael Hill
2017/09/16 全球购物
资生堂英国官网:Shiseido英国
2020/12/30 全球购物
舞蹈教育学专业自荐信
2014/06/15 职场文书
2014年药品销售工作总结
2014/12/16 职场文书