Python查找文件中包含中文的行方法


Posted in Python onDecember 19, 2018

前言

近几天在做多语言版本的时候再次发现,区分各种语言真的是一件比较困难的事情,上一次做中文提取工具的就花了不少时间,这次决定用python试一试,结果写起来发现真是方便不少,自己整理了一下方便以后查找使用。

代码

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# find the line of containing chinese in files

__author__ = 'AlbertS'

import re

def start_find_chinese():
 find_count = 0;
 with open('ko_untranslated.txt', 'wb') as outfile:
  with open('source_ko.txt', 'rb') as infile:
   while True:
    content = infile.readline()
    if re.match(r'(.*[\u4E00-\u9FA5]+)|([\u4E00-\u9FA5]+.*)', content.decode('utf-8')):
     outfile.write(content)
     find_count += 1;

    if not content:
     return find_count

# start to find
if __name__ == '__main__':
 count = start_find_chinese()
 print("find complete! count =", count)

原始文件

source_ko.txt文件内容

3 캐릭터 Lv.50 달성
8 캐릭터 Lv.80 달성
10 캐릭터 Lv.90 달성
...
...
2840 飞黄腾达
4841 同归于尽
8848 캐릭터 Lv.50 달

运行效果(ko_untranslated.txt文件)

2840 飞黄腾达
4841 同归于尽

总结

1. 其实这段小小的代码中包含了两个常用的功能,那就是读写文件和正则表达式。

2. 这也是两个重要的知识点,其中with操作可能防止资源泄漏,操作起来更加方便。

3. 正则表达式可是一个文字处理的利器,代码中的正则可能还不太完善,后续我会继续补充更新。

以上这篇Python查找文件中包含中文的行方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
在Python3中初学者应会的一些基本的提升效率的小技巧
Mar 31 Python
在Python下使用Txt2Html实现网页过滤代理的教程
Apr 11 Python
解读Python中degrees()方法的使用
May 18 Python
Python 中 Meta Classes详解
Feb 13 Python
深入解析Python中函数的参数与作用域
Mar 20 Python
Python 文件操作的详解及实例
Sep 18 Python
Python如何生成树形图案
Jan 03 Python
Python实现Selenium自动化Page模式
Jul 14 Python
学习Django知识点分享
Sep 11 Python
python requests包的request()函数中的参数-params和data的区别介绍
May 05 Python
Keras实现支持masking的Flatten层代码
Jun 16 Python
pycharm激活码2020最新分享适用pycharm2020最新版亲测可用
Nov 22 Python
对python requests发送json格式数据的实例详解
Dec 19 #Python
解决Python下json.loads()中文字符出错的问题
Dec 19 #Python
python执行CMD指令,并获取返回的方法
Dec 19 #Python
python使用response.read()接收json数据的实例
Dec 19 #Python
Python通用循环的构造方法实例分析
Dec 19 #Python
Python实现对字典分别按键(key)和值(value)进行排序的方法分析
Dec 19 #Python
对json字符串与python字符串的不同之处详解
Dec 19 #Python
You might like
php格式化工具Beautify PHP小小BUG
2008/04/24 PHP
解决文件名解压后乱码的问题 将文件名进行转码的代码
2012/01/10 PHP
php上传文件中文文件名乱码的解决方法
2013/11/01 PHP
php生成扇形比例图实例
2013/11/06 PHP
PHP把网页保存为word文件的三种方法
2014/04/01 PHP
PHP反向代理类代码
2014/08/15 PHP
php实现文本数据导入SQL SERVER
2015/05/17 PHP
PHP实现超简单的SSL加密解密、验证及签名的方法示例
2017/08/28 PHP
laravel ORM 只开启created_at的几种方法总结
2018/01/29 PHP
键盘控制事件应用教程大全
2006/11/24 Javascript
javascript跨域原因以及解决方案分享
2015/04/08 Javascript
js获取客户端操作系统类型的方法【测试可用】
2016/05/27 Javascript
jquery+css3问卷答题卡翻页动画效果示例
2016/10/26 Javascript
原生和jQuery的ajax用法详解
2017/01/23 Javascript
vue单页应用中如何使用jquery的方法示例
2017/07/27 jQuery
jQuery基于闭包实现的显示与隐藏div功能示例
2018/06/09 jQuery
python目录操作之python遍历文件夹后将结果存储为xml
2014/01/27 Python
python目录与文件名操作例子
2016/08/28 Python
python中如何使用正则表达式的非贪婪模式示例
2017/10/09 Python
Python实现的基数排序算法原理与用法实例分析
2017/11/23 Python
Django配置celery(非djcelery)执行异步任务和定时任务
2018/07/16 Python
Django实战之用户认证(初始配置)
2018/07/16 Python
对Python3使运行暂停的方法详解
2019/02/18 Python
python字符串下标与切片及使用方法
2020/02/13 Python
使用Matplotlib绘制不同颜色的带箭头的线实例
2020/04/17 Python
Python字符串的15个基本操作(小结)
2021/02/03 Python
CSS3 rgb and rgba(透明色)的使用详解
2020/09/25 HTML / CSS
西班牙美妆电商:Perfume’s Club(有中文站)
2018/08/08 全球购物
传统软件工程与面向对象的软件工程有什么区别
2012/05/31 面试题
机械专业应届生求职信
2013/09/21 职场文书
旅游管理实习自我鉴定
2013/09/29 职场文书
微观物理专业自荐信
2014/01/26 职场文书
会议新闻稿
2015/07/17 职场文书
六五普法先进个人主要事迹材料
2015/11/03 职场文书
mysql事务隔离级别详情
2021/10/24 MySQL
一文搞懂Golang 时间和日期相关函数
2021/12/06 Golang