Python查找文件中包含中文的行方法


Posted in Python onDecember 19, 2018

前言

近几天在做多语言版本的时候再次发现,区分各种语言真的是一件比较困难的事情,上一次做中文提取工具的就花了不少时间,这次决定用python试一试,结果写起来发现真是方便不少,自己整理了一下方便以后查找使用。

代码

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# find the line of containing chinese in files

__author__ = 'AlbertS'

import re

def start_find_chinese():
 find_count = 0;
 with open('ko_untranslated.txt', 'wb') as outfile:
  with open('source_ko.txt', 'rb') as infile:
   while True:
    content = infile.readline()
    if re.match(r'(.*[\u4E00-\u9FA5]+)|([\u4E00-\u9FA5]+.*)', content.decode('utf-8')):
     outfile.write(content)
     find_count += 1;

    if not content:
     return find_count

# start to find
if __name__ == '__main__':
 count = start_find_chinese()
 print("find complete! count =", count)

原始文件

source_ko.txt文件内容

3 캐릭터 Lv.50 달성
8 캐릭터 Lv.80 달성
10 캐릭터 Lv.90 달성
...
...
2840 飞黄腾达
4841 同归于尽
8848 캐릭터 Lv.50 달

运行效果(ko_untranslated.txt文件)

2840 飞黄腾达
4841 同归于尽

总结

1. 其实这段小小的代码中包含了两个常用的功能,那就是读写文件和正则表达式。

2. 这也是两个重要的知识点,其中with操作可能防止资源泄漏,操作起来更加方便。

3. 正则表达式可是一个文字处理的利器,代码中的正则可能还不太完善,后续我会继续补充更新。

以上这篇Python查找文件中包含中文的行方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
跟老齐学Python之大话题小函数(1)
Oct 10 Python
Python中的random()方法的使用介绍
May 15 Python
python实现统计代码行数的方法
May 22 Python
Python网络爬虫项目:内容提取器的定义
Oct 25 Python
一个基于flask的web应用诞生 组织结构调整(7)
Apr 11 Python
Python实现的购物车功能示例
Feb 11 Python
Python cookbook(数据结构与算法)通过公共键对字典列表排序算法示例
Mar 15 Python
Python中的 enum 模块源码详析
Jan 09 Python
numpy中的meshgrid函数的使用
Jul 31 Python
python实现对图片进行旋转,放缩,裁剪的功能
Aug 07 Python
python可视化 matplotlib画图使用colorbar工具自定义颜色
Dec 07 Python
基于PyTorch实现一个简单的CNN图像分类器
May 29 Python
对python requests发送json格式数据的实例详解
Dec 19 #Python
解决Python下json.loads()中文字符出错的问题
Dec 19 #Python
python执行CMD指令,并获取返回的方法
Dec 19 #Python
python使用response.read()接收json数据的实例
Dec 19 #Python
Python通用循环的构造方法实例分析
Dec 19 #Python
Python实现对字典分别按键(key)和值(value)进行排序的方法分析
Dec 19 #Python
对json字符串与python字符串的不同之处详解
Dec 19 #Python
You might like
PHP获取网站中各文章的第一张图片的代码示例
2016/05/20 PHP
php常用数组array函数实例总结【赋值,拆分,合并,计算,添加,删除,查询,判断,排序】
2016/12/07 PHP
php依赖注入知识点详解
2019/09/23 PHP
PHP解决高并发的优化方案实例
2020/12/10 PHP
jQuery源码分析之Event事件分析
2010/06/07 Javascript
js使用数组判断提交数据是否存在相同数据
2013/11/27 Javascript
什么是Node.js?Node.js详细介绍
2014/06/01 Javascript
javascript操作ul中li的方法
2015/05/14 Javascript
jquery制作属于自己的select自定义样式
2015/11/23 Javascript
jQuery获取某天的农历日期并判断是否除夕或新年的方法
2016/03/01 Javascript
详解Vue2.X的路由管理记录之 钩子函数(切割流水线)
2017/05/02 Javascript
详解Angular 4 表单快速入门
2017/06/05 Javascript
vue教程之toast弹框全局调用示例详解
2020/08/24 Javascript
微信小程序自定义模态对话框实例详解
2017/08/16 Javascript
Element-UI Table组件上添加列拖拽效果实现方法
2018/04/14 Javascript
VUE 实现复制内容到剪贴板的两种方法
2019/04/24 Javascript
微信小程序 scroll-view 实现锚点跳转功能
2019/12/12 Javascript
[01:04:06]DOTA2上海特级锦标赛A组资格赛#2 Secret VS EHOME第一局
2016/02/26 DOTA
[46:14]完美世界DOTA2联赛PWL S3 Magma vs INK ICE 第一场 12.11
2020/12/16 DOTA
python基础教程之实现石头剪刀布游戏示例
2014/02/11 Python
教大家使用Python SqlAlchemy
2016/02/12 Python
Python采用Django开发自己的博客系统
2020/09/29 Python
Python黑帽编程 3.4 跨越VLAN详解
2016/09/28 Python
Python优先队列实现方法示例
2017/09/21 Python
利用python在excel里面直接使用sql函数的方法
2019/02/08 Python
pytorch实现focal loss的两种方式小结
2020/01/02 Python
pytorch动态网络以及权重共享实例
2020/01/06 Python
教师实习的自我鉴定
2013/10/26 职场文书
土木工程专业个人求职信
2013/12/30 职场文书
会计自我鉴定
2014/02/04 职场文书
七匹狼男装广告词
2014/03/21 职场文书
学校安全生产承诺书
2014/05/23 职场文书
工伤事故赔偿协议书范文
2014/09/24 职场文书
2015年银行员工工作总结
2015/04/24 职场文书
《自己的花是让别人看的》教学反思
2016/02/19 职场文书
JS监听Esc 键触发事键
2021/04/14 Javascript