编程 Python

python读取中文txt文本的方法

Posted in Python onApril 12, 2018

对于python2.7

字符串在Python2.7内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码成unicode，再从unicode编码成另一种编码。

先用一些编辑器（如editplus ）看一下你的txt文件保存的是utf-8，还是gb2312或其他的。当你读行时可以这样

line = (file1.readline()).decode('utf-8').encode('gb2312')或
line = (file1.readline()).decode('gb2312').encode('utf-8')

注意：txt使用utf8编码的时候会默认在文件开头插入三个不可见字符。这个是windows用来判断txt编码是否为utf8的。所以如果你直接使用decode('utf-8')的话是得不到正确结果的。

必须先判断前三个字符是否是windows插入的那三个。这个python已经定义了一个常量了，可以直接和这个常量比较，如果一样就删除前三个字符然后再decode。

import codecs 
 data = open("Test.txt").read() 
 if data[:3] == codecs.BOM_UTF8:  
  data = data[3:] 
  print data.decode("utf-8")

延伸：

因为decode的函数原型是decode([encoding], [errors='strict'])，可以用第二个参数控制错误处理的策略，默认的参数就是strict，代表遇到非法字符时抛出异常；

如果设置为ignore，则会忽略非法字符；

如果设置为replace，则会用?取代非法字符；

如果设置为xmlcharrefreplace，则使用XML的字符引用。

对于Python3

python3下比较简单,打开的时候指定encoding参数即可：open("txt.txt", encoding="gbk").read()。

以上这篇python读取中文txt文本的方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python读取中文txt文本的方法

- Author -

jingyi130705008

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python实现simhash算法实例

Apr 25 Python

Python 'takes exactly 1 argument (2 given)' Python error

Dec 13 Python

pandas读取CSV文件时查看修改各列的数据类型格式

Jul 07 Python

Python-Tkinter Text输入内容在界面显示的实例

Jul 12 Python

python如何实现不用装饰器实现登陆器小程序

Dec 14 Python

使用Pandas将inf, nan转化成特定的值

Dec 19 Python

Python Tkinter Entry和Text的添加与使用详解

Mar 04 Python

Python 跨.py文件调用自定义函数说明

Jun 01 Python

python实现密码验证合格程序的思路详解

Jun 01 Python

python实现马丁策略的实例详解

Jan 15 Python

Pandas直接读取sql脚本的方法

Jan 21 Python

Python中基础数据类型 set集合知识点总结

Aug 02 Python

基于python 处理中文路径的终极解决方法

Apr 12 #Python

解决Python2.7读写文件中的中文乱码问题

Apr 12 #Python

python 实现对文件夹内的文件排序编号

Apr 12 #Python

pandas数值计算与排序方法

Apr 12 #Python

python搭建服务器实现两个Android客户端间收发消息

Apr 12 #Python

python pandas 组内排序、单组排序、标号的实例

Apr 12 #Python

Python实现简单http服务器

Apr 12 #Python