python3.4.3下逐行读入txt文本并去重的方法


Posted in Python onApril 29, 2018

读写文件时应注意的问题包括:

1.字符编码

2.操作完成即时关闭文件描述符

3.代码兼容性

几种方法:

#!/bin/python3
original_list1=[" "]
original_list2=[" "]
original_list3=[" "]
original_list4=[" "]
newlist1=[" "]
newlist2=[" "]
newlist3=[" "]
newlist4=[" "]
newtxt1=""
newtxt2=""
newtxt3=""
newtxt4=""
#first way to readline
f = open("duplicate_txt.txt","r+")    # 返回一个文件对象  
line = f.readline()           # 调用文件的 readline()方法 
while line:  
  original_list1.append(line)          
  line = f.readline()  
f.close() 
#use "set()" remove duplicate str in the list
# in this way,list will sort randomly
newlist1 = list(set(original_list1))
#newlist1 = {}.fromkeys(original_list1).keys() #faster 
#rebuild a new txt 
newtxt1="".join(newlist1)
f1 = open("noduplicate1.txt","w")
f1.write(newtxt1)
f1.close()
###################################################################
#second way to readline
for line in open("duplicate_txt.txt","r+"):  
  original_list2.append(line)
newlist2 = list(set(original_list2))
newlist2.sort(key=original_list2.index)         #sort
#newlist2 = sorted(set(original_list2),key=l1.index)  #other way
newtxt2="".join(newlist2)
f2 = open("noduplicate2.txt","w")
f2.write(newtxt2)
f2.close()
###################################################################
#third way to readline
f3 = open("duplicate_txt.txt","r")  
original_list3 = f3.readlines()       #读取全部内容 ,并以列表方式返回 
for i in original_list3:          #遍历去重
  if not i in newlist3:
      newlist3.append(i)
newtxt3="".join(newlist3)
f4 = open("noduplicate3.txt","w")
f4.write(newtxt3)
f4.close()
###################################################################
#fourth way
f5 = open('duplicate_txt.txt',"r+") 
try: 
  original_list4 = f5.readlines() 
  [newlist4.append(i) for i in original_list4 if not i in newlist4]
  newtxt4="".join(newlist4)
  f6 = open("noduplicate4.txt","w")
  f6.write(newtxt4)
  f6.close()
finally: 
  f5.close()

结果:

去重前:

python3.4.3下逐行读入txt文本并去重的方法

去重后(无序):

python3.4.3下逐行读入txt文本并去重的方法

去重后(有序):

python3.4.3下逐行读入txt文本并去重的方法

总结

这段下程序涉及文件读写操作以及链表List的操作,文章开头提到的几个问题,由于并没有使用中文,所以不关心编码,但这里还是要提一提:

f = open("test.txt","w")
f.write(u"你好")

上面这段代码如果在python2中运行会报错

python3.4.3下逐行读入txt文本并去重的方法

报错是因为程序没办法直接保存unicode字符串,要经过编码转换成str类型的二进制字节序列才可以保存。

write()方法会自动编码转换,默认使用ascii编码格式,而ascii不能处理中文,所以出现UnicodeEncodeError。

正确方式是在调用write()方法前,手动格式转换,用utf-8或者gbk转换成str。

f = open("test.txt","w")
text=u"你好"
text=text.encode(encoding='utf-8')
f.write(text)

关于close()问题:

不关闭会有什么影响呢?操作完成后,不关闭文件,会对系统资源造成浪费,因为系统可打开的文件描述符数量是有限的。Linux是65535。

一般来说close之后就OK了,但是也会存在特殊情况,比如说,在调用open()函数时就已经发生错误,权限不足,调用close()肯定报错。还有一种是在write()时,如果磁盘空间不足,报错,close()就没有机会执行了。正确的做法就是使用 try except 对异常进行捕获:

f = open("test.txt","w")
try:
  text=u"你好"
  text=text.encode(encoding='utf-8')
  f.write(text)
except: IOError as e:
  print("oops,%s"%e.args[0])
finally:
  f.close()

更优雅的写法是用 with…as。

with open("test.txt","w") as f:
  text=u"你好"
  f.write(text.encode(encoding='utf-8'))

文件对象实现上下午管理器协议,程序进入with语句时,会把文件对象赋值给变量f,在程序退出with时会自动的调用close()方法。

关于兼容性问题:

python2和python3的open()函数是不一样的,后者可以在函数中指定字符编码格式。

如何解决python2和python3的兼容open()问题呢?

使用io模块下的open()函数,python2中的io.open等价与python3的open函数

from io import open
with open("test.txt","w",encoding='utf-8') as f:
  f.write(u"你好")

以上这篇python3.4.3下逐行读入txt文本并去重的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python django集成cas验证系统
Jul 14 Python
python多线程编程中的join函数使用心得
Sep 02 Python
Python的加密模块md5、sha、crypt使用实例
Sep 28 Python
python将文本分每两行一组并保存到文件
Mar 19 Python
python 将print输出的内容保存到txt文件中
Jul 17 Python
python opencv实现图像边缘检测
Apr 29 Python
Python实现FM算法解析
Jun 18 Python
Python操作SQLite/MySQL/LMDB数据库的方法
Nov 07 Python
在python里创建一个任务(Task)实例
Apr 25 Python
使用pygame实现垃圾分类小游戏功能(已获校级二等奖)
Jul 23 Python
python 实现超级玛丽游戏
Nov 25 Python
Pytest实现setup和teardown的详细使用详解
Apr 17 Python
Python使用re模块实现信息筛选的方法
Apr 29 #Python
Python排序算法之选择排序定义与用法示例
Apr 29 #Python
Python实现的直接插入排序算法示例
Apr 29 #Python
Python实现的堆排序算法示例
Apr 29 #Python
Python中实现变量赋值传递时的引用和拷贝方法
Apr 29 #Python
分享一下Python数据分析常用的8款工具
Apr 29 #Python
Python随机函数random()使用方法小结
Apr 29 #Python
You might like
php中实现xml与mysql数据相互转换的方法
2014/12/25 PHP
WordPres对前端页面调试时的两个PHP函数使用小技巧
2015/12/22 PHP
CodeIgniter自定义控制器MY_Controller用法分析
2016/01/20 PHP
jQuery判断checkbox是否选中的小例子
2013/12/02 Javascript
js判断上传文件类型判断FileUpload文件类型代码
2014/05/20 Javascript
JavaScript简单修改窗口大小的方法
2015/08/03 Javascript
jQuery实现下拉框功能实例代码
2016/05/06 Javascript
javascript中数组和字符串的方法对比
2016/07/20 Javascript
jQuery中animate的几种用法与注意事项
2016/12/12 Javascript
深入理解jquery中的each用法
2016/12/14 Javascript
angular.js指令中的controller、compile与link函数的不同之处
2017/05/10 Javascript
基于element-ui的rules中正则表达式
2018/09/04 Javascript
vue使用better-scroll实现下拉刷新、上拉加载
2018/11/23 Javascript
JS实现的A*寻路算法详解
2018/12/14 Javascript
layer弹出层自适应高度,垂直水平居中的实现
2019/09/16 Javascript
Python with的用法
2014/08/22 Python
python通过微信发送邮件实现电脑关机
2018/06/20 Python
Python requests模块实例用法
2019/02/11 Python
python调用c++传递数组的实例
2019/02/13 Python
Python二元赋值实用技巧解析
2019/10/25 Python
TensorFlow绘制loss/accuracy曲线的实例
2020/01/21 Python
Django视图、传参和forms验证操作
2020/07/15 Python
Python使用xpath实现图片爬取
2020/09/16 Python
Python爬虫之Selenium下拉框处理的实现
2020/12/04 Python
科尔士百货公司官网:Kohl’s
2016/07/11 全球购物
一站式跨境收款解决方案:Payoneer(派安盈)
2018/09/06 全球购物
社团活动策划书范文
2014/01/09 职场文书
商场总经理岗位职责
2014/02/03 职场文书
《胖乎乎的小手》教学反思
2014/02/26 职场文书
关于读书的演讲稿600字
2014/08/27 职场文书
公司经营目标责任书
2015/01/29 职场文书
2016年全国爱眼日宣传教育活动总结
2016/04/05 职场文书
Windows下用Nginx配置https服务器及反向代理的问题
2021/09/25 Servers
mysql数据插入覆盖和时间戳的问题及解决
2022/03/25 MySQL
JavaScript正则表达式实现注册信息校验功能
2022/05/30 Java/Android
数据设计之权限的实现
2022/08/05 MySQL