python 高效去重复 支持GB级别大文件的示例代码


Posted in Python onNovember 08, 2018

如下所示:

#coding=utf-8
 
import sys, re, os
 
def getDictList(dict):
  regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+'''
  with open(dict) as f:
    data = f.read()
    return re.findall(regx, data)
 
def rmdp(dictList):
  return list(set(dictList))
 
def fileSave(dictRmdp, out):
  with open(out, 'a') as f:
    for line in dictRmdp:
      f.write(line + '\n')
 
def main():
  try:
    dict = sys.argv[1].strip()
    out = sys.argv[2].strip()
  except Exception, e:
    print 'error:', e
    me = os.path.basename(__file__)
    print 'usage: %s <input> <output>' %me
    print 'example: %s dict.txt dict_rmdp.txt' %me
    exit()
 
  dictList = getDictList(dict)
  dictRmdp = rmdp(dictList)
  fileSave(dictRmdp, out)
   
if __name__ == '__main__':
  main()

以上这篇python 高效去重复 支持GB级别大文件的示例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Pycharm学习教程(4) Python解释器的相关配置
May 03 Python
Python3中简单的文件操作及两个简单小实例分享
Jun 18 Python
python脚本作为Windows服务启动代码详解
Feb 11 Python
python3.6使用pickle序列化class的方法
Oct 22 Python
python Selenium实现付费音乐批量下载的实现方法
Jan 24 Python
Pytorch实现GoogLeNet的方法
Aug 18 Python
Python Websocket服务端通信的使用示例
Feb 25 Python
完美解决python针对hdfs上传和下载的问题
Jun 05 Python
keras绘制acc和loss曲线图实例
Jun 15 Python
Python datetime 如何处理时区信息
Sep 02 Python
用Python实现职工信息管理系统
Dec 30 Python
python实现简单的井字棋游戏(gui界面)
Jan 22 Python
python消除序列的重复值并保持顺序不变的实例
Nov 08 #Python
Django中的forms组件实例详解
Nov 08 #Python
python微元法计算函数曲线长度的方法
Nov 08 #Python
python实现简单的单变量线性回归方法
Nov 08 #Python
python/sympy求解矩阵方程的方法
Nov 08 #Python
python生成lmdb格式的文件实例
Nov 08 #Python
python实现嵌套列表平铺的两种方法
Nov 08 #Python
You might like
PHP一些常用的正则表达式字符的一些转换
2008/07/29 PHP
PHP输出XML到页面的3种方法详解
2013/06/06 PHP
Php output buffering缓存及程序缓存深入解析
2013/07/15 PHP
Windows7下的php环境配置教程
2015/02/28 PHP
PHP实现根据银行卡号判断银行
2015/04/29 PHP
JavaScript面向对象之静态与非静态类
2010/02/03 Javascript
JS小功能(offsetLeft实现图片滚动效果)实例代码
2013/11/28 Javascript
有效提高JavaScript执行效率的几点知识
2015/01/31 Javascript
解析javascript中鼠标滚轮事件
2015/05/26 Javascript
jQuery实现仿腾讯视频列表分页效果的方法
2015/08/07 Javascript
jquery实现鼠标经过显示下划线的渐变下拉菜单效果代码
2015/08/24 Javascript
深入浅析Extjs中store分组功能的使用方法
2016/04/20 Javascript
js学习之----深入理解闭包
2016/11/21 Javascript
jquery 判断div show的状态实例
2016/12/03 Javascript
iframe高度自适应及隐藏滚动条的实例详解
2017/09/29 Javascript
浅谈在vue项目中如何定义全局变量和全局函数
2017/10/24 Javascript
bootstrap+jquery项目引入文件报错的解决方法
2018/01/22 jQuery
Vue父子组建的简单通信之控制开关Switch的实现
2018/06/04 Javascript
Angular6新特性之Angular Material
2018/12/28 Javascript
Electron-vue开发的客户端支付收款工具的实现
2019/05/24 Javascript
javascript解析json格式的数据方法详解
2020/08/07 Javascript
Python中的闭包总结
2014/09/18 Python
python类的继承实例详解
2017/03/30 Python
Python时间的精准正则匹配方法分析
2017/08/17 Python
python调用摄像头拍摄数据集
2019/06/01 Python
解决pycharm修改代码后第一次运行不生效的问题
2021/02/06 Python
潘多拉珠宝美国官方网站:Pandora US
2020/06/18 全球购物
超市后勤自我鉴定
2014/01/17 职场文书
大学生优秀自荐信范文
2014/02/25 职场文书
《美丽的小兴安岭》教学反思
2014/02/26 职场文书
创先争优个人承诺书
2014/08/30 职场文书
学校德育工作总结2015
2015/05/11 职场文书
学雷锋感言
2015/08/03 职场文书
聘任通知书
2015/09/21 职场文书
2019请假条的基本格式及范文!
2019/07/05 职场文书
React配置子路由的实现
2021/06/03 Javascript