编程 Python

python 高效去重复支持GB级别大文件的示例代码

Posted in Python onNovember 08, 2018

如下所示：

#coding=utf-8
 
import sys, re, os
 
def getDictList(dict):
  regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+'''
  with open(dict) as f:
    data = f.read()
    return re.findall(regx, data)
 
def rmdp(dictList):
  return list(set(dictList))
 
def fileSave(dictRmdp, out):
  with open(out, 'a') as f:
    for line in dictRmdp:
      f.write(line + '\n')
 
def main():
  try:
    dict = sys.argv[1].strip()
    out = sys.argv[2].strip()
  except Exception, e:
    print 'error:', e
    me = os.path.basename(__file__)
    print 'usage: %s <input> <output>' %me
    print 'example: %s dict.txt dict_rmdp.txt' %me
    exit()
 
  dictList = getDictList(dict)
  dictRmdp = rmdp(dictList)
  fileSave(dictRmdp, out)
   
if __name__ == '__main__':
  main()

以上这篇python 高效去重复支持GB级别大文件的示例代码就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

- Author -

夜班机器人

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Pycharm学习教程（4） Python解释器的相关配置

May 03 Python

Python3中简单的文件操作及两个简单小实例分享

Jun 18 Python

python脚本作为Windows服务启动代码详解

Feb 11 Python

python3.6使用pickle序列化class的方法

Oct 22 Python

python Selenium实现付费音乐批量下载的实现方法

Jan 24 Python

Pytorch实现GoogLeNet的方法

Aug 18 Python

Python Websocket服务端通信的使用示例

Feb 25 Python

完美解决python针对hdfs上传和下载的问题

Jun 05 Python

keras绘制acc和loss曲线图实例

Jun 15 Python

Python datetime 如何处理时区信息

Sep 02 Python

用Python实现职工信息管理系统

Dec 30 Python

python实现简单的井字棋游戏(gui界面)

Jan 22 Python

python消除序列的重复值并保持顺序不变的实例

Nov 08 #Python

Django中的forms组件实例详解

Nov 08 #Python

python微元法计算函数曲线长度的方法

Nov 08 #Python

python实现简单的单变量线性回归方法

Nov 08 #Python

python/sympy求解矩阵方程的方法

Nov 08 #Python

python生成lmdb格式的文件实例

Nov 08 #Python

python实现嵌套列表平铺的两种方法

Nov 08 #Python

You might like

PHP一些常用的正则表达式字符的一些转换

2008/07/29 PHP

PHP输出XML到页面的3种方法详解

2013/06/06 PHP

Php output buffering缓存及程序缓存深入解析

2013/07/15 PHP

Windows7下的php环境配置教程

2015/02/28 PHP

PHP实现根据银行卡号判断银行

2015/04/29 PHP

JavaScript面向对象之静态与非静态类

2010/02/03 Javascript

JS小功能(offsetLeft实现图片滚动效果)实例代码

2013/11/28 Javascript

有效提高JavaScript执行效率的几点知识

2015/01/31 Javascript

解析javascript中鼠标滚轮事件

2015/05/26 Javascript

jQuery实现仿腾讯视频列表分页效果的方法

2015/08/07 Javascript

jquery实现鼠标经过显示下划线的渐变下拉菜单效果代码

2015/08/24 Javascript

深入浅析Extjs中store分组功能的使用方法

2016/04/20 Javascript

js学习之----深入理解闭包

2016/11/21 Javascript

jquery 判断div show的状态实例

2016/12/03 Javascript

iframe高度自适应及隐藏滚动条的实例详解

2017/09/29 Javascript

浅谈在vue项目中如何定义全局变量和全局函数

2017/10/24 Javascript

bootstrap+jquery项目引入文件报错的解决方法

2018/01/22 jQuery

Vue父子组建的简单通信之控制开关Switch的实现

2018/06/04 Javascript

Angular6新特性之Angular Material

2018/12/28 Javascript

Electron-vue开发的客户端支付收款工具的实现

2019/05/24 Javascript

javascript解析json格式的数据方法详解

2020/08/07 Javascript

Python中的闭包总结

2014/09/18 Python

python类的继承实例详解

2017/03/30 Python

Python时间的精准正则匹配方法分析

2017/08/17 Python

python调用摄像头拍摄数据集

2019/06/01 Python

解决pycharm修改代码后第一次运行不生效的问题

2021/02/06 Python

潘多拉珠宝美国官方网站：Pandora US

2020/06/18 全球购物

超市后勤自我鉴定

2014/01/17 职场文书

大学生优秀自荐信范文

2014/02/25 职场文书

《美丽的小兴安岭》教学反思

2014/02/26 职场文书

创先争优个人承诺书

2014/08/30 职场文书

学校德育工作总结2015

2015/05/11 职场文书

学雷锋感言

2015/08/03 职场文书

聘任通知书

2015/09/21 职场文书

2019请假条的基本格式及范文！

2019/07/05 职场文书

React配置子路由的实现

2021/06/03 Javascript

python 高效去重复 支持GB级别大文件的示例代码

python 高效去重复支持GB级别大文件的示例代码