python 高效去重复 支持GB级别大文件的示例代码


Posted in Python onNovember 08, 2018

如下所示:

#coding=utf-8
 
import sys, re, os
 
def getDictList(dict):
  regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+'''
  with open(dict) as f:
    data = f.read()
    return re.findall(regx, data)
 
def rmdp(dictList):
  return list(set(dictList))
 
def fileSave(dictRmdp, out):
  with open(out, 'a') as f:
    for line in dictRmdp:
      f.write(line + '\n')
 
def main():
  try:
    dict = sys.argv[1].strip()
    out = sys.argv[2].strip()
  except Exception, e:
    print 'error:', e
    me = os.path.basename(__file__)
    print 'usage: %s <input> <output>' %me
    print 'example: %s dict.txt dict_rmdp.txt' %me
    exit()
 
  dictList = getDictList(dict)
  dictRmdp = rmdp(dictList)
  fileSave(dictRmdp, out)
   
if __name__ == '__main__':
  main()

以上这篇python 高效去重复 支持GB级别大文件的示例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
利用Python批量压缩png方法实例(支持过滤个别文件与文件夹)
Jul 30 Python
MAC中PyCharm设置python3解释器
Dec 15 Python
vue.js实现输入框输入值内容实时响应变化示例
Jul 07 Python
python面试题小结附答案实例代码
Apr 11 Python
Python 日期区间处理 (本周本月上周上月...)
Aug 08 Python
python基础教程之while循环
Aug 14 Python
详解Python并发编程之从性能角度来初探并发编程
Aug 23 Python
Python aiohttp百万并发极限测试实例分析
Oct 26 Python
使用python+whoosh实现全文检索
Dec 09 Python
python修改linux中文件(文件夹)的权限属性操作
Mar 05 Python
详解python logging日志传输
Jul 01 Python
Flask中sqlalchemy模块的实例用法
Aug 02 Python
python消除序列的重复值并保持顺序不变的实例
Nov 08 #Python
Django中的forms组件实例详解
Nov 08 #Python
python微元法计算函数曲线长度的方法
Nov 08 #Python
python实现简单的单变量线性回归方法
Nov 08 #Python
python/sympy求解矩阵方程的方法
Nov 08 #Python
python生成lmdb格式的文件实例
Nov 08 #Python
python实现嵌套列表平铺的两种方法
Nov 08 #Python
You might like
神族 Protoss 剧情介绍
2020/03/14 星际争霸
php后台程序与Javascript的两种交互方式
2009/10/25 PHP
在MongoDB中模拟Auto Increment的php代码
2011/03/06 PHP
PHP中exec函数和shell_exec函数的区别
2014/08/20 PHP
php实现mysql备份恢复分卷处理的方法
2014/12/26 PHP
php操作redis缓存方法分享
2015/06/03 PHP
thinkPHP实现递归循环栏目并按照树形结构无限极输出的方法
2016/05/19 PHP
PHP与以太坊交互详解
2018/08/24 PHP
JS的IE和Firefox兼容性集锦
2006/12/11 Javascript
js获取当前日期前七天的方法
2015/02/28 Javascript
javascript属性访问表达式用法分析
2015/04/25 Javascript
JavaScript仿静态分页实现方法
2015/08/04 Javascript
AngularJs Scope详解及示例代码
2016/09/01 Javascript
Javascript动画效果(3)
2016/10/11 Javascript
基于javascript实现按圆形排列DIV元素(二)
2016/12/02 Javascript
详解使用Next.js构建服务端渲染应用
2018/07/10 Javascript
Openlayers+EasyUI Tree动态实现图层控制
2020/09/28 Javascript
使用js获取身份证年龄的示例代码
2020/12/11 Javascript
详解vue之自行实现派发与广播(dispatch与broadcast)
2021/01/19 Vue.js
Python构建网页爬虫原理分析
2017/12/19 Python
python实现抖音视频批量下载
2018/06/20 Python
python通过微信发送邮件实现电脑关机
2018/06/20 Python
一步步教你用python的scrapy编写一个爬虫
2019/04/17 Python
python实现复制文件到指定目录
2019/10/16 Python
django-利用session机制实现唯一登录的例子
2020/03/16 Python
材料加工硕士生求职信
2013/10/10 职场文书
网络公司美工设计工作个人的自我评价
2013/11/03 职场文书
教师应聘自荐信范文
2014/03/14 职场文书
大三学习计划书范文
2014/05/02 职场文书
司法局群众路线教育实践活动开展情况总结
2014/10/25 职场文书
学习十八届四中全会依法治国心得体会
2014/11/03 职场文书
优秀校长事迹材料
2014/12/24 职场文书
《分一些蚊子进来》读后感3篇
2020/01/09 职场文书
CSS3 实现的图片悬停的切换按钮
2021/04/13 HTML / CSS
MySQL系列之十四 MySQL的高可用实现
2021/07/02 MySQL
JUnit5常用注解的使用
2021/07/02 Java/Android