python 高效去重复 支持GB级别大文件的示例代码


Posted in Python onNovember 08, 2018

如下所示:

#coding=utf-8
 
import sys, re, os
 
def getDictList(dict):
  regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+'''
  with open(dict) as f:
    data = f.read()
    return re.findall(regx, data)
 
def rmdp(dictList):
  return list(set(dictList))
 
def fileSave(dictRmdp, out):
  with open(out, 'a') as f:
    for line in dictRmdp:
      f.write(line + '\n')
 
def main():
  try:
    dict = sys.argv[1].strip()
    out = sys.argv[2].strip()
  except Exception, e:
    print 'error:', e
    me = os.path.basename(__file__)
    print 'usage: %s <input> <output>' %me
    print 'example: %s dict.txt dict_rmdp.txt' %me
    exit()
 
  dictList = getDictList(dict)
  dictRmdp = rmdp(dictList)
  fileSave(dictRmdp, out)
   
if __name__ == '__main__':
  main()

以上这篇python 高效去重复 支持GB级别大文件的示例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python的ORM框架SQLAlchemy入门教程
Apr 28 Python
Python实现全局变量的两个解决方法
Jul 03 Python
总结Python编程中函数的使用要点
Mar 20 Python
Python 基础之字符串string详解及实例
Apr 01 Python
Python3之简单搭建自带服务器的实例讲解
Jun 04 Python
python调用tcpdump抓包过滤的方法
Jul 18 Python
使用python打印十行杨辉三角过程详解
Jul 10 Python
Django 拆分model和view的实现方法
Aug 16 Python
浅析PEP572: 海象运算符
Oct 15 Python
Python实现CAN报文转换工具教程
May 05 Python
详解向scrapy中的spider传递参数的几种方法(2种)
Sep 28 Python
python程序实现BTC(比特币)挖矿的完整代码
Jan 20 Python
python消除序列的重复值并保持顺序不变的实例
Nov 08 #Python
Django中的forms组件实例详解
Nov 08 #Python
python微元法计算函数曲线长度的方法
Nov 08 #Python
python实现简单的单变量线性回归方法
Nov 08 #Python
python/sympy求解矩阵方程的方法
Nov 08 #Python
python生成lmdb格式的文件实例
Nov 08 #Python
python实现嵌套列表平铺的两种方法
Nov 08 #Python
You might like
PHP5 安装方法
2006/10/09 PHP
PHP 组件化编程技巧
2009/06/06 PHP
利用谷歌 Translate API制作自己的翻译脚本
2014/06/04 PHP
php计算函数执行时间的方法
2015/03/20 PHP
Laravel 批量更新多条数据的示例
2017/11/27 PHP
JavaScript方法和技巧大全
2006/12/27 Javascript
判断脚本加载是否完成的方法
2009/05/26 Javascript
jquery入门——事件机制之事件中的冒泡现象示例解释
2020/09/12 Javascript
AngularJS 2.0新特性有哪些
2016/02/18 Javascript
JavaScript高仿支付宝倒计时页面及代码实现
2016/10/21 Javascript
bootstrap模态框跳转到当前模板页面 框消失了而背景存在问题的解决方法
2020/11/30 Javascript
AngularJS使用ng-inlude指令加载页面失败的原因与解决方法
2017/01/19 Javascript
JS实现侧边栏鼠标经过弹出框+缓冲效果
2017/03/29 Javascript
如何编写jquery插件
2017/03/29 jQuery
jQuery实现表格的增、删、改操作示例
2019/01/27 jQuery
layer弹窗在键盘按回车将反复刷新的实现方法
2019/09/25 Javascript
python基础教程之lambda表达式使用方法
2014/02/12 Python
python cx_Oracle模块的安装和使用详细介绍
2017/02/13 Python
详解Python使用Plotly绘图工具,绘制甘特图
2019/04/02 Python
解决pycharm不能自动补全第三方库的函数和属性问题
2020/03/12 Python
分享PyCharm最新激活码(真永久激活方法)不用每月找安装参数或最新激活码了
2020/12/27 Python
HTML5 visibilityState属性详细介绍和使用实例
2014/05/03 HTML / CSS
泰国健康和美容服务预订网站:GoWabi
2019/06/03 全球购物
飞利信loadrunner和软件测试笔试题
2012/09/22 面试题
工程预算与管理应届生求职信
2013/10/06 职场文书
物业电工岗位职责
2013/11/20 职场文书
十岁生日同学答谢词
2014/01/19 职场文书
机关单位动员会主持词
2014/03/20 职场文书
法院先进个人事迹材料
2014/05/04 职场文书
学校法制宣传月活动总结
2014/07/03 职场文书
2014年财务部工作总结
2014/11/11 职场文书
2015社区个人工作总结范文
2015/05/13 职场文书
欧也妮葛朗台读书笔记
2015/06/30 职场文书
结婚幸福感言
2015/08/01 职场文书
班主任寄语2016
2015/12/04 职场文书
Java中CyclicBarrier和CountDownLatch的用法与区别
2021/08/23 Java/Android