python 高效去重复 支持GB级别大文件的示例代码


Posted in Python onNovember 08, 2018

如下所示:

#coding=utf-8
 
import sys, re, os
 
def getDictList(dict):
  regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+'''
  with open(dict) as f:
    data = f.read()
    return re.findall(regx, data)
 
def rmdp(dictList):
  return list(set(dictList))
 
def fileSave(dictRmdp, out):
  with open(out, 'a') as f:
    for line in dictRmdp:
      f.write(line + '\n')
 
def main():
  try:
    dict = sys.argv[1].strip()
    out = sys.argv[2].strip()
  except Exception, e:
    print 'error:', e
    me = os.path.basename(__file__)
    print 'usage: %s <input> <output>' %me
    print 'example: %s dict.txt dict_rmdp.txt' %me
    exit()
 
  dictList = getDictList(dict)
  dictRmdp = rmdp(dictList)
  fileSave(dictRmdp, out)
   
if __name__ == '__main__':
  main()

以上这篇python 高效去重复 支持GB级别大文件的示例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python对象体系深入分析
Oct 28 Python
Python2.7基于笛卡尔积算法实现N个数组的排列组合运算示例
Nov 23 Python
python smtplib发送带附件邮件小程序
May 22 Python
pandas 数据实现行间计算的方法
Jun 08 Python
python抓取京东小米8手机配置信息
Nov 13 Python
用Python获取摄像头并实时控制人脸的实现示例
Jul 11 Python
python爬虫 正则表达式解析
Sep 28 Python
如何使用Python多线程测试并发漏洞
Dec 18 Python
基于h5py的使用及数据封装代码
Dec 26 Python
python 按钮点击关闭窗口的实现
Mar 04 Python
使用python检查yaml配置文件是否符合要求
Apr 09 Python
python数据处理之Pandas类型转换
Apr 28 Python
python消除序列的重复值并保持顺序不变的实例
Nov 08 #Python
Django中的forms组件实例详解
Nov 08 #Python
python微元法计算函数曲线长度的方法
Nov 08 #Python
python实现简单的单变量线性回归方法
Nov 08 #Python
python/sympy求解矩阵方程的方法
Nov 08 #Python
python生成lmdb格式的文件实例
Nov 08 #Python
python实现嵌套列表平铺的两种方法
Nov 08 #Python
You might like
PHP如何透过ODBC来存取数据库
2006/10/09 PHP
php笔记之:文章中图片处理的使用
2013/04/26 PHP
php中的boolean(布尔)类型详解
2013/10/28 PHP
学习php设计模式 php实现策略模式(strategy)
2015/12/07 PHP
Yii数据库缓存实例分析
2016/03/29 PHP
laravel框架使用极光推送消息操作示例
2020/02/15 PHP
关于文本框的一些限制控制总结~~
2010/04/15 Javascript
几种设置表单元素中文本输入框不可编辑的方法总结
2013/11/25 Javascript
JS和Jquery获取和修改label的值的示例代码
2014/01/15 Javascript
二叉树的非递归后序遍历算法实例详解
2014/02/07 Javascript
js实现最短的XML格式化工具实例
2015/03/12 Javascript
基于jQuery实现带动画效果超炫酷的弹出对话框(附源码下载)
2016/02/22 Javascript
关于JavaScript限制字数的输入框的那些事
2016/08/14 Javascript
jQuery实现元素的插入
2017/02/27 Javascript
使用 NodeJS+Express 开发服务端的简单介绍
2017/04/07 NodeJs
JavaScript中三个等号和两个等号你了解多少
2017/07/04 Javascript
Vue.js搭建移动端购物车界面
2020/06/28 Javascript
js合并两个数组生成合并后的key:value数组
2018/05/09 Javascript
微信小程序新手教程之页面打开数量限制
2019/03/03 Javascript
解决Vue打包上线之后部分CSS不生效的问题
2019/11/12 Javascript
vue excel上传预览和table内容下载到excel文件中
2019/12/10 Javascript
Python函数中定义参数的四种方式
2014/11/30 Python
学习python之编写简单简单连接数据库并执行查询操作
2016/02/27 Python
Python利用BeautifulSoup解析Html的方法示例
2017/07/30 Python
Python自然语言处理 NLTK 库用法入门教程【经典】
2018/06/26 Python
python list多级排序知识点总结
2019/10/23 Python
浅谈keras通过model.fit_generator训练模型(节省内存)
2020/06/17 Python
Pretty Little Thing美国:时尚女性服饰
2018/08/27 全球购物
美容院店长岗位职责
2014/04/08 职场文书
学校对教师的评语
2014/04/28 职场文书
关工委先进个人事迹材料
2014/05/23 职场文书
法学院毕业生求职信
2014/06/25 职场文书
2014年财政局工作总结
2014/12/09 职场文书
第二次离婚起诉书
2015/05/18 职场文书
Nginx location 和 proxy_pass路径配置问题小结
2021/09/04 Servers
Spring Cloud 中@FeignClient注解中的contextId属性详解
2021/09/25 Java/Android