python 高效去重复 支持GB级别大文件的示例代码


Posted in Python onNovember 08, 2018

如下所示:

#coding=utf-8
 
import sys, re, os
 
def getDictList(dict):
  regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+'''
  with open(dict) as f:
    data = f.read()
    return re.findall(regx, data)
 
def rmdp(dictList):
  return list(set(dictList))
 
def fileSave(dictRmdp, out):
  with open(out, 'a') as f:
    for line in dictRmdp:
      f.write(line + '\n')
 
def main():
  try:
    dict = sys.argv[1].strip()
    out = sys.argv[2].strip()
  except Exception, e:
    print 'error:', e
    me = os.path.basename(__file__)
    print 'usage: %s <input> <output>' %me
    print 'example: %s dict.txt dict_rmdp.txt' %me
    exit()
 
  dictList = getDictList(dict)
  dictRmdp = rmdp(dictList)
  fileSave(dictRmdp, out)
   
if __name__ == '__main__':
  main()

以上这篇python 高效去重复 支持GB级别大文件的示例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python 示例分享---逻辑推理编程解决八皇后
Jul 20 Python
Python合并多个装饰器小技巧
Apr 28 Python
Python基于列表list实现的CRUD操作功能示例
Jan 05 Python
python3 破解 geetest(极验)的滑块验证码功能
Feb 24 Python
使用Python设计一个代码统计工具
Apr 04 Python
Python使用matplotlib模块绘制图像并设置标题与坐标轴等信息示例
May 04 Python
python 实现语音聊天机器人的示例代码
Dec 02 Python
python+opencv边缘提取与各函数参数解析
Mar 09 Python
Python字符串及文本模式方法详解
Sep 10 Python
Pytorch之扩充tensor的操作
Mar 04 Python
Pytorch反向传播中的细节-计算梯度时的默认累加操作
Jun 05 Python
浅析Python中的套接字编程
Jun 22 Python
python消除序列的重复值并保持顺序不变的实例
Nov 08 #Python
Django中的forms组件实例详解
Nov 08 #Python
python微元法计算函数曲线长度的方法
Nov 08 #Python
python实现简单的单变量线性回归方法
Nov 08 #Python
python/sympy求解矩阵方程的方法
Nov 08 #Python
python生成lmdb格式的文件实例
Nov 08 #Python
python实现嵌套列表平铺的两种方法
Nov 08 #Python
You might like
dedecms系统常用术语汇总
2007/04/03 PHP
PHP+MySQL 手工注入语句大全 推荐
2009/10/30 PHP
PHP has encountered an Access Violation 错误的解决方法
2010/01/17 PHP
PHP 截取字符串专题集合
2010/08/19 PHP
apache+codeigniter 通过.htcaccess做动态二级域名解析
2012/07/01 PHP
解析PHP无限级分类方法及代码
2013/06/21 PHP
php 判断是否是中文/英文/数字示例代码
2013/09/30 PHP
PHP登陆后跳转到登陆前页面实现思路及代码
2014/01/17 PHP
PHP中file_exists()判断中文文件名无效的解决方法
2014/11/12 PHP
Yii2验证器(Validator)用法分析
2016/07/23 PHP
jQuery实现加入购物车飞入动画效果
2015/03/14 Javascript
JS实现定时自动关闭DIV层提示框的方法
2015/05/11 Javascript
基于javascript实现简单的抽奖系统
2020/04/15 Javascript
js实现悬浮窗效果(支持拖动)
2017/03/09 Javascript
JS实现直接运行html代码的方法
2017/03/13 Javascript
Vue 2.0入门基础知识之内部指令详解
2017/10/15 Javascript
配置eslint规范项目代码风格
2019/03/11 Javascript
jQuery位置选择器用法实例分析
2019/06/28 jQuery
微信小程序实现横向滚动导航栏效果
2019/12/12 Javascript
[01:32]2014DOTA2西雅图邀请赛 CIS我们有信心进入正赛
2014/07/08 DOTA
[15:20]DOTA2-DPC中国联赛 正赛 Elephant vs Aster 选手采访
2021/03/11 DOTA
简单说明Python中的装饰器的用法
2015/04/24 Python
详解程序意外中断自动重启shell脚本(以Python为例)
2019/07/26 Python
Django+uni-app实现数据通信中的请求跨域的示例代码
2019/10/12 Python
在Django中自定义filter并在template中的使用详解
2020/05/19 Python
python 实现图片裁剪小工具
2021/02/02 Python
scrapy-splash简单使用详解
2021/02/21 Python
递归计算如下递归函数的值(斐波拉契)
2012/02/04 面试题
医药代表个人的求职信分享
2013/12/08 职场文书
出纳试用期自我鉴定
2014/04/07 职场文书
希特勒经典演讲稿
2014/05/19 职场文书
2014领导班子“四风问题”对照检查材料思想汇报(执法局)
2014/09/21 职场文书
医生党的群众路线教育实践活动个人对照检查材料
2014/09/23 职场文书
我们的节日端午节活动总结
2015/02/11 职场文书
React列表栏及购物车组件使用详解
2021/06/28 Javascript
关于@OnetoMany关系映射的排序问题,使用注解@OrderBy
2021/12/06 Java/Android