python 高效去重复 支持GB级别大文件的示例代码


Posted in Python onNovember 08, 2018

如下所示:

#coding=utf-8
 
import sys, re, os
 
def getDictList(dict):
  regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+'''
  with open(dict) as f:
    data = f.read()
    return re.findall(regx, data)
 
def rmdp(dictList):
  return list(set(dictList))
 
def fileSave(dictRmdp, out):
  with open(out, 'a') as f:
    for line in dictRmdp:
      f.write(line + '\n')
 
def main():
  try:
    dict = sys.argv[1].strip()
    out = sys.argv[2].strip()
  except Exception, e:
    print 'error:', e
    me = os.path.basename(__file__)
    print 'usage: %s <input> <output>' %me
    print 'example: %s dict.txt dict_rmdp.txt' %me
    exit()
 
  dictList = getDictList(dict)
  dictRmdp = rmdp(dictList)
  fileSave(dictRmdp, out)
   
if __name__ == '__main__':
  main()

以上这篇python 高效去重复 支持GB级别大文件的示例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python处理中文编码和判断编码示例
Feb 26 Python
python文件和目录操作函数小结
Jul 11 Python
Python中统计函数运行耗时的方法
May 05 Python
Scrapy爬虫实例讲解_校花网
Oct 23 Python
浅谈Python由__dict__和dir()引发的一些思考
Oct 30 Python
python Spyder界面无法打开的解决方法
Apr 27 Python
Python定义二叉树及4种遍历方法实例详解
Jul 05 Python
Python中is和==的区别详解
Nov 15 Python
Ubuntu18.04下python版本完美切换的解决方法
Jun 14 Python
python re模块匹配贪婪和非贪婪模式详解
Feb 11 Python
查看jupyter notebook每个单元格运行时间实例
Apr 22 Python
pytorch实现ResNet结构的实例代码
May 17 Python
python消除序列的重复值并保持顺序不变的实例
Nov 08 #Python
Django中的forms组件实例详解
Nov 08 #Python
python微元法计算函数曲线长度的方法
Nov 08 #Python
python实现简单的单变量线性回归方法
Nov 08 #Python
python/sympy求解矩阵方程的方法
Nov 08 #Python
python生成lmdb格式的文件实例
Nov 08 #Python
python实现嵌套列表平铺的两种方法
Nov 08 #Python
You might like
PHP中使用mktime获取时间戳的一个黑色幽默分析
2012/05/31 PHP
php获取本地图片文件并生成xml文件输出具体思路
2013/04/27 PHP
PHP中PDO的事务处理分析
2016/04/07 PHP
详解PHP中cookie和session的区别及cookie和session用法小结
2016/06/12 PHP
php解决DOM乱码的方法示例代码
2016/11/20 PHP
PHP排序算法之简单选择排序(Simple Selection Sort)实例分析
2018/04/20 PHP
PHP使用PDO抽象层获取查询结果的方法示例
2018/05/10 PHP
一句话JavaScript表单验证代码
2009/08/02 Javascript
js格式化货币数据实现代码
2013/09/04 Javascript
各种页面定时跳转(倒计时跳转)代码总结
2013/10/24 Javascript
JavaScript使用Prototype实现面向对象的方法
2015/04/14 Javascript
Bootstrap面板使用方法
2017/01/16 Javascript
详解开发react应用最好用的脚手架 create-react-app
2018/04/24 Javascript
jquery实现动态改变css样式的方法分析
2019/05/27 jQuery
使用 js 简单的实现 bind、call 、aplly代码实例
2019/09/07 Javascript
element中el-container容器与div布局区分详解
2020/05/13 Javascript
基于JS+HTML实现弹窗提示是否确认提交功能
2020/06/17 Javascript
原生微信小程序开发中 redux 的使用详解
2021/02/18 Javascript
[01:10]DOTA2亚洲邀请赛 征战号角响彻全场
2015/01/06 DOTA
使用pandas对两个dataframe进行join的实例
2018/06/08 Python
从请求到响应过程中django都做了哪些处理
2018/08/01 Python
python对日志进行处理的实例代码
2018/10/06 Python
Python+OpenCV采集本地摄像头的视频
2019/04/25 Python
pytorch中交叉熵损失(nn.CrossEntropyLoss())的计算过程详解
2020/01/02 Python
pytorch下大型数据集(大型图片)的导入方式
2020/01/08 Python
Python实现汇率转换操作
2020/05/03 Python
基于Python的自媒体小助手---登录页面的实现代码
2020/06/29 Python
python 如何区分return和yield
2020/09/22 Python
中科软测试工程师面试题
2012/06/16 面试题
日语专业个人求职信范文
2014/02/02 职场文书
活动总结格式范文
2014/04/26 职场文书
部门群众路线教育实践活动对照检查材料思想汇报
2014/10/07 职场文书
2014年大学班长工作总结
2014/11/14 职场文书
公务员政审材料
2014/12/23 职场文书
学习委员竞选稿
2015/11/20 职场文书
python使用openpyxl库读写Excel表格的方法(增删改查操作)
2021/05/02 Python