python 高效去重复 支持GB级别大文件的示例代码


Posted in Python onNovember 08, 2018

如下所示:

#coding=utf-8
 
import sys, re, os
 
def getDictList(dict):
  regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+'''
  with open(dict) as f:
    data = f.read()
    return re.findall(regx, data)
 
def rmdp(dictList):
  return list(set(dictList))
 
def fileSave(dictRmdp, out):
  with open(out, 'a') as f:
    for line in dictRmdp:
      f.write(line + '\n')
 
def main():
  try:
    dict = sys.argv[1].strip()
    out = sys.argv[2].strip()
  except Exception, e:
    print 'error:', e
    me = os.path.basename(__file__)
    print 'usage: %s <input> <output>' %me
    print 'example: %s dict.txt dict_rmdp.txt' %me
    exit()
 
  dictList = getDictList(dict)
  dictRmdp = rmdp(dictList)
  fileSave(dictRmdp, out)
   
if __name__ == '__main__':
  main()

以上这篇python 高效去重复 支持GB级别大文件的示例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现删除Android工程中的冗余字符串
Jan 19 Python
Python实现的简单hangman游戏实例
Jun 28 Python
Python编程之gui程序实现简单文件浏览器代码
Dec 08 Python
解决python3 HTMLTestRunner测试报告中文乱码的问题
Dec 17 Python
快速排序的四种python实现(推荐)
Apr 03 Python
Python学习笔记之Zip和Enumerate用法实例分析
Aug 14 Python
Python常用模块os.path之文件及路径操作方法
Dec 03 Python
python读取Kafka实例
Dec 23 Python
Python计算公交发车时间的完整代码
Feb 12 Python
解决Python 写文件报错TypeError的问题
Oct 23 Python
去除python中的字符串空格的简单方法
Dec 22 Python
Python还能这么玩之用Python修改了班花的开机密码
Jun 04 Python
python消除序列的重复值并保持顺序不变的实例
Nov 08 #Python
Django中的forms组件实例详解
Nov 08 #Python
python微元法计算函数曲线长度的方法
Nov 08 #Python
python实现简单的单变量线性回归方法
Nov 08 #Python
python/sympy求解矩阵方程的方法
Nov 08 #Python
python生成lmdb格式的文件实例
Nov 08 #Python
python实现嵌套列表平铺的两种方法
Nov 08 #Python
You might like
php实现的DateDiff和DateAdd时间函数代码分享
2014/08/16 PHP
PHP解析RSS的方法
2015/03/05 PHP
PHP中应该避免使用同名变量(拆分临时变量)
2015/04/03 PHP
PHP设计模式之策略模式原理与用法实例分析
2019/04/04 PHP
PHP基于phpqrcode类生成二维码的方法示例详解
2020/08/07 PHP
Firebug 字幕文件JSON地址获取代码
2009/10/28 Javascript
javascript基础第一章 JavaScript与用户端
2010/07/22 Javascript
JS关键字变色实现思路及代码
2013/02/21 Javascript
jQuery操作CheckBox的方法介绍(选中,取消,取值)
2014/02/04 Javascript
node.js中的fs.readdir方法使用说明
2014/12/17 Javascript
jquery实现带缩略图的可定制高度画廊效果(5种)
2015/08/28 Javascript
使用JavaScript判断手机浏览器是横屏还是竖屏问题
2016/08/02 Javascript
javascript 删除数组元素和清空数组的简单方法
2017/02/24 Javascript
Vue中添加过渡效果的方法
2017/03/16 Javascript
AngularJS改变元素显示状态
2017/04/20 Javascript
angularJS利用ng-repeat遍历二维数组的实例代码
2017/06/03 Javascript
react-router4 嵌套路由的使用方法
2017/07/24 Javascript
微信小程序之滚动视图容器的实现方法
2017/09/26 Javascript
vue-cli开发时,关于ajax跨域的解决方法(推荐)
2018/02/03 Javascript
uniapp实现可以左右滑动导航栏
2020/10/21 Javascript
使用JS实现鼠标放上图片进行放大离开实现缩小功能
2021/01/27 Javascript
pydev使用wxpython找不到路径的解决方法
2013/02/10 Python
在windows下快速搭建web.py开发框架方法
2016/04/22 Python
python三引号输出方法
2019/02/27 Python
Python实现使用request模块下载图片demo示例
2019/05/24 Python
Pyecharts 动态地图 geo()和map()的安装与用法详解
2020/03/25 Python
Python3创建Django项目的几种方法(3种)
2020/06/03 Python
python中turtle库的简单使用教程
2020/11/11 Python
GAP欧盟网上商店:GAP EU
2016/09/13 全球购物
英国婴儿和儿童服装网站:Vertbaudet
2018/04/02 全球购物
Ryderwear美国官网:澳大利亚高端健身训练装备品牌
2018/04/24 全球购物
初入社会应届生求职信
2013/11/18 职场文书
项目开发计划书
2014/01/09 职场文书
计算机专业毕业生求职信
2014/04/30 职场文书
安全生产目标管理责任书
2014/07/25 职场文书
JS + HTML 罗盘式时钟的实现
2021/05/21 Javascript