python查找指定具有相同内容文件的方法


Posted in Python onJune 28, 2015

本文实例讲述了python查找指定具有相同内容文件的方法。分享给大家供大家参考。具体如下:

python代码用于查找指定具有相同内容的文件,可以同时指定多个目录
调用方式:python doublesdetector.py c:\;d:\;e:\ > doubles.txt

# Hello, this script is written in Python - http://www.python.org
# doublesdetector.py 1.0p
import os, os.path, string, sys, sha
message = """
doublesdetector.py 1.0p
This script will search for files that are identical
(whatever their name/date/time).
 Syntax : python %s <directories>
   where <directories> is a directory or a list of directories
   separated by a semicolon (;)
Examples : python %s c:\windows
      python %s c:\;d:\;e:\ > doubles.txt
      python %s c:\program files > doubles.txt
This script is public domain. Feel free to reuse and tweak it.
The author of this script Sebastien SAUVAGE <sebsauvage at sebsauvage dot net>
http://sebsauvage.net/python/
""" % ((sys.argv[0], )*4)
def fileSHA ( filepath ) :
  """ Compute SHA (Secure Hash Algorythm) of a file.
    Input : filepath : full path and name of file (eg. 'c:\windows\emm386.exe')
    Output : string : contains the hexadecimal representation of the SHA of the file.
             returns '0' if file could not be read (file not found, no read rights...)
  """
  try:
    file = open(filepath,'rb')
    digest = sha.new()
    data = file.read(65536)
    while len(data) != 0:
      digest.update(data)
      data = file.read(65536)
    file.close()
  except:
    return '0'
  else:
    return digest.hexdigest()
def detectDoubles( directories ):
  fileslist = {}
  # Group all files by size (in the fileslist dictionnary)
  for directory in directories.split(';'):
    directory = os.path.abspath(directory)
    sys.stderr.write('Scanning directory '+directory+'...')
    os.path.walk(directory,callback,fileslist)
    sys.stderr.write('\n')
  sys.stderr.write('Comparing files...')
  # Remove keys (filesize) in the dictionnary which have only 1 file
  for (filesize,listoffiles) in fileslist.items():
    if len(listoffiles) == 1:
      del fileslist[filesize]
  # Now compute SHA of files that have the same size,
  # and group files by SHA (in the filessha dictionnary)
  filessha = {}
  while len(fileslist)>0:
    (filesize,listoffiles) = fileslist.popitem()
    for filepath in listoffiles:
      sys.stderr.write('.')
      sha = fileSHA(filepath)
      if filessha.has_key(sha):
        filessha[sha].append(filepath)
      else:
        filessha[sha] = [filepath]
  if filessha.has_key('0'):
    del filessha['0']
  # Remove keys (sha) in the dictionnary which have only 1 file
  for (sha,listoffiles) in filessha.items():
    if len(listoffiles) == 1:
      del filessha[sha]
  sys.stderr.write('\n')
  return filessha
def callback(fileslist,directory,files):
  sys.stderr.write('.')
  for fileName in files:
    filepath = os.path.join(directory,fileName)
    if os.path.isfile(filepath):
      filesize = os.stat(filepath)[6]
      if fileslist.has_key(filesize):
        fileslist[filesize].append(filepath)
      else:
        fileslist[filesize] = [filepath]
if len(sys.argv)>1 :
  doubles = detectDoubles(" ".join(sys.argv[1:]))
  print 'The following files are identical:'
  print '\n'.join(["----\n%s" % '\n'.join(doubles[filesha]) for filesha in doubles.keys()])
  print '----'
else:
  print message

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python中文竖排显示的方法
Jul 28 Python
python使用matplotlib绘制折线图教程
Feb 08 Python
详解Python装饰器
Mar 25 Python
浅析Python与Mongodb数据库之间的操作方法
Jul 01 Python
Django中在xadmin中集成DjangoUeditor过程详解
Jul 24 Python
Django 多表关联 存储 使用方法详解 ManyToManyField save
Aug 09 Python
Django为窗体加上防机器人的验证码功能过程解析
Aug 14 Python
Numpy之将矩阵拉成向量的实例
Nov 30 Python
python爬取王者荣耀全皮肤的简单实现代码
Jan 31 Python
python编写俄罗斯方块
Mar 13 Python
Python类class参数self原理解析
Nov 19 Python
Python机器学习之KNN近邻算法
May 14 Python
python中getaddrinfo()基本用法实例分析
Jun 28 #Python
python实现搜索指定目录下文件及文件内搜索指定关键词的方法
Jun 28 #Python
分析用Python脚本关闭文件操作的机制
Jun 28 #Python
python实现linux下使用xcopy的方法
Jun 28 #Python
自动化Nginx服务器的反向代理的配置方法
Jun 28 #Python
python读取TXT到数组及列表去重后按原来顺序排序的方法
Jun 26 #Python
在Python中使用zlib模块进行数据压缩的教程
Jun 26 #Python
You might like
谈PHP生成静态页面分析 模板+缓存+写文件
2009/08/17 PHP
PHP不用递归遍历目录下所有文件的代码
2014/07/04 PHP
PHP+Mysql实现多关键字与多字段生成SQL语句的函数
2014/11/05 PHP
php使用Jpgraph绘制3D饼状图的方法
2015/06/10 PHP
从性能方面考虑PHP下载远程文件的3种方法
2015/12/29 PHP
js中cookie的使用详细分析
2008/05/28 Javascript
基于jQuery的动态增删改查表格信息,可左键/右键提示(原创自Zjmainstay)
2012/07/31 Javascript
IE的事件传递-event.cancelBubble示例介绍
2014/01/12 Javascript
java和javascript获取word文档的书签位置对比
2014/06/19 Javascript
浅谈javascript中自定义模版
2015/01/29 Javascript
jQuery实现两款有动画功能的导航菜单代码
2015/09/16 Javascript
通过正则表达式获取url中参数的简单实现
2016/06/07 Javascript
微信JS-SDK自定义分享功能实例详解【分享给朋友/分享到朋友圈】
2016/11/25 Javascript
完美解决input[type=number]无法显示非数字字符的问题
2017/02/28 Javascript
微信小程序商城项目之侧栏分类效果(1)
2017/04/17 Javascript
使用nvm和nrm优化node.js工作流的方法
2019/01/17 Javascript
JS实现的贪吃蛇游戏完整实例
2019/01/18 Javascript
详解Nodejs get获取远程服务器接口数据
2019/03/26 NodeJs
利用Bootstrap Multiselect实现下拉框多选功能
2019/04/08 Javascript
使用element-ui的el-menu导航选中后刷新页面保持当前选中状态
2019/07/19 Javascript
JavaScript定时器使用方法详解
2020/03/26 Javascript
基于JS实现table导出Excel并保留样式
2020/05/19 Javascript
Python MD5文件生成码
2009/01/12 Python
利用Python中的mock库对Python代码进行模拟测试
2015/04/16 Python
Python基于分水岭算法解决走迷宫游戏示例
2017/09/26 Python
教你用一行Python代码实现并行任务(附代码)
2018/02/02 Python
Python3.6基于正则实现的计算器示例【无优化简单注释版】
2018/06/14 Python
Python 中字符串拼接的多种方法
2018/07/30 Python
pyqt5 从本地选择图片 并显示在label上的实例
2019/06/13 Python
Python Pandas数据中对时间的操作
2019/07/30 Python
诗普兰迪官方网站:Splendid
2018/09/18 全球购物
超级英雄、电影和电视、乐队和音乐T恤:Loud Clothing
2019/09/01 全球购物
广告传媒专业应届生求职信
2014/03/01 职场文书
留学生求职信
2014/06/03 职场文书
教育专业毕业生推荐信
2014/07/10 职场文书
趵突泉导游词
2015/02/03 职场文书