Python中使用md5sum检查目录中相同文件代码分享


Posted in Python onFebruary 02, 2015
"""This module contains code from

Think Python by Allen B. Downey
http://thinkpython.com
Copyright 2012 Allen B. Downey

License: GNU GPLv3 http://www.gnu.org/licenses/gpl.html
"""
import os
def walk(dirname):

    """Finds the names of all files in dirname and its subdirectories.
    dirname: string name of directory

    """

    names = []

    for name in os.listdir(dirname):

        path = os.path.join(dirname, name)
        if os.path.isfile(path):

            names.append(path)

        else:

            names.extend(walk(path))

    return names


def compute_checksum(filename):

    """Computes the MD5 checksum of the contents of a file.
    filename: string

    """

    cmd = 'md5sum ' + filename

    return pipe(cmd)


def check_diff(name1, name2):

    """Computes the difference between the contents of two files.
    name1, name2: string filenames

    """

    cmd = 'diff %s %s' % (name1, name2)

    return pipe(cmd)


def pipe(cmd):

    """Runs a command in a subprocess.
    cmd: string Unix command
    Returns (res, stat), the output of the subprocess and the exit status.

    """

    fp = os.popen(cmd)

    res = fp.read()

    stat = fp.close()

    assert stat is None

    return res, stat


def compute_checksums(dirname, suffix):

    """Computes checksums for all files with the given suffix.
    dirname: string name of directory to search

    suffix: string suffix to match
    Returns: map from checksum to list of files with that checksum

    """

    names = walk(dirname)
    d = {}

    for name in names:

        if name.endswith(suffix):

            res, stat = compute_checksum(name)

            checksum, _ = res.split()
            if checksum in d:

                d[checksum].append(name)

            else:

                d[checksum] = [name]
    return d


def check_pairs(names):

    """Checks whether any in a list of files differs from the others.
    names: list of string filenames

    """

    for name1 in names:

        for name2 in names:

            if name1 < name2:

                res, stat = check_diff(name1, name2)

                if res:

                    return False

    return True


def print_duplicates(d):

    """Checks for duplicate files.
    Reports any files with the same checksum and checks whether they

    are, in fact, identical.
    d: map from checksum to list of files with that checksum

    """

    for key, names in d.iteritems():

        if len(names) > 1:

            print 'The following files have the same checksum:'

            for name in names:

                print name
            if check_pairs(names):

                print 'And they are identical.'


if __name__ == '__main__':

    d = compute_checksums(dirname='.', suffix='.py')

    print_duplicates(d)
Python 相关文章推荐
python中使用OpenCV进行人脸检测的例子
Apr 18 Python
Python实现的下载8000首儿歌的代码分享
Nov 21 Python
python方向键控制上下左右代码
Jan 20 Python
python opencv之SIFT算法示例
Feb 24 Python
完美解决在oj中Python的循环输入问题
Jun 25 Python
Python3.0中普通方法、类方法和静态方法的比较
May 03 Python
解决python有时候import不了当前的包问题
Aug 28 Python
基于Python把网站域名解析成ip地址
May 25 Python
Selenium之模拟登录铁路12306的示例代码
Jul 31 Python
解析python 类方法、对象方法、静态方法
Aug 15 Python
浅谈anaconda python 版本对应关系
Oct 07 Python
Python中的协程(Coroutine)操作模块(greenlet、gevent)
May 30 Python
Python列表append和+的区别浅析
Feb 02 #Python
Python中的tuple元组详细介绍
Feb 02 #Python
Linux下编译安装MySQL-Python教程
Feb 02 #Python
Python写的服务监控程序实例
Jan 31 #Python
用python 制作图片转pdf工具
Jan 30 #Python
Python是编译运行的验证方法
Jan 30 #Python
Python的类实例属性访问规则探讨
Jan 30 #Python
You might like
php 模拟GMAIL,HOTMAIL(MSN),YAHOO,163,126邮箱登录的详细介绍
2013/06/18 PHP
跟我学Laravel之配置Laravel
2014/10/15 PHP
php 判断过去离现在几年的函数(实例代码)
2016/11/15 PHP
PHP有序表查找之二分查找(折半查找)算法示例
2018/02/09 PHP
JavaScript入门教程(11) js事件处理
2009/01/31 Javascript
原生JS实现加入收藏夹的代码
2013/10/24 Javascript
使用Sticker.js实现贴纸效果
2015/01/28 Javascript
EasyUI实现二级页面的内容勾选的方法
2015/03/01 Javascript
JavaScript如何实现在文本框(密码框)输入提示语
2015/12/25 Javascript
jQuery实现iframe父窗体和子窗体的相互调用
2016/06/17 Javascript
原生js实现中奖信息无间隙滚动效果
2017/01/18 Javascript
JS实现禁止高频率连续点击的方法【基于ES6语法】
2017/04/25 Javascript
用纯Node.JS弹出Windows系统消息提示框实例(MessageBox)
2017/05/17 Javascript
在一个页面实现两个zTree联动的方法
2017/12/20 Javascript
Vue的轮播图组件实现方法
2018/03/03 Javascript
jQuery实现经典的网页3D轮播图封装功能【附源码下载】
2019/02/15 jQuery
浅谈JS中几种轻松处理'this'指向方式
2019/09/16 Javascript
vue动态禁用控件绑定disable的例子
2019/10/28 Javascript
关于angular浏览器兼容性问题的解决方案
2020/07/26 Javascript
Webpack3+React16代码分割的实现
2021/03/03 Javascript
[01:04:01]2014 DOTA2华西杯精英邀请赛5 24 DK VS VG
2014/05/25 DOTA
python机器学习案例教程——K最近邻算法的实现
2017/12/28 Python
python basemap 画出经纬度并标定的实例
2019/07/09 Python
Django之创建引擎索引报错及解决详解
2019/07/17 Python
python实现socket+threading处理多连接的方法
2019/07/23 Python
pandas通过字典生成dataframe的方法步骤
2019/07/23 Python
python实现输入的数据在地图上生成热力图效果
2019/12/06 Python
python3.7通过thrift操作hbase的示例代码
2020/01/14 Python
Python用input输入列表的实例代码
2020/02/07 Python
Python实现自动签到脚本的示例代码
2020/08/19 Python
如何通过安装HomeBrew来安装Python3
2020/12/23 Python
HolidayLettings英国:预订最好的度假公寓、别墅和自助式住宿
2019/08/27 全球购物
阿玛尼美妆俄罗斯官网:Giorgio Armani Beauty RU
2020/07/19 全球购物
艺术教育实施方案
2014/05/03 职场文书
2015年学校图书室工作总结
2015/05/19 职场文书
如何利用golang运用mysql数据库
2022/03/13 Golang