用Python自动清理电脑内重复文件,只要10行代码(自动脚本)


Posted in Python onJanuary 09, 2021

给定一个文件夹,使用Python检查给定文件夹下有无文件重复,若存在重复则删除

主要涉及的知识点有:

  • os模块综合应用
  • glob模块综合应用
  • 利用filecmp模块比较两个文件

步骤分析

该程序实现的逻辑可以具化为:

遍历获取给定文件夹下的所有文件,然后通过嵌套循环两两比较文件是否相同,如果相同则删除后者。

实现问题的关键就变成了

如何判断两个文件是否相同?

在这里我们可以使用filecmp模块,来看看官方的介绍文档:

  • filecmp.cmp(f1, f2, shallow=True)
  • 比较名为f1和f2的文件,如果它们似乎相等则返回True,否则返回False
  • 如果shallow为真,那么具有相同os.stat()签名的文件将会被认为是相等的。否则,将比较文件的内容。

所以可以这样使用

# 假设x和y两个文件是相同的
print(filecmp.cmp(x, y))
# True

解决了这个问题,我们就可以开始写代码了!

Python实现

导入需要的库并设置目标文件夹路径

import os
import glob
import filecmp

dir_path = r'C:\\xxxx'

接着遍历获取所有文件的绝对路径,我们可以利用glob模块的通配符结合recursive参数即可完成,框架如下:

for file in glob.glob(path + '/**/*', recursive=True):
  pass

由于遍历获取每一个文件或者文件夹后,需要判断是否是文件,如果是文件则可能将绝对路径存放到列表中,这里需要再完成两个事情:

  • 首先创建一个空列表,后面用list.append(i)添加文件路径
  • 接着利用os.path.isfile(i)判断是否是文件,返回True则执行添加元素的操作

具体代码如下

file_lst = []

for i in glob.glob(dir_path + '/**/*', recursive=True):
  if os.path.isfile(i):
    file_lst.append(i)

上一步我们获取了目标文件夹下的所有文件路径,接下来就可以嵌套遍历这个路径列表,其中filecmp.cmp进行文件判断,os.remove进行文件删除

for x in file_lst:
  for y in file_lst:
    if x != y:
      if filecmp.cmp(x, y):
        os.remove(y)

这里的代码已经实现了大致逻辑,但有一个细节需要考虑到:有可能循环到文件已经被前面的判断删除了,导致os.remove(file)由于文件不存在而报错

因此,可以用os.path.exists对文件存在进行判断,如下所示:

for x in file_lst:
  for y in file_lst:
    if x != y and os.path.exists(x) and os.path.exists(y):
      if filecmp.cmp(x, y):
        os.remove(y)

这样,一个简易的文件去重小程序就完成了,完整代码如下:

import os
import glob
import filecmp

dir_path = r'C:\xxxx'

file_lst = []

for i in glob.glob(dir_path + '/**/*', recursive=True):
  if os.path.isfile(i):
    file_lst.append(i)

for x in file_lst:
  for y in file_lst:
    if x != y and os.path.exists(x) and os.path.exists(y):
      if filecmp.cmp(x, y):
        os.remove(y)

写在最后

通过本文的Python自动化脚本制作过程,我们可以再次体会Python办公自动化的强大

到此这篇关于用Python自动清理电脑内重复文件,只要10行代码的文章就介绍到这了,更多相关python 自动清理重复文件内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
使用python编写脚本获取手机当前应用apk的信息
Jul 21 Python
Python实现批量更换指定目录下文件扩展名的方法
Sep 19 Python
Python对文件和目录进行操作的方法(file对象/os/os.path/shutil 模块)
May 08 Python
对python中return和print的一些理解
Aug 18 Python
Linux CentOS7下安装python3 的方法
Jan 21 Python
python中字典按键或键值排序的实现代码
Aug 27 Python
Python中 CSV格式清洗与转换的实例代码
Aug 29 Python
Python魔术方法专题
Jun 19 Python
浅谈tensorflow使用张量时的一些注意点tf.concat,tf.reshape,tf.stack
Jun 23 Python
Python selenium模块实现定位过程解析
Jul 09 Python
Python字符串查找基本操作代码案例
Oct 27 Python
Python 利用flask搭建一个共享服务器的步骤
Dec 05 Python
selenium+headless chrome爬虫的实现示例
Jan 08 #Python
plt.figure()参数使用详解及运行演示
Jan 08 #Python
matplotlib绘制多子图共享鼠标光标的方法示例
Jan 08 #Python
利用python查看数组中的所有元素是否相同
Jan 08 #Python
Python爬虫自动化获取华图和粉笔网站的错题(推荐)
Jan 08 #Python
tensorflow与numpy的版本兼容性问题的解决
Jan 08 #Python
matplotlib自定义鼠标光标坐标格式的实现
Jan 08 #Python
You might like
农民C键的运用技巧
2020/03/04 星际争霸
PHP中MD5函数使用实例代码
2008/06/07 PHP
PHP 开源AJAX框架14种
2009/08/24 PHP
win10 apache配置虚拟主机后localhost无法使用的解决方法
2018/01/27 PHP
基于prototype扩展的JavaScript常用函数库
2010/11/30 Javascript
在Ajax中使用Flash实现跨域数据读取的实现方法
2010/12/02 Javascript
调试Javascript代码(浏览器F12及VS中debugger关键字)
2013/01/25 Javascript
javascript实现tabs选项卡切换效果(扩展版)
2013/03/19 Javascript
基于jQuery实现图片的前进与后退功能
2013/04/24 Javascript
jQuery实现的多选框多级联动插件
2014/05/02 Javascript
VS2008中使用JavaScript调用WebServices
2014/12/18 Javascript
JS+CSS实现感应鼠标渐变显示DIV层的方法
2015/02/20 Javascript
jQuery拖动布局其结果保存到数据库
2015/10/09 Javascript
JavaScript函数学习总结以及相关的编程习惯指南
2015/11/16 Javascript
vue.js+Element实现表格里的增删改查
2017/01/18 Javascript
基于JavaScript实现移动端无限加载分页
2017/03/27 Javascript
webpack 开发和生产并行设置的方法
2018/11/08 Javascript
一篇文章介绍redux、react-redux、redux-saga总结
2019/05/23 Javascript
jQuery 动画与停止动画效果实例详解
2020/05/19 jQuery
微信小程序 scroll-view的使用案例代码详解
2020/06/11 Javascript
PyCharm 常用快捷键和设置方法
2017/12/20 Python
python getopt模块使用实例解析
2019/12/18 Python
Python中zip()函数的解释和可视化(实例详解)
2020/02/16 Python
pycharm下pyqt4安装及环境配置的教程
2020/04/24 Python
HEMA英国:荷兰原创设计
2018/08/28 全球购物
main 主函数执行完毕后,是否可能会再执行一段代码,给出说明
2012/12/05 面试题
计算机专业毕业生自荐信范文
2014/03/06 职场文书
课前三分钟演讲稿
2014/04/24 职场文书
财务部岗位职责范本
2015/04/14 职场文书
刑事申诉状范文
2015/05/20 职场文书
最美乡村教师观后感
2015/06/11 职场文书
一波干货,会议主持词开场白范文
2019/05/06 职场文书
导游词之秦皇岛燕塞湖
2020/01/03 职场文书
python3使用diagrams绘制架构图的步骤
2021/04/08 Python
postgreSQL数据库基础知识介绍
2022/04/12 PostgreSQL
Meta增速拉垮,元宇宙难当重任
2022/04/29 数码科技