python实现将两个文件夹合并至另一个文件夹(制作数据集)


Posted in Python onApril 03, 2020

此操作目的是为了制作自己的数据集,深度学习框架进行数据准备,此操作步骤包括对文件夹进行操作,将两个文件夹合并至另一个文件夹

该实例为一个煤矿工人脸识别的案例;首先原始数据集(简化版的数据集旨在说明数据准备过程)如下图所示:

该数据集只有三个人的数据,A01代表工人甲的煤矿下的照片,B01代表工人甲下矿前的照片,同理A02、B02代表工人乙的矿下、矿上的照片数据。。。

如下图所示

python实现将两个文件夹合并至另一个文件夹(制作数据集)

矿下

python实现将两个文件夹合并至另一个文件夹(制作数据集)

矿上

python实现将两个文件夹合并至另一个文件夹(制作数据集)

开始制作数据集:

首先建立训练集(0.7)和测试集(0.3),即建立一个空白文件夹

python实现将两个文件夹合并至另一个文件夹(制作数据集)

将该文件夹分为四个小文件夹(空),train代表训练集,val代表测试集,valb代表矿井下的测试集,vall代表矿井上的测试集,注:后边两个测试集可有可无

最终制作的数据集如下所示:

python实现将两个文件夹合并至另一个文件夹(制作数据集)

python实现将两个文件夹合并至另一个文件夹(制作数据集)

下面为所有的程序详解

#导入一些进行该操作需要的库
import numpy as np
import os
import random
import shutil

path=r'C:\Users\Administrator.SKY-20180518VHY\Desktop\rx\ore'#原始数据集的路径
data=os.listdir(path)
#listdir该操作([添加链接描述](https://3water.com/article/184106.htm))在我的上篇文章中有所介绍,此操作能读取的内容为A01、A02、A03、B01、B02、B03这些文件夹
#print(data)

root=path#复制原始数据路径path

读取文件夹 A01、A02、A03、存入c列表中B01、B02、B03,将其存入d列表中

c=[]
d=[]#创建两个空列表
for i in range(len(data)):
 a=data[i][0]
 if (a=='A'):
  c.append(data[i])
 else:
  d.append(data[i])
#print(d)

python实现将两个文件夹合并至另一个文件夹(制作数据集)

导入路径四个空文件夹的路径

train_root='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\train'
val_root='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\val'
vall_root='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\valb'
valb_root='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\vall'


for i in range(len(c)):
 qqq=os.path.exists(train_root+'/'+c[i][1:])
 if (not qqq):
  os.mkdir(train_root+'/'+c[i][1:])
  qq=os.path.exists(val_root+'/'+c[i][1:])
  if (not qq):
   os.mkdir(val_root+'/'+c[i][1:])
   qq=os.path.exists(vall_root+'/'+c[i][1:])
   if (not qq):
    os.mkdir(vall_root+'/'+c[i][1:])
    qq=os.path.exists(valb_root+'/'+c[i][1:])
    if (not qq):
     os.mkdir(valb_root+'/'+c[i][1:])
#f=[]
#g=[]
aq='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\rx\\ore\\'
train_root1='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\train\\'
val_root1='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\val\\'
vall_root1='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\valb\\'
valb_root1='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\vall\\'
for i in range(len(c)):
 a=c[i]
 data_0=os.listdir(aq+a)
# f.append(data_0)
# g.append(aq+a)
#print(f)
#print(g) 
 random.shuffle(data_0)#打乱A中数据
 for j in range(len(d)):
  b=d[j]
  if(a[1:]==b[1:]):
   data_1=os.listdir(aq+b)
   #print(aq+b);
   random.shuffle(data_1)
   #print(data_1)
   #print(data_0,data_1)
   for z in range(len(data_0)):
    #print(z)
    pic_path=aq+a+'/'+data_0[z]
    
    if z<int(len(data_0)*0.7):
     obj_path=train_root1+a[1:]+'/'+data_0[z]
     
    else:
     obj_path=val_root1+a[1:]+'/'+data_0[z]
     obl_path=vall_root1+a[1:]+'/'+data_0[z]
     shutil.copyfile(pic_path,obl_path)
   #print(len(data_0),len(data_0)*0.7)
    #if (os.path.exists(pic_path)):
    shutil.copyfile(pic_path,obj_path)
   for z in range(len(data_1)):
    pic_path=aq+b+'/'+data_1[z]
    if z<int(len(data_1)*0.7):
     obj_path=train_root1+b[1:]+'/'+data_1[z]
     
    else:
     obj_path=val_root1+b[1:]+'/'+data_1[z]
     obl_path=valb_root1+a[1:]+'/'+data_1[z]
     shutil.copyfile(pic_path,obl_path)
    #if (os.path.exists(pic_path)):
    shutil.copyfile(pic_path,obj_path)#shutil.copyfile( src, dst)

从源src复制到dst中去。当然前提是目标地址是具备可写权限。抛出的异常信息为IOException. 如果当前的dst已存在的话就会被覆盖掉

将数据送入pytorch中,对数据进行迭代

from __future__ import print_function, division
import torch
import torch.nn as nn
import torch.optim as optim
from torch.optim import lr_scheduler
import numpy as np
import torchvision
from torchvision import datasets, models, transforms
import matplotlib.pyplot as plt
import time
import os
import copy
import math
import torch.nn.functional as F

D=299

data_transforms = {
 'train': transforms.Compose([
#  transforms.RandomResizedCrop(D),
  transforms.Resize(D),
  transforms.RandomCrop(D),
  transforms.RandomHorizontalFlip(),
  transforms.ToTensor(),
  transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
 ]),
 'val': transforms.Compose([
  transforms.Resize(D),
  transforms.CenterCrop(D),
  transforms.ToTensor(),
  transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
 ]),
}

data_dir = r'C:\Users\Administrator.SKY-20180518VHY\Desktop\myself'
image_datasets = {x: datasets.ImageFolder(os.path.join(data_dir, x),
           data_transforms[x])
     for x in ['train', 'val']}
dataloaders = {x: torch.utils.data.DataLoader(image_datasets[x], batch_size=200,
            shuffle=True, num_workers=4)
    for x in ['train', 'val']}
dataset_sizes = {x: len(image_datasets[x]) for x in ['train', 'val']}
class_names = image_datasets['train'].classes

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
#print(image_datasets['train'][0])
img, label = image_datasets['val'][11] 
print(label)#输出为2即第三类

以上这篇python实现将两个文件夹合并至另一个文件夹(制作数据集)就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python正则表达式判断字符串是否是全部小写示例
Dec 25 Python
python获取当前用户的主目录路径方法(推荐)
Jan 12 Python
Python中的函数作用域
May 07 Python
在Python中获取两数相除的商和余数方法
Nov 10 Python
解决python打不开文件(文件不存在)的问题
Feb 18 Python
Python面向对象之继承和多态用法分析
Jun 08 Python
Pandas中Series和DataFrame的索引实现
Jun 27 Python
pandas.DataFrame的pivot()和unstack()实现行转列
Jul 06 Python
Python适配器模式代码实现解析
Aug 02 Python
基于python实现地址和经纬度转换
May 19 Python
Python库安装速度过慢解决方案
Jul 14 Python
python 代码运行时间获取方式详解
Sep 18 Python
pycharm安装及如何导入numpy
Apr 03 #Python
解决pyPdf和pyPdf2在合并pdf时出现异常的问题
Apr 03 #Python
Python利用PyPDF2库获取PDF文件总页码实例
Apr 03 #Python
Numpy 理解ndarray对象的示例代码
Apr 03 #Python
python计算Content-MD5并获取文件的Content-MD5值方式
Apr 03 #Python
Django自定义列表 models字段显示方式
Apr 03 #Python
使用Django清空数据库并重新生成
Apr 03 #Python
You might like
全国FM电台频率大全 - 7 吉林省
2020/03/11 无线电
Zend 输出产生XML解析错误
2009/03/03 PHP
[原创]php求圆周率的简单实现方法
2016/05/30 PHP
PHP实现的曲线统计图表示例
2016/11/10 PHP
详解提高使用Java反射的效率方法
2019/04/29 PHP
Laravel Eloquent分表方法并使用模型关联的实现
2019/11/25 PHP
Javascript实现重力弹跳拖拽运动效果示例
2013/06/28 Javascript
对table和ul实现js分页示例分享
2014/02/24 Javascript
JavaScript创建一个object对象并操作对象属性的用法
2015/03/23 Javascript
JS实现为表格动态添加标题的方法
2015/03/31 Javascript
详解JavaScript ES6中的模板字符串
2015/07/28 Javascript
Vue全局分页组件的实现代码
2018/08/10 Javascript
layui结合form,table的全选、反选v1.0示例讲解
2018/08/15 Javascript
vue移动端微信授权登录插件封装的实例
2018/08/28 Javascript
VUE项目初建和常见问题总结
2019/09/12 Javascript
用Javascript实现发送短信验证码间隔功能
2021/02/08 Javascript
使用python统计文件行数示例分享
2014/02/21 Python
Django Web开发中django-debug-toolbar的配置以及使用
2018/05/06 Python
Python使用pylab库实现绘制直方图功能示例
2018/06/01 Python
django admin 后台实现三级联动的示例代码
2018/06/22 Python
python安装requests库的实例代码
2019/06/25 Python
详解使用django-mama-cas快速搭建CAS服务的实现
2019/10/30 Python
基于Tensorflow使用CPU而不用GPU问题的解决
2020/02/07 Python
Python使用os.listdir和os.walk获取文件路径
2020/05/21 Python
Python3.9.1中使用match方法详解
2021/02/08 Python
HTML5基于flash实现播放RTMP协议视频的示例代码
2020/12/04 HTML / CSS
美国最大的电子宠物训练产品制造商:PetSafe
2018/10/12 全球购物
.NET是怎么支持多种语言的
2015/02/24 面试题
人力资源部门的主要职能
2014/02/22 职场文书
校长寄语大全
2014/04/09 职场文书
请假条格式范文
2014/04/10 职场文书
成立公司计划书
2014/05/07 职场文书
心理咨询承诺书
2014/05/20 职场文书
汽车转让协议书
2015/01/29 职场文书
2015年护理工作总结范文
2015/04/03 职场文书
2019年中,最受大众欢迎的6本新书
2019/08/07 职场文书