python实现将两个文件夹合并至另一个文件夹(制作数据集)


Posted in Python onApril 03, 2020

此操作目的是为了制作自己的数据集,深度学习框架进行数据准备,此操作步骤包括对文件夹进行操作,将两个文件夹合并至另一个文件夹

该实例为一个煤矿工人脸识别的案例;首先原始数据集(简化版的数据集旨在说明数据准备过程)如下图所示:

该数据集只有三个人的数据,A01代表工人甲的煤矿下的照片,B01代表工人甲下矿前的照片,同理A02、B02代表工人乙的矿下、矿上的照片数据。。。

如下图所示

python实现将两个文件夹合并至另一个文件夹(制作数据集)

矿下

python实现将两个文件夹合并至另一个文件夹(制作数据集)

矿上

python实现将两个文件夹合并至另一个文件夹(制作数据集)

开始制作数据集:

首先建立训练集(0.7)和测试集(0.3),即建立一个空白文件夹

python实现将两个文件夹合并至另一个文件夹(制作数据集)

将该文件夹分为四个小文件夹(空),train代表训练集,val代表测试集,valb代表矿井下的测试集,vall代表矿井上的测试集,注:后边两个测试集可有可无

最终制作的数据集如下所示:

python实现将两个文件夹合并至另一个文件夹(制作数据集)

python实现将两个文件夹合并至另一个文件夹(制作数据集)

下面为所有的程序详解

#导入一些进行该操作需要的库
import numpy as np
import os
import random
import shutil

path=r'C:\Users\Administrator.SKY-20180518VHY\Desktop\rx\ore'#原始数据集的路径
data=os.listdir(path)
#listdir该操作([添加链接描述](https://3water.com/article/184106.htm))在我的上篇文章中有所介绍,此操作能读取的内容为A01、A02、A03、B01、B02、B03这些文件夹
#print(data)

root=path#复制原始数据路径path

读取文件夹 A01、A02、A03、存入c列表中B01、B02、B03,将其存入d列表中

c=[]
d=[]#创建两个空列表
for i in range(len(data)):
 a=data[i][0]
 if (a=='A'):
  c.append(data[i])
 else:
  d.append(data[i])
#print(d)

python实现将两个文件夹合并至另一个文件夹(制作数据集)

导入路径四个空文件夹的路径

train_root='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\train'
val_root='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\val'
vall_root='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\valb'
valb_root='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\vall'


for i in range(len(c)):
 qqq=os.path.exists(train_root+'/'+c[i][1:])
 if (not qqq):
  os.mkdir(train_root+'/'+c[i][1:])
  qq=os.path.exists(val_root+'/'+c[i][1:])
  if (not qq):
   os.mkdir(val_root+'/'+c[i][1:])
   qq=os.path.exists(vall_root+'/'+c[i][1:])
   if (not qq):
    os.mkdir(vall_root+'/'+c[i][1:])
    qq=os.path.exists(valb_root+'/'+c[i][1:])
    if (not qq):
     os.mkdir(valb_root+'/'+c[i][1:])
#f=[]
#g=[]
aq='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\rx\\ore\\'
train_root1='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\train\\'
val_root1='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\val\\'
vall_root1='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\valb\\'
valb_root1='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\vall\\'
for i in range(len(c)):
 a=c[i]
 data_0=os.listdir(aq+a)
# f.append(data_0)
# g.append(aq+a)
#print(f)
#print(g) 
 random.shuffle(data_0)#打乱A中数据
 for j in range(len(d)):
  b=d[j]
  if(a[1:]==b[1:]):
   data_1=os.listdir(aq+b)
   #print(aq+b);
   random.shuffle(data_1)
   #print(data_1)
   #print(data_0,data_1)
   for z in range(len(data_0)):
    #print(z)
    pic_path=aq+a+'/'+data_0[z]
    
    if z<int(len(data_0)*0.7):
     obj_path=train_root1+a[1:]+'/'+data_0[z]
     
    else:
     obj_path=val_root1+a[1:]+'/'+data_0[z]
     obl_path=vall_root1+a[1:]+'/'+data_0[z]
     shutil.copyfile(pic_path,obl_path)
   #print(len(data_0),len(data_0)*0.7)
    #if (os.path.exists(pic_path)):
    shutil.copyfile(pic_path,obj_path)
   for z in range(len(data_1)):
    pic_path=aq+b+'/'+data_1[z]
    if z<int(len(data_1)*0.7):
     obj_path=train_root1+b[1:]+'/'+data_1[z]
     
    else:
     obj_path=val_root1+b[1:]+'/'+data_1[z]
     obl_path=valb_root1+a[1:]+'/'+data_1[z]
     shutil.copyfile(pic_path,obl_path)
    #if (os.path.exists(pic_path)):
    shutil.copyfile(pic_path,obj_path)#shutil.copyfile( src, dst)

从源src复制到dst中去。当然前提是目标地址是具备可写权限。抛出的异常信息为IOException. 如果当前的dst已存在的话就会被覆盖掉

将数据送入pytorch中,对数据进行迭代

from __future__ import print_function, division
import torch
import torch.nn as nn
import torch.optim as optim
from torch.optim import lr_scheduler
import numpy as np
import torchvision
from torchvision import datasets, models, transforms
import matplotlib.pyplot as plt
import time
import os
import copy
import math
import torch.nn.functional as F

D=299

data_transforms = {
 'train': transforms.Compose([
#  transforms.RandomResizedCrop(D),
  transforms.Resize(D),
  transforms.RandomCrop(D),
  transforms.RandomHorizontalFlip(),
  transforms.ToTensor(),
  transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
 ]),
 'val': transforms.Compose([
  transforms.Resize(D),
  transforms.CenterCrop(D),
  transforms.ToTensor(),
  transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
 ]),
}

data_dir = r'C:\Users\Administrator.SKY-20180518VHY\Desktop\myself'
image_datasets = {x: datasets.ImageFolder(os.path.join(data_dir, x),
           data_transforms[x])
     for x in ['train', 'val']}
dataloaders = {x: torch.utils.data.DataLoader(image_datasets[x], batch_size=200,
            shuffle=True, num_workers=4)
    for x in ['train', 'val']}
dataset_sizes = {x: len(image_datasets[x]) for x in ['train', 'val']}
class_names = image_datasets['train'].classes

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
#print(image_datasets['train'][0])
img, label = image_datasets['val'][11] 
print(label)#输出为2即第三类

以上这篇python实现将两个文件夹合并至另一个文件夹(制作数据集)就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
使用BeautifulSoup爬虫程序获取百度搜索结果的标题和url示例
Jan 19 Python
Python中工作日类库Busines Holiday的介绍与使用
Jul 06 Python
python实现简易数码时钟
Feb 19 Python
Python编程图形库之Pillow使用方法讲解
Dec 28 Python
Python API 自动化实战详解(纯代码)
Jun 11 Python
在pytorch中为Module和Tensor指定GPU的例子
Aug 19 Python
Python安装及Pycharm安装使用教程图解
Sep 20 Python
python基于property()函数定义属性
Jan 22 Python
python为Django项目上的每个应用程序创建不同的自定义404页面(最佳答案)
Mar 09 Python
详解Python中namedtuple的使用
Apr 27 Python
Keras SGD 随机梯度下降优化器参数设置方式
Jun 19 Python
python实现磁盘日志清理的示例
Nov 05 Python
pycharm安装及如何导入numpy
Apr 03 #Python
解决pyPdf和pyPdf2在合并pdf时出现异常的问题
Apr 03 #Python
Python利用PyPDF2库获取PDF文件总页码实例
Apr 03 #Python
Numpy 理解ndarray对象的示例代码
Apr 03 #Python
python计算Content-MD5并获取文件的Content-MD5值方式
Apr 03 #Python
Django自定义列表 models字段显示方式
Apr 03 #Python
使用Django清空数据库并重新生成
Apr 03 #Python
You might like
Discuz批量替换帖子内容的方法(使用SQL更新数据库)
2014/06/23 PHP
ThinkPHP5实现作业管理系统中处理学生未交作业与已交作业信息的方法
2016/11/12 PHP
thinkPHP5框架中widget的功能与用法详解
2018/06/11 PHP
jQuery链式操作如何实现以及为什么要用链式操作
2013/01/17 Javascript
JavaScript自执行闭包的小例子
2013/06/29 Javascript
浅谈JavaScript函数节流
2014/12/09 Javascript
Javascript基础教程之变量
2015/01/18 Javascript
浅谈Javascript线程及定时机制
2015/07/02 Javascript
javascript编程异常处理实例小结
2015/11/30 Javascript
JS获取html元素的标记名实现方法
2016/10/08 Javascript
js微信支付实现代码
2016/12/22 Javascript
Vue.js实战之使用Vuex + axios发送请求详解
2017/04/04 Javascript
Vue.js实现图片的随意拖动方法
2018/03/08 Javascript
vue select组件的使用与禁用实现代码
2018/04/10 Javascript
Jquery的Ajax技术使用方法
2019/01/21 jQuery
深入了解JavaScript 私有化
2019/05/30 Javascript
JS中比较两个Object数组是否相等方法实例
2019/11/11 Javascript
[01:01:24]DOTA2上海特级锦标赛A组败者赛 EHOME VS CDEC第三局
2016/02/25 DOTA
[01:34]完美“圣”典宣传片震撼发布,12.17与你不见不散
2016/12/16 DOTA
python求最大值最小值方法总结
2019/06/25 Python
Pandas把dataframe或series转换成list的方法
2020/06/14 Python
Scrapy 配置动态代理IP的实现
2020/09/28 Python
Jupyter Notebook添加代码自动补全功能的实现
2021/01/07 Python
python pygame 愤怒的小鸟游戏示例代码
2021/02/25 Python
Css3实现无缝滚动防抖
2020/09/14 HTML / CSS
S’well Bottle保温杯官网:绝缘不锈钢水瓶
2018/05/09 全球购物
关于礼仪的演讲稿
2014/01/04 职场文书
父亲八十大寿答谢词
2014/01/23 职场文书
《美丽的小路》教学反思
2014/02/26 职场文书
市级青年文明号申报材料
2014/05/26 职场文书
电气工程及其自动化专业求职信
2014/06/23 职场文书
2014年幼儿园工作总结
2014/11/10 职场文书
2014年社区工作总结
2014/11/18 职场文书
前台文员岗位职责
2015/02/04 职场文书
美德少年主要事迹材料
2015/11/04 职场文书
python 模拟在天空中放风筝的示例代码
2021/04/21 Python