编程 Python

pytorch 实现多个Dataloader同时训练

Posted in Python onMay 29, 2021

看代码吧~

如果两个dataloader的长度不一样，那就加个：

from itertools import cycle

仅使用zip，迭代器将在长度等于最小数据集的长度时耗尽。但是，使用cycle时，我们将再次重复最小的数据集，除非迭代器查看最大数据集中的所有样本。

pytorch 实现多个Dataloader同时训练

补充：pytorch技巧：自定义数据集 torch.utils.data.DataLoader 及Dataset的使用

本博客中有可直接运行的例子，便于直观的理解，在torch环境中运行即可。

1. 数据传递机制

在 pytorch 中数据传递按一下顺序：

1、创建 datasets ，也就是所需要读取的数据集。

2、把 datasets 传入DataLoader。

3、DataLoader迭代产生训练数据提供给模型。

2. torch.utils.data.Dataset

Pytorch提供两种数据集：

Map式数据集 Iterable式数据集。其中Map式数据集继承torch.utils.data.Dataset，Iterable式数据集继承torch.utils.data.IterableDataset。

本文只介绍 Map式数据集。

一个Map式的数据集必须要重写 __getitem__(self, index)、 __len__(self) 两个方法，用来表示从索引到样本的映射(Map)。 __getitem__(self, index)按索引映射到对应的数据， __len__(self)则会返回这个数据集的长度。

基本格式如下：

import torch.utils.data as data
class VOCDetection(data.Dataset):
    '''
    必须继承data.Dataset类
    '''
    def __init__(self):
        '''
        在这里进行初始化，一般是初始化文件路径或文件列表
        '''
        pass
    def __getitem__(self, index):
        '''
        1. 按照index，读取文件中对应的数据  （读取一个数据！！！！我们常读取的数据是图片，一般我们送入模型的数据成批的，但在这里只是读取一张图片，成批后面会说到）
        2. 对读取到的数据进行数据增强 (数据增强是深度学习中经常用到的，可以提高模型的泛化能力)
        3. 返回数据对 （一般我们要返回 图片，对应的标签） 在这里因为我没有写完整的代码，返回值用 0 代替
        '''
        return 0
    def __len__(self):
        '''
        返回数据集的长度
        '''
        return 0

可直接运行的例子：

import torch.utils.data as data
import numpy as np
x = np.array(range(80)).reshape(8, 10) # 模拟输入， 8个样本，每个样本长度为10
y = np.array(range(8))  # 模拟对应样本的标签， 8个标签 
class Mydataset(data.Dataset):
    def __init__(self, x, y):
        self.x = x
        self.y = y
        self.idx = list()
        for item in x:
            self.idx.append(item)
        pass
    def __getitem__(self, index):
        input_data = self.idx[index] #可继续进行数据增强，这里没有进行数据增强操作
        target = self.y[index]
        return input_data, target
    def __len__(self):
        return len(self.idx)
datasets = Mydataset(x, y)  # 初始化
print(datasets.__len__())  # 调用__len__() 返回数据的长度
for i in range(len(y)):
    input_data, target = datasets.__getitem__(i)  # 调用__getitem__(index) 返回读取的数据对
    print('input_data%d =' % i, input_data)
    print('target%d = ' % i, target)

结果如下：

pytorch 实现多个Dataloader同时训练

3. torch.utils.data.DataLoader

PyTorch中数据读取的一个重要接口是 torch.utils.data.DataLoader。

该接口主要用来将自定义的数据读取接口的输出或者PyTorch已有的数据读取接口的输入按照batch_size封装成Tensor，后续只需要再包装成Variable即可作为模型的输入。

torch.utils.data.DataLoader(onject)的可用参数如下：

1.dataset(Dataset): 数据读取接口,该输出是torch.utils.data.Dataset类的对象(或者继承自该类的自定义类的对象)。

2.batch_size (int, optional): 批训练数据量的大小，根据具体情况设置即可。一般为2的N次方（默认:1）

3.shuffle (bool, optional)：是否打乱数据，一般在训练数据中会采用。（默认：False）

4.sampler (Sampler, optional)：从数据集中提取样本的策略。如果指定，“shuffle”必须为false。我没有用过，不太了解。

5.batch_sampler (Sampler, optional)：和batch_size、shuffle等参数互斥，一般用默认。

6.num_workers：这个参数必须大于等于0，为0时默认使用主线程读取数据，其他大于0的数表示通过多个进程来读取数据，可以加快数据读取速度，一般设置为2的N次方，且小于batch_size（默认：0）

7.collate_fn (callable, optional): 合并样本清单以形成小批量。用来处理不同情况下的输入dataset的封装。

8.pin_memory (bool, optional)：如果设置为True，那么data loader将会在返回它们之前，将tensors拷贝到CUDA中的固定内存中.

9.drop_last (bool, optional): 如果数据集大小不能被批大小整除，则设置为“true”以除去最后一个未完成的批。如果“false”那么最后一批将更小。（默认：false）

10.timeout(numeric, optional)：设置数据读取时间限制，超过这个时间还没读取到数据的话就会报错。（默认：0）

11.worker_init_fn (callable, optional): 每个worker初始化函数（默认：None)

可直接运行的例子：

import torch.utils.data as data
import numpy as np
x = np.array(range(80)).reshape(8, 10) # 模拟输入， 8个样本，每个样本长度为10
y = np.array(range(8))  # 模拟对应样本的标签， 8个标签
class Mydataset(data.Dataset):
    def __init__(self, x, y):
        self.x = x
        self.y = y
        self.idx = list()
        for item in x:
            self.idx.append(item)
        pass
    def __getitem__(self, index):
        input_data = self.idx[index]
        target = self.y[index]
        return input_data, target
    def __len__(self):
        return len(self.idx)
if __name__ ==('__main__'):
    datasets = Mydataset(x, y)  # 初始化
    dataloader = data.DataLoader(datasets, batch_size=4, num_workers=2) 
    for i, (input_data, target) in enumerate(dataloader):
        print('input_data%d' % i, input_data)
        print('target%d' % i, target)

结果如下：（注意看类别，DataLoader把数据封装为Tensor）

pytorch 实现多个Dataloader同时训练

以上为个人经验，希望能给大家一个参考，也希望大家多多支持三水点靠木。

pytorch 实现多个Dataloader同时训练

- Author -

陈麒任

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

跟老齐学Python之玩转字符串(2)

Sep 14 Python

Python排序算法实例代码

Aug 10 Python

python for循环输入一个矩阵的实例

Nov 14 Python

python爬取内容存入Excel实例

Feb 20 Python

python中从for循环延申到推导式的具体使用

Nov 29 Python

Python 基于FIR实现Hilbert滤波器求信号包络详解

Feb 26 Python

python 生成任意形状的凸包图代码

Apr 16 Python

用Python在Excel里画出蒙娜丽莎的方法示例

Apr 28 Python

详解使用Python写一个向数据库填充数据的小工具(推荐)

Sep 11 Python

简单了解Python字典copy与赋值的区别

Sep 16 Python

python 将html转换为pdf的几种方法

Dec 29 Python

Python可视化神器pyecharts绘制水球图

Jul 07 Python

python 如何做一个识别率百分百的OCR

基于PyTorch实现一个简单的CNN图像分类器

May 29 #Python

python 爬取华为应用市场评论

python 开心网和豆瓣日记爬取的小爬虫

May 29 #Python

Python趣味挑战之实现简易版音乐播放器

新手必备Python开发环境搭建教程

Keras多线程机制与flask多线程冲突的解决方案

May 28 #Python

You might like

symfony2.4的twig中date用法分析

2016/03/18 PHP

PHP获取本周所有日期或者最近七天所有日期的方法

2018/06/20 PHP

验证用户是否修改过页面的数据的实现方法

2008/09/26 Javascript

js操作Xml(向服务器发送Xml,处理服务器返回的Xml)(IE下有效)

2009/01/30 Javascript

javascript 设置某DIV区域内的checkbox复选框

2009/11/30 Javascript

javaScript 关闭浏览器 (不弹出提示框)

2010/01/31 Javascript

js编码之encodeURIComponent使用介绍(asp,php)

2012/03/01 Javascript

用客户端js实现带省略号的分页

2013/04/27 Javascript

javascript阻止scroll事件多次执行的思路及实现

2013/11/08 Javascript

nodejs读取memcache示例分享

2014/01/02 NodeJs

Bootstrap~多级导航(级联导航)的实现效果【附代码】

2016/03/08 Javascript

在js里怎么实现Xcode里的callFuncN方法(详解)

2016/11/05 Javascript

JavaScript框架Angular和React深度对比

2017/11/20 Javascript

VSCode 配置React Native开发环境的方法

2017/12/27 Javascript

利用jqprint插件打印页面内容的实现方法

2018/01/09 Javascript

vue cli构建的项目中请求代理与项目打包问题

2018/02/26 Javascript

深入浅析AngularJs模版与v-bind

2018/07/06 Javascript

学习LayUI时自研的表单参数校验框架案例分析

2019/07/29 Javascript

老生常谈python之鸭子类和多态

2017/06/13 Python

python实现画一颗树和一片森林

2018/06/25 Python

解决Python2.7中IDLE启动没有反应的问题

2018/11/30 Python

使用Python制作简单的小程序IP查看器功能

2019/04/16 Python

python的turtle库使用详解

2019/05/10 Python

Python 图像处理: 生成二维高斯分布蒙版的实例

2019/07/04 Python

Python for循环搭配else常见问题解决

2020/02/11 Python

pytorch实现查看当前学习率

2020/06/24 Python

Python实现列表索引批量删除的5种方法

2020/11/16 Python

Python中使用Selenium环境安装的方法步骤

2021/02/22 Python

什么叫做SQL注入，如何防止

2016/10/04 面试题

餐厅采购员岗位职责

2014/03/06 职场文书

反腐倡廉演讲稿

2014/05/22 职场文书

成本会计实训报告

2014/11/05 职场文书

推广普通话宣传标语口号

2015/12/26 职场文书

2019财务管理制度最新范本！

2019/07/09 职场文书

Redis中一个String类型引发的惨案

2021/07/25 Redis

python三子棋游戏

2022/05/04 Python