Pytorch DataLoader 变长数据处理方式


Posted in Python onJanuary 08, 2020

关于Pytorch中怎么自定义Dataset数据集类、怎样使用DataLoader迭代加载数据,这篇官方文档已经说得很清楚了,这里就不在赘述。

现在的问题:有的时候,特别对于NLP任务来说,输入的数据可能不是定长的,比如多个句子的长度一般不会一致,这时候使用DataLoader加载数据时,不定长的句子会被胡乱切分,这肯定是不行的。

解决方法是重写DataLoader的collate_fn,具体方法如下:

# 假如每一个样本为:
sample = {
	# 一个句子中各个词的id
	'token_list' : [5, 2, 4, 1, 9, 8],
	# 结果y
	'label' : 5,
}


# 重写collate_fn函数,其输入为一个batch的sample数据
def collate_fn(batch):
	# 因为token_list是一个变长的数据,所以需要用一个list来装这个batch的token_list
  token_lists = [item['token_list'] for item in batch]
  
  # 每个label是一个int,我们把这个batch中的label也全取出来,重新组装
  labels = [item['label'] for item in batch]
  # 把labels转换成Tensor
  labels = torch.Tensor(labels)
  return {
    'token_list': token_lists,
    'label': labels,
  }


# 在使用DataLoader加载数据时,注意collate_fn参数传入的是重写的函数
DataLoader(trainset, batch_size=4, shuffle=True, num_workers=4, collate_fn=collate_fn)

使用以上方法,可以保证DataLoader能Load出一个batch的数据,load出来的东西就是重写的collate_fn函数最后return出来的字典。

以上这篇Pytorch DataLoader 变长数据处理方式就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用python 制作图片转pdf工具
Jan 30 Python
python写入中英文字符串到文件的方法
May 06 Python
python类:class创建、数据方法属性及访问控制详解
Jul 25 Python
Python2包含中文报错的解决方法
Jul 09 Python
python处理“
Jun 10 Python
linux环境中没有网络怎么下载python
Jul 07 Python
python redis连接 有序集合去重的代码
Aug 04 Python
Django中自定义模型管理器(Manager)及方法
Sep 23 Python
Python中的X[:,0]、X[:,1]、X[:,:,0]、X[:,:,1]、X[:,m:n]和X[:,:,m:n]
Feb 13 Python
使用python客户端访问impala的操作方式
Mar 28 Python
python实现文字版扫雷
Apr 24 Python
Python入门之使用pandas分析excel数据
May 12 Python
pytorch实现用CNN和LSTM对文本进行分类方式
Jan 08 #Python
使用pytorch和torchtext进行文本分类的实例
Jan 08 #Python
python爬虫爬取监控教务系统的思路详解
Jan 08 #Python
Pytorch实现基于CharRNN的文本分类与生成示例
Jan 08 #Python
python实现单目标、多目标、多尺度、自定义特征的KCF跟踪算法(实例代码)
Jan 08 #Python
Pytorch实现神经网络的分类方式
Jan 08 #Python
python 爬取古诗文存入mysql数据库的方法
Jan 08 #Python
You might like
php中count获取多维数组长度的方法
2014/11/03 PHP
浅析php如何实现App常用的秒发功能
2016/08/03 PHP
utf8的编码算法 转载
2006/12/27 Javascript
JavaScript 字符串与数组转换函数[不用split与join]
2009/12/13 Javascript
javascript 获取所有id中包含某关键字的控件的实现代码
2010/11/25 Javascript
jquery解决图片路径不存在执行替换路径
2013/02/06 Javascript
jQuery实现给页面换肤的方法
2015/05/30 Javascript
推荐阅读的js快速判断IE浏览器(兼容IE10与IE11)
2015/12/13 Javascript
jQuery基于扩展简单实现倒计时功能的方法
2016/05/14 Javascript
超实用的JavaScript代码段 附使用方法
2016/05/22 Javascript
详解JavaScript模块化开发
2016/12/04 Javascript
react-redux中connect()方法详细解析
2017/05/27 Javascript
vue生命周期和react生命周期对比【推荐】
2018/09/19 Javascript
layui问题之自动滚动二级iframe页面到指定位置的方法
2019/09/18 Javascript
js实现上下左右键盘控制div移动
2020/01/16 Javascript
python下函数参数的传递(参数带星号的说明)
2010/09/19 Python
朴素贝叶斯算法的python实现方法
2014/11/18 Python
python将图片文件转换成base64编码的方法
2015/03/14 Python
Python base64编码解码实例
2015/06/21 Python
详谈在flask中使用jsonify和json.dumps的区别
2018/03/26 Python
python中subprocess批量执行linux命令
2018/04/27 Python
详解python中的装饰器
2018/07/10 Python
python使用phoenixdb操作hbase的方法示例
2019/02/28 Python
Python Matplotlib实现三维数据的散点图绘制
2019/03/19 Python
PyQt5实现从主窗口打开子窗口的方法
2019/06/19 Python
python如何将多个PDF进行合并
2019/08/13 Python
在pycharm中配置Anaconda以及pip源配置详解
2019/09/09 Python
python不同版本的_new_不同点总结
2020/12/09 Python
HTML5 Canvas实现文本对齐的方法总结
2016/03/24 HTML / CSS
Ego Shoes官网:英国时髦鞋类品牌
2020/10/19 全球购物
幼儿园教师教育感言
2014/02/28 职场文书
项目备案申请报告
2015/05/15 职场文书
微信小程序和php的登录实现
2021/04/01 PHP
SQL Server基本使用和简单的CRUD操作
2021/04/05 SQL Server
Go Plugins插件的实现方式
2021/08/07 Golang
JVM钩子函数的使用场景详解
2021/08/23 Java/Android