编程 Python

如何从csv文件构建Tensorflow的数据集

Posted in Python onSeptember 21, 2020

从csv文件构建Tensorflow的数据集

当我们有一系列CSV文件，如何构建Tensorflow的数据集呢?

基本步骤

获得一组CSV文件的路径
将这组文件名，转成文件名对应的dataset => file_dataset
根据file_dataset中的每个文件名，读取文件内容生成一个内容的dataset => content_dataset
这样的多个content_dataset, 拼接起来，形成一整个dataset
因为读出来的每条记录都是string类型，所以还需要对每条记录做decode

存在一个这样的变量train_filenames

pprint.pprint(train_filenames)
#	['generate_csv\\train_00.csv',
#	 'generate_csv\\train_01.csv',
#	 'generate_csv\\train_02.csv',
#	 'generate_csv\\train_03.csv',
#	 'generate_csv\\train_04.csv',
#	 'generate_csv\\train_05.csv',
#	 'generate_csv\\train_06.csv',
#	 'generate_csv\\train_07.csv',
#	 'generate_csv\\train_08.csv',
#	 'generate_csv\\train_09.csv',
#	 'generate_csv\\train_10.csv',
#	 'generate_csv\\train_11.csv',
#	 'generate_csv\\train_12.csv',
#	 'generate_csv\\train_13.csv',
#	 'generate_csv\\train_14.csv',
#	 'generate_csv\\train_15.csv',
#	 'generate_csv\\train_16.csv',
#	 'generate_csv\\train_17.csv',
#	 'generate_csv\\train_18.csv',
#	 'generate_csv\\train_19.csv']

接着，我们用提前定义好的API构建文件名数据集file_dataset

filename_dataset = tf.data.Dataset.list_files(train_filenames)
for filename in filename_dataset:
  print(filename)
#tf.Tensor(b'generate_csv\\train_09.csv', shape=(), dtype=string)
#tf.Tensor(b'generate_csv\\train_19.csv', shape=(), dtype=string)
#tf.Tensor(b'generate_csv\\train_03.csv', shape=(), dtype=string)
#tf.Tensor(b'generate_csv\\train_01.csv', shape=(), dtype=string)
#tf.Tensor(b'generate_csv\\train_14.csv', shape=(), dtype=string)
#tf.Tensor(b'generate_csv\\train_17.csv', shape=(), dtype=string)
#tf.Tensor(b'generate_csv\\train_15.csv', shape=(), dtype=string)
#tf.Tensor(b'generate_csv\\train_06.csv', shape=(), dtype=string)
#tf.Tensor(b'generate_csv\\train_05.csv', shape=(), dtype=string)
#tf.Tensor(b'generate_csv\\train_07.csv', shape=(), dtype=string)
#tf.Tensor(b'generate_csv\\train_11.csv', shape=(), dtype=string)
#tf.Tensor(b'generate_csv\\train_02.csv', shape=(), dtype=string)
#tf.Tensor(b'generate_csv\\train_12.csv', shape=(), dtype=string)
#tf.Tensor(b'generate_csv\\train_13.csv', shape=(), dtype=string)
#tf.Tensor(b'generate_csv\\train_10.csv', shape=(), dtype=string)
#tf.Tensor(b'generate_csv\\train_16.csv', shape=(), dtype=string)
#tf.Tensor(b'generate_csv\\train_18.csv', shape=(), dtype=string)
#tf.Tensor(b'generate_csv\\train_00.csv', shape=(), dtype=string)
#tf.Tensor(b'generate_csv\\train_04.csv', shape=(), dtype=string)
#tf.Tensor(b'generate_csv\\train_08.csv', shape=(), dtype=string)

第三步，根据每个文件名，去读取文件里面的内容

dataset = filename_dataset.interleave(
  lambda filename: tf.data.TextLineDataset(filename).skip(1),
  cycle_length=5
)

for line in dataset.take(3):
  print(line)

#tf.Tensor(b'0.46908349737250216,1.8718193706428006,0.13936365871212536,-0.011055733363841472,-0.6349261778219746,-0.036732316700563934,1.0259470089944995,-1.319095600336748,2.171', shape=(), dtype=string)
#tf.Tensor(b'-1.102093775650278,1.313248890578542,-0.7212003024178728,-0.14707856286537277,0.34720121604358517,0.0965085401826684,-0.74698820254838,0.6810563907247876,1.428', shape=(), dtype=string)
#tf.Tensor(b'-0.8901003715328659,0.9142699762469286,-0.1851678950250224,-0.12947457252940406,0.5958187430364827,-0.021255215877779534,0.7914317693724252,-0.45618713536506217,0.75', shape=(), dtype=string)

interleave的作用可以类比map, 对每个元素应用操作，然后还能把结果合起来。
因此，有了interleave, 我们就把第三四步，一起完成了
之所以skip(1),是因为这个csv第一行是header.
cycle_length是并行化构建数据集的线程数

好，第五步，解析每条记录

def parse_csv_line(line, n_fields=9):
  defaults = [tf.constant(np.nan)] * n_fields
  parsed_fields = tf.io.decode_csv(line, record_defaults=defaults)
  x = tf.stack(parsed_fields[:-1])
  y = tf.stack(parsed_fields[-1:])
  return x, y

parse_csv_line('1.2286258796252256,-1.0806245954111382,0.4444161407754224,-0.0352172575329119,0.9740347681426992,-0.003516079473801425,-0.8126524696425611,0.865609068204283,2.803', 9)

#(<tf.Tensor: shape=(8,), dtype=float32, numpy= array([ 1.2286259 , -1.0806246 , 0.44441614, -0.03521726, 0.9740348 ,-0.00351608, -0.81265247, 0.86560905], dtype=float32)>,<tf.Tensor: shape=(1,), dtype=float32, numpy=array([2.803], dtype=float32)>)

最后，将每条记录都应用这个方法，就完成了构建。

dataset = dataset.map(parse_csv_line)

完整代码

def csv_2_dataset(filenames, n_readers_thread = 5, batch_size = 32, n_parse_thread = 5, shuffle_buffer_size = 10000):
  
  dataset = tf.data.Dataset.list_files(filenames)
  dataset = dataset.repeat()
  dataset = dataset.interleave(
    lambda filename: tf.data.TextLineDataset(filename).skip(1),
    cycle_length=n_readers_thread
  )
  dataset.shuffle(shuffle_buffer_size)
  dataset = dataset.map(parse_csv_line, num_parallel_calls = n_parse_thread)
  dataset = dataset.batch(batch_size)
  return dataset

如何使用

train_dataset = csv_2_dataset(train_filenames, batch_size=32)
valid_dataset = csv_2_dataset(valid_filenames, batch_size=32)

model = ...

model.fit(train_set, validation_data=valid_set, 
          steps_per_epoch = 11610 // 32,
          validation_steps = 3870 // 32,
          epochs=100, callbacks=callbacks)

这里的11610 和 3870是什么？

这是train_dataset 和 valid_dataset中数据的数量，需要在训练中手动指定每个batch中参与训练的数据的多少。

model.evaluate(test_set, steps=5160//32)

同理，测试的时候，使用这样的数据集，也需要手动指定。
5160是测试数据集的总量。

以上就是如何从csv文件构建Tensorflow的数据集的详细内容，更多关于csv文件构建Tensorflow的数据集的资料请关注三水点靠木其它相关文章！

如何从csv文件构建Tensorflow的数据集

- Author -

Sight Tech.

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python中的作用域规则详解

Jan 30 Python

把项目从Python2.x移植到Python3.x的经验总结

Apr 20 Python

解决pip install的时候报错timed out的问题

Jun 12 Python

浅谈Django的缓存机制

Aug 23 Python

Python之pymysql的使用小结

Jul 01 Python

关于Python3 类方法、静态方法新解

Aug 30 Python

python+selenium 点击单选框-radio的实现方法

Sep 03 Python

Pytorch 神经网络—自定义数据集上实现教程

Jan 07 Python

python读取excel进行遍历/xlrd模块操作

Jul 12 Python

Django rest framework分页接口实现原理解析

Aug 21 Python

Django-silk性能测试工具安装及使用解析

Nov 28 Python

Python中可变和不可变对象的深入讲解

Aug 02 Python

python打包多类型文件的操作方法

Sep 21 #Python

python 星号(*)的多种用途

Sep 21 #Python

Python+Selenium随机生成手机验证码并检查页面上是否弹出重复手机号码提示框

Sep 21 #Python

解决PyCharm不在run输出运行结果而不是再Console里输出的问题

Sep 21 #Python

python map比for循环快在哪

Sep 21 #Python

通过实例解析Python文件操作实现步骤

Sep 21 #Python

python Paramiko使用示例

Sep 21 #Python

You might like

php下连接mssql2005的代码

2011/01/17 PHP

PHP判断搜索引擎蜘蛛并自动记忆到文件的代码

2012/02/04 PHP

跟我学Laravel之请求与输入

2014/10/15 PHP

详解php curl带有csrf-token验证模拟提交方法

2018/04/18 PHP

Prototype String对象学习

2009/07/19 Javascript

基于jQuery实现文本框缩放以及上下移动功能

2014/11/24 Javascript

jQuery中:last选择器用法实例

2014/12/30 Javascript

JQuery 两种方法解决刚创建的元素遍历不到的问题

2016/04/13 Javascript

JavaScript函数节流概念与用法实例详解

2016/06/20 Javascript

浅谈Javascript中的12种DOM节点类型

2016/08/19 Javascript

详解Javascript数据类型的转换规则

2016/12/12 Javascript

自学实现angularjs依赖注入

2016/12/20 Javascript

JSON与JS对象的区别与对比

2017/03/01 Javascript

Angular-Ui-Router+ocLazyLoad动态加载脚本示例

2017/03/02 Javascript

JavaScript数据结构之优先队列与循环队列实例详解

2017/10/27 Javascript

Vue监听数据渲染DOM完以后执行某个函数详解

2018/09/11 Javascript

解决使用layui的时候form表单中的select等不能渲染的问题

2019/09/18 Javascript

vue 公共列表选择组件,引用Vant-UI的样式方式

2020/11/02 Javascript

[45:10]NB vs Liquid Supermajor小组赛 A组胜者组决赛 BO3 第二场 6.2

2018/06/04 DOTA

使用Python脚本操作MongoDB的教程

2015/04/16 Python

在Python中使用swapCase()方法转换大小写的教程

2015/05/20 Python

两个命令把 Vim 打造成 Python IDE的方法

2016/03/20 Python

Python SqlAlchemy动态添加数据表字段实例解析

2018/02/07 Python

对python遍历文件夹中的所有jpg文件的实例详解

2018/12/08 Python

windows10下安装TensorFlow Object Detection API的步骤

2019/06/13 Python

Python3 列表，数组，矩阵的相互转换的方法示例

2019/08/05 Python

自定义Django默认的sitemap站点地图样式

2020/03/04 Python

英国精品买手店：Browns Fashion

2016/09/29 全球购物

购买中国最好的电子产品：Geekbuying

2018/03/13 全球购物

运动会广播稿80字

2014/01/23 职场文书

求职信标题怎么写

2014/05/26 职场文书

购房公证委托书（2014版）

2014/09/12 职场文书

党员教师四风自我剖析材料

2014/09/30 职场文书

煤矿安全生产工作总结

2015/08/13 职场文书

关于k8s环境部署mysql主从的问题

2022/03/13 MySQL

vue里使用create, mounted调用方法

2022/04/26 Vue.js