编程 Python

将自己的数据集制作成TFRecord格式教程

Posted in Python onFebruary 17, 2020

在使用TensorFlow训练神经网络时，首先面临的问题是：网络的输入

此篇文章，教大家将自己的数据集制作成TFRecord格式，feed进网络，除了TFRecord格式，TensorFlow也支持其他格

式的数据，此处就不再介绍了。建议大家使用TFRecord格式，在后面可以通过api进行多线程的读取文件队列。

1. 原本的数据集

此时，我有两类图片，分别是xiansu100,xiansu60,每一类中有10张图片。

将自己的数据集制作成TFRecord格式教程

2.制作成TFRecord格式

tfrecord会根据你选择输入文件的类，自动给每一类打上同样的标签。如在本例中，只有0,1 两类，想知道文件夹名与label关系的，可以自己保存起来。

#生成整数型的属性
def _int64_feature(value):
 return tf.train.Feature(int64_list = tf.train.Int64List(value = [value]))
 
#生成字符串类型的属性
def _bytes_feature(value):
 return tf.train.Feature(bytes_list = tf.train.BytesList(value = [value]))
 
#制作TFRecord格式
def createTFRecord(filename,mapfile):
 class_map = {}
 data_dir = '/home/wc/DataSet/traffic/testTFRecord/'
 classes = {'xiansu60','xiansu100'}
 #输出TFRecord文件的地址
 
 writer = tf.python_io.TFRecordWriter(filename)
 
 for index,name in enumerate(classes):
  class_path=data_dir+name+'/'
  class_map[index] = name
  for img_name in os.listdir(class_path):
   img_path = class_path + img_name #每个图片的地址
   img = Image.open(img_path)
   img= img.resize((224,224))
   img_raw = img.tobytes()   #将图片转化成二进制格式
   example = tf.train.Example(features = tf.train.Features(feature = {
    'label':_int64_feature(index),
    'image_raw': _bytes_feature(img_raw)
   }))
   writer.write(example.SerializeToString())
 writer.close()
 
 txtfile = open(mapfile,'w+')
 for key in class_map.keys():
  txtfile.writelines(str(key)+":"+class_map[key]+"\n")
 txtfile.close()

此段代码，运行完后会产生生成的.tfrecord文件。

3. 读取TFRecord的数据，进行解析，此时使用了文件队列以及多线程

#读取train.tfrecord中的数据
def read_and_decode(filename): 
 #创建一个reader来读取TFRecord文件中的样例
 reader = tf.TFRecordReader()
 #创建一个队列来维护输入文件列表
 filename_queue = tf.train.string_input_producer([filename], shuffle=False,num_epochs = 1)
 #从文件中读出一个样例，也可以使用read_up_to一次读取多个样例
 _,serialized_example = reader.read(filename_queue)
#  print _,serialized_example
 
 #解析读入的一个样例，如果需要解析多个，可以用parse_example
 features = tf.parse_single_example(
 serialized_example,
 features = {'label':tf.FixedLenFeature([], tf.int64),
    'image_raw': tf.FixedLenFeature([], tf.string),})
 #将字符串解析成图像对应的像素数组
 img = tf.decode_raw(features['image_raw'], tf.uint8)
 img = tf.reshape(img,[224, 224, 3]) #reshape为128*128*3通道图片
 img = tf.image.per_image_standardization(img)
 labels = tf.cast(features['label'], tf.int32)
 return img, labels

4. 将图片几个一打包，形成batch

def createBatch(filename,batchsize):
 images,labels = read_and_decode(filename)
 
 min_after_dequeue = 10
 capacity = min_after_dequeue + 3 * batchsize
 
 image_batch, label_batch = tf.train.shuffle_batch([images, labels], 
              batch_size=batchsize, 
              capacity=capacity, 
              min_after_dequeue=min_after_dequeue
              )
 
 label_batch = tf.one_hot(label_batch,depth=2)
 return image_batch, label_batch

5.主函数

if __name__ =="__main__":
 #训练图片两张为一个batch,进行训练，测试图片一起进行测试
 mapfile = "/home/wc/DataSet/traffic/testTFRecord/classmap.txt"
 train_filename = "/home/wc/DataSet/traffic/testTFRecord/train.tfrecords"
#  createTFRecord(train_filename,mapfile)
 test_filename = "/home/wc/DataSet/traffic/testTFRecord/test.tfrecords"
#  createTFRecord(test_filename,mapfile)
 image_batch, label_batch = createBatch(filename = train_filename,batchsize = 2)
 test_images,test_labels = createBatch(filename = test_filename,batchsize = 20)
 with tf.Session() as sess:
  initop = tf.group(tf.global_variables_initializer(),tf.local_variables_initializer())
  sess.run(initop)
  coord = tf.train.Coordinator()
  threads = tf.train.start_queue_runners(sess = sess, coord = coord)
 
  try:
   step = 0
   while 1:
    _image_batch,_label_batch = sess.run([image_batch,label_batch])
    step += 1
    print step
    print (_label_batch)
  except tf.errors.OutOfRangeError:
   print (" trainData done!")
   
  try:
   step = 0
   while 1:
    _test_images,_test_labels = sess.run([test_images,test_labels])
    step += 1
    print step
 #     print _image_batch.shape
    print (_test_labels)
  except tf.errors.OutOfRangeError:
   print (" TEST done!")
  coord.request_stop()
  coord.join(threads)

此时，生成的batch，就可以feed进网络了。

以上这篇将自己的数据集制作成TFRecord格式教程就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

将自己的数据集制作成TFRecord格式教程

- Author -

v1_vivian

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python书单不将就

Jul 11 Python

python实现上传下载文件功能

Nov 19 Python

Python PyQt5标准对话框用法示例

Aug 23 Python

flask框架使用orm连接数据库的方法示例

Jul 16 Python

Python3内置模块pprint让打印比print更美观详解

Jun 02 Python

如何使用Python 打印各种三角形

Jun 28 Python

django formset实现数据表的批量操作的示例代码

Dec 06 Python

用python介绍4种常用的单链表翻转的方法小结

Feb 24 Python

Python爬虫实例——爬取美团美食数据

Jul 15 Python

python破解同事的压缩包密码

Oct 14 Python

python用opencv 图像傅里叶变换

Jan 04 Python

如何用Python编写一个电子考勤系统

Feb 08 Python

tensorflow 实现数据类型转换

Feb 17 #Python

Django Haystack 全文检索与关键词高亮的实现

Feb 17 #Python

python使用docx模块读写docx文件的方法与docx模块常用方法详解

Feb 17 #Python

python itsdangerous模块的具体使用方法

Feb 17 #Python

django-crontab实现服务端的定时任务的示例代码

Feb 17 #Python

TensorFlow通过文件名/文件夹名获取标签,并加入队列的实现

Feb 17 #Python

Django 项目通过加载不同env文件来区分不同环境

Feb 17 #Python

You might like

一个ubbcode的函数，速度很快.

2006/10/09 PHP

php实现根据url自动生成缩略图的方法

2014/09/23 PHP

Linux下PHP加速器APC的安装与配置笔记

2014/10/24 PHP

php输出金字塔的2种实现方法

2014/12/16 PHP

模仿JQuery.extend函数扩展自己对象的js代码

2009/12/09 Javascript

jQuery判断iframe中元素是否存在的方法

2013/05/11 Javascript

js中opener与parent的区别详细解析

2014/01/14 Javascript

微信小程序教程之列表渲染

2016/10/18 Javascript

JavaScript中的编码和解码函数

2017/02/15 Javascript

Vue.js实战之组件之间的数据传递

2017/04/01 Javascript

js实时监控文本框输入字数的实例代码

2018/01/18 Javascript

js实现点击按钮复制文本功能

2020/07/20 Javascript

vue 内置过滤器的使用总结(附加自定义过滤器)

2018/12/11 Javascript

微信公众号平台接口开发获取微信服务器IP地址方法解析

2019/08/14 Javascript

浅谈element中InfiniteScroll按需引入的一点注意事项

2020/06/05 Javascript

JavaScript语法约定和程序调试原理解析

2020/11/03 Javascript

JS中多层次排序算法的实现代码

2021/01/06 Javascript

[56:18]VGJ.S vs Secret 2018国际邀请赛小组赛BO2 第二场 8.16

2018/08/17 DOTA

Python ORM框架SQLAlchemy学习笔记之数据添加和事务回滚介绍

2014/06/10 Python

玩转python爬虫之爬取糗事百科段子

2016/02/17 Python

对于Python中RawString的理解介绍

2016/07/07 Python

pytorch 利用lstm做mnist手写数字识别分类的实例

2020/01/10 Python

Win10里python3创建虚拟环境的步骤

2020/01/31 Python

关于Python Tkinter Button控件command传参问题的解决方式

2020/03/04 Python

python xlsxwriter模块的使用

2020/12/24 Python

详解Pycharm第三方库的安装及使用方法

2020/12/29 Python

css3弹性盒模型实例介绍

2013/05/27 HTML / CSS

应届生财务会计求职信

2013/11/05 职场文书

药店主任岗位责任制

2014/02/10 职场文书

便利店促销方案

2014/02/20 职场文书

捐助倡议书范文

2014/04/15 职场文书

教师竞聘上岗演讲稿

2014/09/03 职场文书

医德医风自我评价

2014/09/19 职场文书

抗洪救灾标语

2014/10/08 职场文书

Django操作cookie的实现

2021/05/26 Python

如何优化vue打包文件过大

2022/04/13 Vue.js