python生成lmdb格式的文件实例


Posted in Python onNovember 08, 2018

在crnn训练的时候需要用到lmdb格式的数据集,下面是python生成lmdb个是数据集的代码,注意一定要在linux系统下,否则会读入图像的时候出问题,可能遇到的问题都在代码里面注释了,看代码即可。

#-*- coding:utf-8 -*-
 
import os
import lmdb#先pip install这个模块哦
import cv2
import glob
import numpy as np
 
 
def checkImageIsValid(imageBin):
 if imageBin is None:
  return False
 imageBuf = np.fromstring(imageBin, dtype=np.uint8)
 img = cv2.imdecode(imageBuf, cv2.IMREAD_GRAYSCALE)
 if img is None:
  return False
 imgH, imgW = img.shape[0], img.shape[1]
 if imgH * imgW == 0:
  return False
 return True
 
def writeCache(env, cache):
 with env.begin(write=True) as txn:
  for k, v in cache.iteritems():
   txn.put(k, v)
 
def createDataset(outputPath, imagePathList, labelList, lexiconList=None, checkValid=True):
 """
 Create LMDB dataset for CRNN training.
# ARGS:
  outputPath : LMDB output path
  imagePathList : list of image path
  labelList  : list of corresponding groundtruth texts
  lexiconList : (optional) list of lexicon lists
  checkValid : if true, check the validity of every image
 """
 # print (len(imagePathList) , len(labelList))
 assert(len(imagePathList) == len(labelList))
 nSamples = len(imagePathList)
 print '...................'
 env = lmdb.open(outputPath, map_size=8589934592)#1099511627776)所需要的磁盘空间的最小值,之前是1T,我改成了8g,否则会报磁盘空间不足,这个数字是字节
 
 cache = {}
 cnt = 1
 for i in xrange(nSamples):
  imagePath = imagePathList[i]
  label = labelList[i]
  if not os.path.exists(imagePath):
   print('%s does not exist' % imagePath)
   continue
  with open(imagePath, 'r') as f:
   imageBin = f.read()
  if checkValid:
   if not checkImageIsValid(imageBin):
    print('%s is not a valid image' % imagePath)#注意一定要在linux下,否则f.read就不可用了,就会输出这个信息
    continue
 
  imageKey = 'image-%09d' % cnt
  labelKey = 'label-%09d' % cnt
  cache[imageKey] = imageBin
  cache[labelKey] = label
  if lexiconList:
   lexiconKey = 'lexicon-%09d' % cnt
   cache[lexiconKey] = ' '.join(lexiconList[i])
  if cnt % 1000 == 0:
   writeCache(env, cache)
   cache = {}
   print('Written %d / %d' % (cnt, nSamples))
  cnt += 1
 nSamples = cnt - 1
 cache['num-samples'] = str(nSamples)
 writeCache(env, cache)
 print('Created dataset with %d samples' % nSamples)
 
 
def read_text(path):
 
 with open(path) as f:
  text = f.read()
 text = text.strip()
 
 return text
 
 
if __name__ == '__main__':
 # lmdb 输出目录
 outputPath = 'D:/ruanjianxiazai/tuxiangyangben/fengehou/train'#训练集和验证集要跑两遍这个程序,分两次生成
 
 path = "D:/ruanjianxiazai/tuxiangyangben/fengehou/chenguang/*.jpg"#将txt与jpg的都放在同一个文件里面
 imagePathList = glob.glob(path)
 print '------------',len(imagePathList),'------------'
 imgLabelLists = []
 for p in imagePathList:
  try:
   imgLabelLists.append((p, read_text(p.replace('.jpg', '.txt'))))
  except:
   continue
   
 # imgLabelList = [ (p, read_text(p.replace('.jpg', '.txt'))) for p in imagePathList]
 # sort by labelList
 imgLabelList = sorted(imgLabelLists, key = lambda x:len(x[1]))
 imgPaths = [ p[0] for p in imgLabelList]
 txtLists = [ p[1] for p in imgLabelList]
 
 createDataset(outputPath, imgPaths, txtLists, lexiconList=None, checkValid=True)

以上这篇python生成lmdb格式的文件实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python 命令行参数sys.argv
Sep 06 Python
重命名批处理python脚本
Apr 05 Python
Python基础之函数用法实例详解
Sep 10 Python
Python lambda和Python def区别分析
Nov 30 Python
Python实现把utf-8格式的文件转换成gbk格式的文件
Jan 22 Python
python中如何使用正则表达式的集合字符示例
Oct 09 Python
python中的字符串内部换行方法
Jul 19 Python
Python闭包函数定义与用法分析
Jul 20 Python
Python文件读写常见用法总结
Feb 22 Python
Python Web静态服务器非堵塞模式实现方法示例
Nov 21 Python
Django后台管理系统的图文使用教学
Jan 20 Python
Python find()、rfind()方法及作用
Dec 24 Python
python实现嵌套列表平铺的两种方法
Nov 08 #Python
python用列表生成式写嵌套循环的方法
Nov 08 #Python
在Python中实现shuffle给列表洗牌
Nov 08 #Python
python实现RabbitMQ的消息队列的示例代码
Nov 08 #Python
对Python 3.5拼接列表的新语法详解
Nov 08 #Python
Python使用random.shuffle()打乱列表顺序的方法
Nov 08 #Python
python RabbitMQ 使用详细介绍(小结)
Nov 08 #Python
You might like
PHP 增加了对 .ZIP 文件的读取功能
2006/10/09 PHP
url decode problem 解决方法
2011/12/26 PHP
php随机显示指定文件夹下图片的方法
2015/07/13 PHP
PHP实现导出excel数据的类库用法示例
2016/10/15 PHP
PHP实现负载均衡session共享redis缓存操作示例
2018/08/22 PHP
JavaScript日历实现代码
2010/09/12 Javascript
js定时调用方法成功后并停止调用示例
2014/04/08 Javascript
JavaScript中自定义事件用法分析
2014/12/23 Javascript
jquery获取当前日期的方法
2015/01/14 Javascript
js实现数字每三位加逗号的方法
2015/02/05 Javascript
js实现图片轮播效果
2015/12/19 Javascript
jQuery简单判断值是否存在于数组中的方法示例
2018/04/17 jQuery
vue根据值给予不同class的实例
2018/09/29 Javascript
小程序自定义日历效果
2018/12/29 Javascript
JS如何实现手机端输入验证码效果
2020/05/13 Javascript
OpenLayers3实现测量功能
2020/09/25 Javascript
[01:23:59]2018DOTA2亚洲邀请赛 4.1 小组赛 B组 VP vs Secret
2018/04/03 DOTA
[49:35]KG vs SECRET 2019国际邀请赛小组赛 BO2 第一场 8.16
2019/08/19 DOTA
Python中xrange与yield的用法实例分析
2017/12/26 Python
Python的高阶函数用法实例分析
2019/04/11 Python
Python利用sqlacodegen自动生成ORM实体类示例
2019/06/04 Python
详解python 利用echarts画地图(热力图)(世界地图,省市地图,区县地图)
2019/08/06 Python
python实现的config文件读写功能示例
2019/09/24 Python
pytorch 自定义参数不更新方式
2020/01/06 Python
Python数据模型与Python对象模型的相关总结
2021/01/26 Python
仓库门卫岗位职责
2013/12/22 职场文书
商务英语专业求职信范文
2014/01/28 职场文书
不打扫卫生检讨书
2014/02/12 职场文书
给学校的建议书
2014/03/12 职场文书
迎新晚会策划方案
2014/06/13 职场文书
小学生五一劳动节演讲稿
2015/03/18 职场文书
小区物业管理2015年度工作总结
2015/10/22 职场文书
《卖火柴的小女孩》教学反思
2016/02/19 职场文书
导游词幽默开场白
2019/06/26 职场文书
灵能百分百第三季什么时候来?
2022/03/15 日漫
MySQL主从切换的超详细步骤
2022/06/28 MySQL