对Python生成汉字字库文字,以及转换为文字图片的实例详解


Posted in Python onJanuary 29, 2019

笔者小白在收集印刷体汉字的深度学习训练集的时候,一开始就遇到的了一个十分棘手的问题,就是如何获取神经网络的训练集数据。通过上网搜素,笔者没有找到可用的现成的可下载的汉字的训练集,于是笔者采用了代码自建汉字的训练集数据。

这里采用的是python编写程序,需要import 的python库请提前安装。

那么,首先如何用python输出汉字字库的文字?

笔者查到在计算机中汉字编码范围是0x4E00到0x9FA5,利用unichr()可以将十六进制的编码转成人类可读的字。

这里扩展一下在python库中什么是unichr(),以及什么是chr()和ord()。

chr( )函数用一个范围在range(256)内的(就是0~255)整数作参数,返回一个对应的字符。

unichr( )跟它一样,只不过返回的是Unicode字符,这个从Python 2.0才加入的unichr( )的参数范围依赖于你的Python是如何被编译的。

如果是配置为USC2的Unicode,那么它的允许范围就是range(65536)或0x0000-0xFFFF;如果配置为UCS4,那么这个值应该是range(1114112)或0x000000-0x110000。

如果提供的参数不在允许的范围内,则会报一个ValueError的异常。

ord( )函数是chr( )函数(对于8位的ASCII字符串)或unichr( )函数(对于Unicode对象)的配对函数,它以一个字符(长度为1的字符串)作为参数,返回对应的ASCII数值,或者Unicode数值,如果所给的Unicode字符超出了你的Python定义范围,则会引发一个TypeError的异常。

接下来就是把unicode编码的字写入文件呢,如果直接用open()的话,会提示UnicodeEncodeError: ‘ascii' codec can't encode character u'\u4e00' in position 0: ordinal not in range(128)

这里就是涉及到python读写文件时候的两种方式了,一种是open(),还一种是codecs.open( )。

对于open()这个python的内置函数来说, 打开文件的方式一般为:

f=open(file_name,access_mode = 'r',buffering = -1)。

file_name就是文件的路径加文件名字,不加路径则文件会存放在python程序的路径下,

access_mode就是操作文件的模式,主要有r,w,rb,wb等,细节网上一大堆,buffering = -1是用于指示访问文件所采用的缓存方式。0表示不缓存;1表示只缓存一行,n代表缓存n行。如果不提供或为负数,则代表使用系统默认的缓存机制。

>>> fr = open('test1.txt','wb')
>>> line1 = "我是谁"
>>> fr.write(line1)

打开以后就是写和读的操作。但是用open方法打开会有一些问题。open打开文件只能写入str类型,不管字符串是什么编码方式。所以对于写入文件的数据的编码不统一的时候,需要用到codecs.open()。

这种方法可以指定一个编码打开文件,使用这个方法打开的文件读取返回的将是unicode。

写入时,如果参数 是unicode,则使用open()时指定的编码进行编码后写入;如果是str,则先根据源代码文件声明的字符编码,解码成unicode后再进行前述 操作。

相对内置的open()来说,这个方法比较不容易在编码上出现问题。

>>> import codecs
>>> line2 = u'我是谁'
>>> fw = codecs.open('test1.txt','wb','utf-8')
>>> fw.write(line2)

这里是将汉字字库的文字写出到文本文件中,代码如下:

import codecs
start,end = (0x4E00, 0x9FA5) #汉字编码的范围
with codecs.open("chinese.txt", "wb", encoding="utf-8") as f:
 for codepoint in range(int(start),int(end)):
 f.write(unichr(codepoint)) #写出汉字

在同目录文件下,生成汉字字库的chinese.txt文件:

对Python生成汉字字库文字,以及转换为文字图片的实例详解

接下来就是把汉字字库的字一个个保存成图片,这里需要pip install pygame的库。

pygame可以将文字渲染到图片上保存。

代码如下:

#encoding: utf-8
import os
import pygame

chinese_dir = 'chinese'
if not os.path.exists(chinese_dir):
 os.mkdir(chinese_dir)

pygame.init()
start,end = (0x4E00, 0x9FA5) # 汉字编码范围
for codepoint in range(int(start), int(end)):
 word = unichr(codepoint)
 font = pygame.font.Font("msyh.ttc", 64)
 # 当前目录下要有微软雅黑的字体文件msyh.ttc,或者去c:\Windows\Fonts目录下找
 # 64是生成汉字的字体大小
 rtext = font.render(word, True, (0, 0, 0), (255, 255, 255))
 pygame.image.save(rtext, os.path.join(chinese_dir, word + ".png"))

这里是在chinese文件夹里面生成的文字图片,字体是黑体,然后再在个基础上可以继续自制汉字识别的训练集了。

对Python生成汉字字库文字,以及转换为文字图片的实例详解

以上这篇对Python生成汉字字库文字,以及转换为文字图片的实例详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中几个比较常见的名词解释
Jul 04 Python
Python入门之三角函数全解【收藏】
Nov 08 Python
Python使用requests发送POST请求实例代码
Jan 25 Python
Python-ElasticSearch搜索查询的讲解
Feb 25 Python
Django框架基础模板标签与filter使用方法详解
Jul 23 Python
django admin 自定义替换change页面模板的方法
Aug 23 Python
python中字典按键或键值排序的实现代码
Aug 27 Python
python函数声明和调用定义及原理详解
Dec 02 Python
python opencv图片编码为h264文件的实例
Dec 12 Python
Python爬取新型冠状病毒“谣言”新闻进行数据分析
Feb 16 Python
Python 统计位数为偶数的数字代码详解
Mar 15 Python
Django REST Swagger实现指定api参数
Jul 07 Python
Python实现点阵字体读取与转换的方法
Jan 29 #Python
使用python读取.text文件特定行的数据方法
Jan 28 #Python
python 实现一次性在文件中写入多行的方法
Jan 28 #Python
用Python逐行分析文件方法
Jan 28 #Python
Python使用Shelve保存对象方法总结
Jan 28 #Python
Python理解递归的方法总结
Jan 28 #Python
代码详解django中数据库设置
Jan 28 #Python
You might like
印尼林东PWN黄金曼特宁咖啡豆:怎么冲世界上最醇厚的咖啡冲煮教程
2021/03/03 冲泡冲煮
PHP实现深度优先搜索算法(DFS,Depth First Search)详解
2017/09/16 PHP
php框架知识点的整理和补充
2021/03/01 PHP
JavaScript 三种不同位置代码的写法
2009/10/25 Javascript
javascript动态添加样式(行内式/嵌入式/外链式等规则)
2013/06/24 Javascript
jquery获取tr并更改tr内容示例代码
2014/02/13 Javascript
瀑布流布局代码一例
2014/04/11 Javascript
JQuery中使用ajax传输超大数据的解决方法
2014/07/14 Javascript
使用iojs的jsdom库实现同步系统时间
2015/04/20 Javascript
javascript中html字符串转化为jquery dom对象的方法
2015/08/27 Javascript
简单谈谈Javascript中类型的判断
2015/10/19 Javascript
nodejs搭建本地http服务器教程
2017/03/13 NodeJs
基于JS实现网页中的选项卡(两种方法)
2017/06/16 Javascript
jQuery 控制文本框自动缩小字体填充
2017/06/16 jQuery
iscroll实现下拉刷新功能
2017/07/18 Javascript
详解Vue路由History mode模式中页面无法渲染的原因及解决
2017/09/28 Javascript
微信小程序 MinUI组件库系列之badge徽章组件示例
2018/08/20 Javascript
浅谈react性能优化的方法
2018/09/05 Javascript
JS+CSS实现过渡特效
2021/01/02 Javascript
Python实现的下载8000首儿歌的代码分享
2014/11/21 Python
python数据清洗系列之字符串处理详解
2017/02/12 Python
老生常谈Python进阶之装饰器
2017/05/11 Python
基于Django filter中用contains和icontains的区别(详解)
2017/12/12 Python
详解python里的命名规范
2018/07/16 Python
Python错误的处理方法
2020/06/23 Python
python实现三种随机请求头方式
2021/01/05 Python
SmartBuyGlasses英国:购买太阳镜和眼镜
2018/01/29 全球购物
英国电子产品购物网站:TobyDeals
2018/07/30 全球购物
Square Off美国/加拿大:世界上最聪明的国际象棋棋盘
2018/12/06 全球购物
KOHLER科勒美国官网:国际著名卫浴橱柜领先品牌
2020/06/27 全球购物
UNOde50美国官网:西班牙珠宝品牌
2020/08/15 全球购物
医学院毕业生自荐信范文
2014/03/06 职场文书
个人工作保证书
2015/02/28 职场文书
董事会决议范本
2015/07/01 职场文书
浅谈redis五大数据结构和使用场景
2021/04/12 Redis
Win11 KB5015814遇安装失败 影响开始菜单性能解决方法
2022/07/15 数码科技