python实现kNN算法识别手写体数字的示例代码


Posted in Python onAugust 16, 2019

1。总体概要

kNN算法已经在上一篇博客中说明。对于要处理手写体数字,需要处理的点主要包括:

(1)图片的预处理:将png,jpg等格式的图片转换成文本数据,本博客的思想是,利用图片的rgb16进制编码(255,255,255)为白色,(0,0,0)为黑色,获取图片大小后,逐个像素进行判断分析,当此像素为空白时,在文本数据中使用0来替换,反之使用1来替换。

from PIL import Image
'''将图片转换成文档,使用0,1分别替代空白和数字'''
pic = Image.open('/Users/wangxingfan/Desktop/1.png')
path = open('/Users/wangxingfan/Desktop/1.txt','a')
width = pic.size[0]
height = pic.size[1]
for i in range(0,width):
 for j in range(0,height):
  c_RGB = pic.getpixel((i,j))#获取该像素所对应的RGB值
  if c_RGB[0]+c_RGB[1]+c_RGB[2]>0:#白色
   path.write('0')
  elif c_RGB[0]+c_RGB[1]+c_RGB[2]==0:#黑色
   path.write('1')
  else:
   pass
 path.write('\n')
path.close()

(2)训练集的构建。首先想到的是将(1)中图片处理后的文本数据构建成list形式,所以训练集将是二维数组,形如[[1,0,1,1,0,,,,,0,1],[0,1,1,1,10,,,,],[0,0,1,0,,,],,,,,]所以我们构建函数处理训练集数据。

2。代码

简单的总结这个算法,就是将测试数据向量化,逐个和同样向量化的训练数据进行kNN运算,求的最短距离出现最多的分类就是我们要的分类。建立训练集的过程就是将文件数据向量化的过程。

#!/user/bin/env python
#-*- coding:utf-8 -*-
from os import listdir#获取文件目录下所有文件
'''
from PIL import Image
#将图片转换成文档,使用0,1分别替代空白和数字
pic = Image.open('/Users/wangxingfan/Desktop/1.png')
path = open('/Users/wangxingfan/Desktop/1.txt','a')
width = pic.size[0]
height = pic.size[1]
for i in range(0,width):
 for j in range(0,height):
  c_RGB = pic.getpixel((i,j))#获取该像素所对应的RGB值
  if c_RGB[0]+c_RGB[1]+c_RGB[2]>0:#白色
   path.write('0')
  elif c_RGB[0]+c_RGB[1]+c_RGB[2]==0:#黑色
   path.write('1')
  else:
   pass
 path.write('\n')
path.close()
'''
import numpy as np
import operator as opt

def kNN(dataSet, labels, testData, k):
 '''首先明确列表不能想加减,dataSet是数组形式,而对于下面的test函数,testData只是一列,相当于列表,所以在进行加减时,需要将其转换为数组,我们使用np下的tile函数来实现'''
 testDatasize = dataSet.shape[0]#获取dataSet的总行数
 dataSet = dataSet.astype('float64')#不进行转换则报错
 testData1 = np.tile(testData,(testDatasize,1))#使用tile函数返回多个重复构成的数组
 testData1 = testData1.astype('float64')
 distSquareMat = (dataSet - testData1) ** 2 # 计算差值的平方
 distSquareSums = distSquareMat.sum(axis=1) # 求每一行的差值平方和,axis=0则按列计算
 distances = distSquareSums ** 0.5 # 开根号,得出每个样本到测试点的距离
 sortedIndices = distances.argsort() # 排序,得到排序后的下标
 indices = sortedIndices[:k] # 取最小的k个
 labelCount = {} # 存储每个label的出现次数,出现次数最多的就是我们要选择的类别
 for i in indices:
  label = labels[i]
  labelCount[label] = labelCount.get(label, 0) + 1 # 次数加一,使用字典的get方法,第一次出现时默认值是0
 sortedCount = sorted(labelCount.items(), key=opt.itemgetter(1), reverse=True) # 对label出现的次数从大到小进行排序
 return sortedCount[0][0] # 返回出现次数最大的label

#定义函数读取某个文件,返回该文件组成的数组
def file_data(fname):
 arr = []
 path = open(fname)
 for i in range(0,32):
  line = path.readline()
  for j in range(0,32):
   arr.append(line[j])
 return arr

#建立训练数据集
def train_data():
 lables = []
 file_list = listdir('/学习/视频课程/源码/第7周/testandtraindata/traindata/')
 trainarr = np.zeros((len(file_list),1024))
 for i in range(0,len(file_list)):
  file = '/学习/视频课程/源码/第7周/testandtraindata/traindata/'+file_list[i]
  lables.append(file_list[i].split('_')[0])#获取对应的文件类别
  trainarr[i,:] = file_data(file)#取所有列的第一个数据
 return trainarr,lables

#测试函数
def test():
 j = 0
 k = 0
 trainarr,lables = train_data()
 testdata_list = listdir('/学习/视频课程/源码/第7周/testandtraindata/testdata/')
 for i in range(0,len(testdata_list)):#逐个去测试
  testfile = '/学习/视频课程/源码/第7周/testandtraindata/testdata/'+testdata_list[i]
  testdata1 = file_data(testfile)
  result = kNN(trainarr,lables,testdata1,k=3)
  print(result+',real_number:'+testdata_list[i].split('_')[0])
  if result == testdata_list[i].split('_')[0]:
   j +=1
  else:
   k +=1

 print('辨识成功率:'+j/(k+j))

test()

输出结果为:

python实现kNN算法识别手写体数字的示例代码

3。几个知识点代码说明

(1)numpy.tile

p = np.array([0,0,0])
np.tile(p,(3,1))#表示columns方向重复三次,index方向不变
Out[12]: 
array([[0, 0, 0],
  [0, 0, 0],
  [0, 0, 0]])
np.tile(p,(1,3))#表示index方向重复三次,行还是一行
Out[13]: array([[0, 0, 0, 0, 0, 0, 0, 0, 0]])

(2)array[1,:]表示取所有列的第【索引1】个数据(也就是第二行数据)

a = np.array([[1,1,1],[2,2,2],[3,3,3],[4,4,4]])
a[1,:]
Out[21]: array([2, 2, 2])
a[:,1]#所有行的第二列数据
Out[22]: array([1, 2, 3, 4])

(3)list并不能进行加减计算,需要使用numpy将数据转换为数组形式,且在使用例如:arr1+arr2时,需要两个数组的维度相同,在某个纬度上的数据长度也相同。

(4)使用os模块下的listdir,可以显示所有该文件夹下的文件,以列表的形式返回。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python编写百度贴吧的简单爬虫
Apr 02 Python
在Python的Django框架上部署ORM库的教程
Apr 20 Python
Python的Django框架中URLconf相关的一些技巧整理
Jul 18 Python
Django实现简单分页功能的方法详解
Dec 05 Python
python编程使用协程并发的优缺点
Sep 20 Python
PyQt5实现简单数据标注工具
Mar 18 Python
python自动化测试之如何解析excel文件
Jun 27 Python
关于python字符串方法分类详解
Aug 20 Python
selenium中get_cookies()和add_cookie()的用法详解
Jan 06 Python
pytorch加载自定义网络权重的实现
Jan 07 Python
python数据库编程 ODBC方式实现通讯录
Mar 27 Python
如何解决python多种版本冲突问题
Oct 13 Python
python爬虫 爬取超清壁纸代码实例
Aug 16 #Python
Python PO设计模式的具体使用
Aug 16 #Python
python使用sessions模拟登录淘宝的方式
Aug 16 #Python
Django错误:TypeError at / 'bool' object is not callable解决
Aug 16 #Python
Python facenet进行人脸识别测试过程解析
Aug 16 #Python
Python Web框架之Django框架Model基础详解
Aug 16 #Python
pycharm配置git(图文教程)
Aug 16 #Python
You might like
介绍几个array库的新函数 php
2006/12/29 PHP
PHP函数常用用法小结
2010/02/08 PHP
php调用MySQL存储过程的方法集合(推荐)
2013/07/03 PHP
php+ajax实现文章自动保存的方法
2014/12/30 PHP
PHP获取数组最大值下标的方法
2015/05/12 PHP
WordPress主题中添加文章列表页页码导航的PHP代码实例
2015/12/22 PHP
php使用ftp实现文件上传与下载功能
2017/07/21 PHP
PHP7扩展开发之基于函数方式使用lib库的方法详解
2018/01/15 PHP
Laravel Eloquent ORM 多条件查询的例子
2019/10/10 PHP
Laravel服务容器绑定的几种方法总结
2020/06/14 PHP
广告切换效果(缓动切换)
2009/05/27 Javascript
QQ登录背景闪动效果附效果演示源码下载
2015/09/22 Javascript
JavaScript禁止用户多次提交的两种方法
2016/07/24 Javascript
easyui messager alert 三秒后自动关闭提示的实例
2016/11/07 Javascript
详解Vue路由开启keep-alive时的注意点
2017/06/20 Javascript
node.js中axios使用心得总结
2017/11/29 Javascript
vue.js 使用axios实现下载功能的示例
2018/03/05 Javascript
vuejs前后端数据交互之从后端请求数据的实例
2018/08/11 Javascript
Vue动态生成表格的行和列
2019/07/18 Javascript
在vant中使用时间选择器和popup弹出层的操作
2020/11/04 Javascript
[49:08]OpTic vs Serenity 2018国际邀请赛小组赛BO2 第一场 8.18
2018/08/19 DOTA
Python实现的RSS阅读器实例
2015/07/25 Python
使用Python操作MySQL的一些基本方法
2015/08/16 Python
Python脚本简单实现打开默认浏览器登录人人和打开QQ的方法
2016/04/12 Python
python实现图书管理系统
2018/03/12 Python
Python get获取页面cookie代码实例
2018/09/12 Python
python实现美团订单推送到测试环境,提供便利操作示例
2019/08/09 Python
django中间键重定向实例方法
2019/11/10 Python
Python解析多帧dicom数据详解
2020/01/13 Python
css3媒体查询中device-width和width的区别详解
2020/03/27 HTML / CSS
在线服装零售商:SheIn
2016/07/22 全球购物
瑞典快乐袜子:Happy Socks
2018/02/16 全球购物
Pureology官网:为染色头发打造最好的产品
2019/09/13 全球购物
教师师德演讲稿
2014/05/06 职场文书
拖欠货款起诉状
2015/05/20 职场文书
2016年公共机构节能宣传周活动总结
2016/04/05 职场文书