编程 Python

用Python实现KNN分类算法

Posted in Python onDecember 22, 2017

本文实例为大家分享了Python KNN分类算法的具体代码，供大家参考，具体内容如下

KNN分类算法应该算得上是机器学习中最简单的分类算法了，所谓KNN即为K-NearestNeighbor（K个最邻近样本节点）。在进行分类之前KNN分类器会读取较多数量带有分类标签的样本数据作为分类的参照数据，当它对类别未知的样本进行分类时，会计算当前样本与所有参照样本的差异大小；该差异大小是通过数据点在样本特征的多维度空间中的距离来进行衡量的，也就是说，如果两个样本点在在其特征数据多维度空间中的距离越近，则这两个样本点之间的差异就越小，这两个样本点属于同一类别的可能性就越大。KNN分类算法利用这一基本的认知，通过计算待预测样本点与参照样本空间中所有的样本的距离，并找到K个距离该样本点最近的参照样本点，统计出这最邻近的K个样本点中占比数量最多的类别，并将该类别作为预测结果。

用Python实现KNN分类算法

KNN的模型十分简单，没有涉及到模型的训练，每一次预测都需要计算该点与所有已知点的距离，因此随着参照样本集的数量增加，KNN分类器的计算开销也会呈比例增加，并且KNN并不适合数量很少的样本集。并且KNN提出之后，后续很多人提出了很多改进的算法，分别从提高算法速率和提高算法准确率两个方向，但是都是基于“距离越近，相似的可能性越大”的原则。这里利用Python实现了KNN最原始版本的算法，数据集使用的是机器学习课程中使用得非常多的莺尾花数据集，同时我在原数据集的基础上向数据集中添加了少量的噪声数据，测试KNN算法的鲁棒性。

数据集用得是莺尾花数据集，下载地址。

用Python实现KNN分类算法

数据集包含90个数据（训练集），分为2类，每类45个数据，每个数据4个属性

Sepal.Length（花萼长度），单位是cm;
Sepal.Width（花萼宽度），单位是cm;
Petal.Length（花瓣长度），单位是cm;
Petal.Width（花瓣宽度），单位是cm;

分类种类： Iris Setosa（山鸢尾）、Iris Versicolour（杂色鸢尾）
之前主打C++，近来才学的Python，今天想拿实现KNN来练练手，下面上代码：

#coding=utf-8
import math
#定义鸢尾花的数据类
class Iris:
 data=[]
 label=[]
 pass
#定义一个读取莺尾花数据集的函数
def load_dataset(filename="Iris_train.txt"):
 f=open(filename)
 line=f.readline().strip()
 propty=line.split(',')#属性名
 dataset=[]#保存每一个样本的数据信息
 label=[]#保存样本的标签
 while line:
 line=f.readline().strip()
 if(not line):
 break
 temp=line.split(',')
 content=[]
 for i in temp[0:-1]:
 content.append(float(i))
 dataset.append(content)
 label.append(temp[-1])
 total=Iris()
 total.data=dataset
 total.label=label
 return total#返回数据集
 
#定义一个Knn分类器类
class KnnClassifier:
 def __init__(self,k,type="Euler"):#初始化的时候定义正整数K和距离计算方式
 self.k=k
 self.type=type
 self.dataloaded=False
 def load_traindata(self,traindata):#加载数据集
 self.data=traindata.data
 self.label=traindata.label
 self.label_set=set(traindata.label)
 self.dataloaded=True#是否加载数据集的标记
 
 def Euler_dist(self,x,y):# 欧拉距离计算方法，x、y都是向量
 sum=0
 for i,j in zip(x,y):
 sum+=math.sqrt((i-j)**2)
 return sum
 def Manhattan_dist(self,x,y):#曼哈顿距离计算方法，x、y都是向量
 sum=0
 for i,j in zip(x,y):
 sum+=abs(i-j)
 return sum
 def predict(self,temp):#预测函数，读入一个预测样本的数据，temp是一个向量
 if(not self.dataloaded):#判断是否有训练数据
 print "No train_data load in"
 return
 distance_and_label=[]
 if(self.type=="Euler"):#判断距离计算方式，欧拉距离或者曼哈顿距离
 for i,j in zip(self.data,self.label):
 dist=self.Euler_dist(temp,i)
 distance_and_label.append([dist,j])
 else:
 if(self.type=="Manhattan"):
 for i,j in zip(self.data,self.label):
 dist=self.Manhattan_dist(temp,i)
 distance_and_label.append([dist,j])
 else:
 print "type choice error"
 #获取K个最邻近的样本的距离和类别标签
 neighborhood=sorted(distance_and_label,cmp=lambda x,y : cmp(x[0],y[0]))[0:self.k]
 neighborhood_class=[]
 for i in neighborhood:
 neighborhood_class.append(i[1])
 class_set=set(neighborhood_class)
 neighborhood_class_count=[]
 print "In k nearest neighborhoods:"
 #统计该K个最邻近点中各个类别的个数
 for i in class_set:
 a=neighborhood_class.count(i)
 neighborhood_class_count.append([i,a])
 print "class: ",i," count: ",a
 result=sorted(neighborhood_class_count,cmp=lambda x,y : cmp(x[1],y[1]))[-1][0]
 print "result: ",result
 return result#返回预测的类别
 
if __name__ == '__main__':
 traindata=load_dataset()#training data
 testdata=load_dataset("Iris_test.txt")#testing data
 #新建一个Knn分类器的K为20，默认为欧拉距离计算方式
 kc=KnnClassifier(20)
 kc.load_traindata(traindata)
 predict_result=[]
 #预测测试集testdata中所有待预测样本的结果
 for i,j in zip(testdata.data,testdata.label):
 predict_result.append([i,kc.predict(i),j])
 correct_count=0
 #将预测结果和正确结果进行比对，计算该次预测的准确率
 for i in predict_result:
 if(i[1]==i[2]):
 correct_count+=1
 ratio=float(correct_count)/len(predict_result)
 print "correct predicting ratio",ratio

测试集中11个待测样本点的分类结果：

In k nearest neighborhoods:
class: Iris-setosa count: 20
result: Iris-setosa
In k nearest neighborhoods:
class: Iris-setosa count: 20
result: Iris-setosa
In k nearest neighborhoods:
class: Iris-setosa count: 20
result: Iris-setosa
In k nearest neighborhoods:
class: Iris-setosa count: 20
result: Iris-setosa
In k nearest neighborhoods:
class: Iris-setosa count: 20
result: Iris-setosa
In k nearest neighborhoods:
class: Iris-versicolor count: 20
result: Iris-versicolor
In k nearest neighborhoods:
class: Iris-versicolor count: 20
result: Iris-versicolor
In k nearest neighborhoods:
class: Iris-versicolor count: 20
result: Iris-versicolor
In k nearest neighborhoods:
class: Iris-versicolor count: 20
result: Iris-versicolor
In k nearest neighborhoods:
class: Iris-versicolor count: 20
result: Iris-versicolor
In k nearest neighborhoods:
class: Iris-setosa count: 18
class: Iris-versicolor count: 2
result: Iris-setosa
correct predicting ratio 0.909090909091

KNN中对距离的计算有很多种方法，不同的方法适用于不同的数据集，该代码中只实现了欧拉距离和曼哈顿距离两种计算方式；测试集中的数据是从原数据集中抽离出来的，数据量不是很大，结果并不能很好地体现KNN的性能，所以程序运行结果仅供参考。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

用Python实现KNN分类算法

- Author -

玉米味土豆片

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

初步认识Python中的列表与位运算符

Oct 12 Python

python urllib urlopen()对象方法/代理的补充说明

Jun 29 Python

Python学生信息管理系统修改版

Mar 13 Python

Python3中_(下划线)和__(双下划线)的用途和区别

Apr 26 Python

python控制台实现tab补全和清屏的例子

Aug 20 Python

基于python3 的百度图片下载器的实现代码

Nov 05 Python

python-docx文件定位读取过程(尝试替换)

Feb 13 Python

Python OpenCV读取显示视频的方法示例

Feb 20 Python

对python中各个response的使用说明

Mar 28 Python

python:HDF和CSV存储优劣对比分析

Jun 08 Python

python两种获取剪贴板内容的方法

Nov 06 Python

虚拟环境及venv和virtualenv的区别说明

Feb 05 Python

Python数据拟合与广义线性回归算法学习

Dec 22 #Python

python 动态加载的实现方法

Dec 22 #Python

Python决策树分类算法学习

Dec 22 #Python

Python之Scrapy爬虫框架安装及简单使用详解

Dec 22 #Python

Python2.7下安装Scrapy框架步骤教程

Dec 22 #Python

Python机器学习之决策树算法

Dec 22 #Python

python+selenium实现登录账户后自动点击的示例

Dec 22 #Python

You might like

PHP文章采集URL补全函数(FormatUrl)

2012/08/02 PHP

PHP实现的多维数组排序算法分析

2018/02/10 PHP

JS控件autocomplete 0.11演示及下载 1月5日已更新

2007/01/09 Javascript

你需要知道的JavsScript可以做什么？

2007/06/29 Javascript

javascript下有关dom以及xml节点访问兼容问题

2007/11/26 Javascript

项目实践之javascript技巧

2007/12/06 Javascript

artDialog 4.1.5 Dreamweaver代码提示/补全插件附下载

2012/07/31 Javascript

JS输入用户名自动显示邮箱后缀列表的方法

2015/01/27 Javascript

node.js集成百度UE编辑器

2015/02/05 Javascript

javascript实现下雪效果【实例代码】

2016/05/03 Javascript

使用bootstrap3开发响应式网站

2016/05/12 Javascript

jQuery Easyui DataGrid点击某个单元格即进入编辑状态焦点移开后保存数据

2016/08/15 Javascript

javascript 判断是否是微信浏览器的方法

2016/10/09 Javascript

基于vue的下拉刷新指令和滚动刷新指令

2016/12/23 Javascript

基于javascript实现数字英文验证码

2017/01/25 Javascript

微信小程序获取二维码实例详解

2017/06/23 Javascript

vue-quill-editor实现图片上传功能

2017/08/08 Javascript

Vue项目全局配置微信分享思路详解

2018/05/04 Javascript

Vue.js添加组件操作示例

2018/06/13 Javascript

浅谈javascript事件环微任务和宏任务队列原理

2020/09/12 Javascript

vue使用video插件vue-video-player详解

2020/10/23 Javascript

python中使用OpenCV进行人脸检测的例子

2014/04/18 Python

Python基于tkinter模块实现的改名小工具示例

2017/07/27 Python

python生成lmdb格式的文件实例

2018/11/08 Python

python批量读取文件名并写入txt文件中

2020/09/05 Python

Django框架安装方法图文详解

2019/11/04 Python

python中列表的含义及用法

2020/05/26 Python

html5中svg canvas和图片之间相互转化思路代码

2014/01/24 HTML / CSS

StudentUniverse英国：学生航班、酒店和旅游

2019/08/25 全球购物

农村婚礼证婚词

2014/01/08 职场文书

公司年会抽奖活动主持词

2014/03/31 职场文书

实现中国梦思想汇报2014

2014/09/13 职场文书

2015年电气技术员工作总结

2015/07/24 职场文书

php实例化对象的实例方法

2021/11/17 PHP

详解Oracle数据库中自带的所有表结构(sql代码)

2021/11/20 Oracle

船舶调度指挥系统——助力智慧海事

2022/02/18 无线电