Python机器学习k-近邻算法(K Nearest Neighbor)实例详解


Posted in Python onJune 25, 2018

本文实例讲述了Python机器学习k-近邻算法。分享给大家供大家参考,具体如下:

工作原理

存在一份训练样本集,并且每个样本都有属于自己的标签,即我们知道每个样本集中所属于的类别。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后提取样本集中与之最相近的k个样本。观察并统计这k个样本的标签,选择数量最大的标签作为这个新数据的标签。

用以下这幅图可以很好的解释kNN算法:

Python机器学习k-近邻算法(K Nearest Neighbor)实例详解

不同形状的点,为不同标签的点。其中绿色点为未知标签的数据点。现在要对绿色点进行预测。由图不难得出:

  • 如果k=3,那么离绿色点最近的有2个红色三角形和1个蓝色的正方形,这3个点投票,于是绿色的这个待分类点属于红色的三角形。
  • 如果k=5,那么离绿色点最近的有2个红色三角形和3个蓝色的正方形,这5个点投票,于是绿色的这个待分类点属于蓝色的正方形。

kNN算法实施

伪代码

对未知属性的数据集中的每个点执行以下操作

1. 计算已知类型类别数据集中的点与当前点之间的距离
2. 按照距离递增次序排序
3. 选取与当前点距离最小的k个点
4. 确定前k个点所在类别的出现频率
5. 返回前k个点出现频率最高的类别作为当前点的预测分类

欧式距离(计算两点之间的距离公式)

计算点x与点y之间欧式距离

Python机器学习k-近邻算法(K Nearest Neighbor)实例详解

python代码实现

# -*- coding:utf-8 -*-
#! python2
import numpy as np
import operator
# 训练集
data_set = np.array([[1., 1.1],
           [1.0, 1.0],
           [0., 0.],
           [0, 0.1]])
labels = ['A', 'A', 'B', 'B']
def classify_knn(in_vector, training_data, training_label, k):
  """
  :param in_vector: 待分类向量
  :param training_data: 训练集向量
  :param training_label: 训练集标签
  :param k: 选择最近邻居的数目
  :return: 分类器对 in_vector 分类的类别
  """
  data_size = training_data.shape[0] # .shape[0] 返回二维数组的行数
  diff_mat = np.tile(in_vector, (data_size, 1)) - data_set # np.tile(array, (3, 2)) 对 array 进行 3×2 扩展为二维数组
  sq_diff_mat = diff_mat ** 2
  sq_distances = sq_diff_mat.sum(axis=1) # .sum(axis=1) 矩阵以列求和
  # distances = sq_distances ** 0.5 # 主要是通过比较求最近点,所以没有必要求平方根
  distances_sorted_index = sq_distances.argsort() # .argsort() 对array进行排序 返回排序后对应的索引
  class_count_dict = {} # 用于统计类别的个数
  for i in range(k):
    label = training_label[distances_sorted_index[i]]
    try:
      class_count_dict[label] += 1
    except KeyError:
      class_count_dict[label] = 1
  class_count_dict = sorted(class_count_dict.iteritems(), key=operator.itemgetter(1), reverse=True) # 根据字典的value值对字典进行逆序排序
  return class_count_dict[0][0]
if __name__ == '__main__':
  vector = [0, 0] # 待分类数据集
  print classify_knn(in_vector=vector, training_data=data_set, training_label=labels, k=3)

运行结果:B

算法评价

  • 优点:精度高、对异常值不敏感、无数据输入假定
  • 缺点:计算复杂度高、空间复杂度高
  • 使用数据范围:数据型和标称型
  • 适用:kNN方法通常用于一个更复杂分类算法的一部分。例如,我们可以用它的估计值做为一个对象的特征。有时候,一个简单的kNN算法在良好选择的特征上会有很出色的表现。

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python学习手册中的python多态示例代码
Jan 21 Python
Python的Django框架中if标签的相关使用
Jul 15 Python
Python中条件判断语句的简单使用方法
Aug 21 Python
Python实现类的创建与使用方法示例
Jul 25 Python
python实现微信发送邮件关闭电脑功能
Feb 22 Python
python中字典按键或键值排序的实现代码
Aug 27 Python
对python中的*args与**kwgs的含义与作用详解
Aug 28 Python
Python 3 使用Pillow生成漂亮的分形树图片
Dec 24 Python
TensorFlow设置日志级别的几种方式小结
Feb 04 Python
Python虚拟环境venv用法详解
May 25 Python
如何基于Python爬虫爬取美团酒店信息
Nov 03 Python
python 操作excel表格的方法
Dec 05 Python
python解决字符串倒序输出的问题
Jun 25 #Python
Python决策树之基于信息增益的特征选择示例
Jun 25 #Python
python实现逆序输出一个数字的示例讲解
Jun 25 #Python
详解Python 数据库的Connection、Cursor两大对象
Jun 25 #Python
python逆序打印各位数字的方法
Jun 25 #Python
python爬虫的数据库连接问题【推荐】
Jun 25 #Python
python让列表倒序输出的实例
Jun 25 #Python
You might like
用Flash图形化数据(二)
2006/10/09 PHP
php 什么是PEAR?
2009/03/19 PHP
php smarty模板引擎的6个小技巧
2014/04/24 PHP
php获取随机数组列表的方法
2014/11/13 PHP
PHP安全下载文件的方法
2016/04/07 PHP
thinkphp查询,3.X 5.0方法(亲试可行)
2017/06/17 PHP
Mac系统下搭建Nginx+php-fpm实例讲解
2020/12/15 PHP
javascript 表单的友好用户体现
2009/01/07 Javascript
js获取图片长和宽度的代码
2009/11/24 Javascript
JSQL 批量图片切换的实现代码
2010/05/05 Javascript
用JS判断IE版本的代码 超管用!
2011/08/09 Javascript
javascript使用定时函数实现跳转到某个页面
2013/12/25 Javascript
EasyUI中datagrid在ie下reload失败解决方案
2015/03/09 Javascript
jQuery实现的图片轮播效果完整示例
2016/09/12 Javascript
bootstrap datepicker 与bootstrapValidator同时使用时选择日期后无法正常触发校验的解决思路
2016/09/28 Javascript
JS实现图片上传预览功能
2016/11/21 Javascript
使用Bootstrap Tabs选项卡Ajax加载数据实现
2016/12/23 Javascript
Vue.js 2.0 移动端拍照压缩图片预览及上传实例
2017/04/27 Javascript
vue二级路由设置方法
2018/02/09 Javascript
微信小程序网络请求封装示例
2018/07/24 Javascript
JavaScrip数组去重操作实例小结
2019/06/20 Javascript
使用layer模态框给新页面传值的方法
2019/09/27 Javascript
python django使用haystack:全文检索的框架(实例讲解)
2017/09/27 Python
python读取与写入csv格式文件的示例代码
2017/12/16 Python
python如何把嵌套列表转变成普通列表
2018/03/20 Python
OPENCV去除小连通区域,去除孔洞的实例讲解
2018/06/21 Python
WxPython实现无边框界面
2019/11/18 Python
pandas实现将日期转换成timestamp
2019/12/07 Python
Vilebrequin欧洲官网:法国豪华泳装品牌(男士沙滩裤)
2018/04/14 全球购物
集体婚礼证婚词
2014/01/13 职场文书
中医临床专业自我鉴定范文
2014/01/15 职场文书
网络管理员岗位职责
2015/02/12 职场文书
2015年教师业务工作总结
2015/05/26 职场文书
2015年小学远程教育工作总结
2015/07/28 职场文书
青年文明号创建口号大全
2015/12/25 职场文书
导游词之绍兴柯岩古镇
2020/01/09 职场文书