用python实现k近邻算法的示例代码


Posted in Python onSeptember 06, 2018

K近邻算法(或简称kNN)是易于理解和实现的算法,而且是你解决问题的强大工具。

什么是kNN

kNN算法的模型就是整个训练数据集。当需要对一个未知数据实例进行预测时,kNN算法会在训练数据集中搜寻k个最相似实例。对k个最相似实例的属性进行归纳,将其作为对未知实例的预测。

相似性度量依赖于数据类型。对于实数,可以使用欧式距离来计算。其他类型的数据,如分类数据或二进制数据,可以用汉明距离。

对于回归问题,会返回k个最相似实例属性的平均值。对于分类问题,会返回k个最相似实例属性出现最多的属性。

kNN如何工作

kNN属于基于实例算法簇的竞争学习和懒惰学习算法。

基于实例的算法运用数据实例(或数据行)对问题进行建模,进而做出预测决策。kNN算法算是基于实例方法的一种极端形式,因为其保留所有的训练集数据作为模型的一部分。

kNN是一个竞争学习算法,因为为了做出决策,模型内部元素(数据实例)需要互相竞争。 数据实例之间客观相似度的计算,促使每个数据实例都希望在竞争中“获胜”或者尽可能地与给定的未知数据实例相似,继而在预测中做出贡献。

懒惰学习是指直到需要预测时算法才建立模型。它很懒,因为它只在最后一刻才开始工作。优点是只包含了与未知数据相关的数据,称之为局部模型。缺点是,在大型训练数据集中会重复相同或相似的搜索过程,带来昂贵的计算开销。

最后,kNN的强大之处在于它对数据不进行任何假设,除了任意两个数据实例之间距离的一致计算。因此,它被称为成为无参数或者非线性的,因为它没有预设的函数模型。

用python写程序真的好舒服。

import numpy as np
def read_data(filename):
  '''读取文本数据,格式:特征1  特征2 …… 类别'''
  f=open(filename,'rt')
  row_list=f.readlines() #以每行作为列表
  f.close()
  data_array=[]
  labels_vector=[]
  while True:
    if not row_list:
      break
    row=row_list.pop(0).strip().split('\t') #去除换行号,分割制表符
    temp_data_row=[float(a) for a in row[:-1]] #将字符型转换为浮点型
    data_array.append(temp_data_row) #取特征值
    labels_vector.append(row[-1])  #取最后一个作为类别标签
  return np.array(data_array),np.array(labels_vector)

def classify(test_data,dataset,labels,k):
  '''分类'''
  diff_dis_array=test_data-dataset  #使用numpy的broadcasting
  dis_array=(np.add.reduce(diff_dis_array**2,axis=-1))**0.5  #求距离
  dis_array_index=np.argsort(dis_array)  #升序距离的索引
  class_count={}
  for i in range(k):
    temp_label=labels[dis_array_index[i]]
    class_count[temp_label]=class_count.get(temp_label,0)+1 #获取类别及其次数的字典
  sorted_class_count=sorted(class_count.items(), key=lambda item:item[1],reverse=True)  #字典的值按降序排列
  return sorted_class_count[0][0]  #返回元组列表的[0][0]

def normalize(dataset):
  '''数据归一化'''
  return (dataset-dataset.min(0))/(dataset.max(0)-dataset.min(0))

k=3 #近邻数
test_data=[0,0] #待分类数据
data,labels=read_data('testdata.txt')
print('数据集:\n',data)
print('标签集:\n',labels)
result=classify(test_data,normalize(data),labels,k)
print('分类结果:',result)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
跟老齐学Python之用Python计算
Sep 12 Python
python实现在字符串中查找子字符串的方法
Jul 11 Python
python读写配置文件操作示例
Jul 03 Python
python scrapy爬虫代码及填坑
Aug 12 Python
Python基础之变量基本用法与进阶详解
Jan 03 Python
Python PyInstaller安装和使用教程详解
Jan 08 Python
jupyter notebook读取/导出文件/图片实例
Apr 16 Python
解决在keras中使用model.save()函数保存模型失败的问题
May 21 Python
浅谈tensorflow中dataset.shuffle和dataset.batch dataset.repeat注意点
Jun 08 Python
python中entry用法讲解
Dec 04 Python
selenium自动化测试入门实战
Dec 21 Python
Python3使用Selenium获取session和token方法详解
Feb 16 Python
python K近邻算法的kd树实现
Sep 06 #Python
pyqt5的QComboBox 使用模板的具体方法
Sep 06 #Python
Python多线程编程之多线程加锁操作示例
Sep 06 #Python
python中将\\uxxxx转换为Unicode字符串的方法
Sep 06 #Python
Python json模块dumps、loads操作示例
Sep 06 #Python
Python 字符串换行的多种方式
Sep 06 #Python
Python使用logging模块实现打印log到指定文件的方法
Sep 05 #Python
You might like
php生成随机密码的几种方法
2011/01/17 PHP
JSON 学习之完全手册 图文
2007/05/29 Javascript
append和appendTo的区别以及appendChild用法
2013/12/24 Javascript
js常用自定义公共函数汇总
2014/01/15 Javascript
javascript为下拉列表动态添加数据项
2014/05/23 Javascript
JS中自定义定时器让它在某一时刻执行
2014/09/02 Javascript
Node.js Addons翻译(C/C++扩展)
2016/06/12 Javascript
Javascript使用function创建类的两种方法(推荐)
2016/11/19 Javascript
纯js实现悬浮按钮组件
2016/12/17 Javascript
基于easyui checkbox 的一些操作处理方法
2017/07/10 Javascript
Vue.js学习笔记之常用模板语法详解
2017/07/25 Javascript
基于VUE.JS的移动端框架Mint UI的使用
2017/10/11 Javascript
node作为中间服务层如何发送请求(发送请求的实现方法详解)
2018/01/02 Javascript
vue实现PC端录音功能的实例代码
2019/06/05 Javascript
vue实现文件上传读取及下载功能
2020/11/17 Javascript
[03:31]DOTA2英雄基础教程 大地之灵
2013/12/17 DOTA
[07:49]2014DOTA2国际邀请赛 Newbee夺冠后采访xiao8坦言奖金会上交
2014/07/23 DOTA
Python和GO语言实现的消息摘要算法示例
2015/03/10 Python
itchat接口使用示例
2017/10/23 Python
python 移除字符串尾部的数字方法
2018/07/17 Python
Python 绘制酷炫的三维图步骤详解
2019/07/12 Python
Python实现手机号自动判断男女性别(实例解析)
2019/12/22 Python
Django自定义全局403、404、500错误页面的示例代码
2020/03/08 Python
python Canny边缘检测算法的实现
2020/04/24 Python
python如何设置静态变量
2020/09/07 Python
css3 伪元素和伪类选择器详解
2014/09/04 HTML / CSS
Nike西班牙官方网站:Nike.com (ES)
2017/10/30 全球购物
世界顶级户外运动品牌折扣网站:LeftLane Sports
2019/06/12 全球购物
班干部演讲稿
2014/04/24 职场文书
电台编导求职信
2014/05/06 职场文书
民主评议党员工作总结
2014/10/20 职场文书
tensorflow+k-means聚类简单实现猫狗图像分类的方法
2021/04/28 Python
还在手动盖楼抽奖?教你用Python实现自动评论盖楼抽奖(一)
2021/06/07 Python
简单且有用的Python数据分析和机器学习代码
2021/07/02 Python
微软团队与 NASA 科学家和惠普企业(HPE)的工程师合作
2022/04/21 数码科技
Java Spring Lifecycle的使用
2022/05/06 Java/Android