python机器学习案例教程——K最近邻算法的实现


Posted in Python onDecember 28, 2017

K最近邻属于一种分类算法,他的解释最容易,近朱者赤,近墨者黑,我们想看一个人是什么样的,看他的朋友是什么样的就可以了。当然其他还牵着到,看哪方面和朋友比较接近(对象特征),怎样才算是跟朋友亲近,一起吃饭还是一起逛街算是亲近(距离函数),根据朋友的优秀不优秀如何评判目标任务优秀不优秀(分类算法),是否不同优秀程度的朋友和不同的接近程度要考虑一下(距离权重),看几个朋友合适(k值),能否以分数的形式表示优秀度(概率分布)。

K最近邻概念:

它的工作原理是:存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新的数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。

今天我们使用k最近邻算法来构建白酒的价格模型。

构造数据集

构建一个葡萄酒样本数据集。白酒的价格跟等级、年代有很大的关系。

from random import random,randint
import math

# 根据等级和年代对价格进行模拟
def wineprice(rating,age):
 peak_age=rating-50

 # 根据等级计算价格
 price=rating/2
 if age>peak_age:
  # 经过“峰值年”,后续5年里其品质将会变差
  price=price*(5-(age-peak_age)/2)
 else:
  # 价格在接近“峰值年”时会增加到原值的5倍
  price=price*(5*((age+1)/peak_age))
 if price<0: price=0
 return price

# 生成一批模式数据代表样本数据集
def wineset1():
 rows=[]
 for i in range(300):
  # 随机生成年代和等级
  rating=random()*50+50
  age=random()*50

  # 得到一个参考价格
  price=wineprice(rating,age)

  # 添加一些噪音
  price*=(random()*0.2+0.9)

  # 加入数据集
  rows.append({'input':(rating,age),'result':price})
 return rows

数据间的距离

使用k最近邻,首先要知道那些最近邻,也就要求知道数据间的距离。我们使用欧几里得距离作为数据间的距离。

# 使用欧几里得距离,定义距离
def euclidean(v1,v2):
 d=0.0
 for i in range(len(v1)):
  d+=(v1[i]-v2[i])**2
 return math.sqrt(d)

获取与新数据距离最近的k个样本数据

# 计算给预测商品和原数据集中任一其他商品间的距离。data原数据集,vec1预测商品
def getdistances(data,vec1):
 distancelist=[]

 # 遍历数据集中的每一项
 for i in range(len(data)):
  vec2=data[i]['input']

  # 添加距离到距离列表
  distancelist.append((euclidean(vec1,vec2),i))

 # 距离排序
 distancelist.sort()
 return distancelist #返回距离列表

根据距离最近的k个样本数据预测新数据的属性

1、简单求均值

# 对距离值最小的前k个结果求平均
def knnestimate(data,vec1,k=5):
 # 得到经过排序的距离值
 dlist=getdistances(data,vec1)
 avg=0.0

 # 对前k项结果求平均
 for i in range(k):
  idx=dlist[i][1]
  avg+=data[idx]['result']
 avg=avg/k
 return avg

2、求加权平均

如果使用直接求均值,有可能存在前k个最近邻中,可能会存在距离很远的数据,但是他仍然属于最近的前K个数据。当存在这种情况时,对前k个样本数据直接求均值会有偏差,所以使用加权平均,为较远的节点赋予较小的权值,对较近的节点赋予较大的权值。

那么具体该怎么根据数据间距离分配权值呢?这里使用三种递减函数作为权值分配方法。

2.1、使用反函数为近邻分配权重。

def inverseweight(dist,num=1.0,const=0.1):
 return num/(dist+const)

2.2、使用减法函数为近邻分配权重。当最近距离都大于const时不可用。

def subtractweight(dist,const=1.0):
 if dist>const:
  return 0
 else:
  return const-dist

2.3、使用高斯函数为距离分配权重。

def gaussian(dist,sigma=5.0):
 return math.e**(-dist**2/(2*sigma**2))

有了权值分配方法,下面就可以计算加权平均了。

# 对距离值最小的前k个结果求加权平均
def weightedknn(data,vec1,k=5,weightf=gaussian):
 # 得到距离值
 dlist=getdistances(data,vec1)
 avg=0.0
 totalweight=0.0

 # 得到加权平均
 for i in range(k):
  dist=dlist[i][0]
  idx=dlist[i][1]
  weight=weightf(dist)
  avg+=weight*data[idx]['result']
  totalweight+=weight
 if totalweight==0: return 0
 avg=avg/totalweight
 return avg

第一次测试

上面完成了使用k最近邻进行新数据预测的功能,下面我们进行测试。

if __name__=='__main__': #只有在执行当前模块时才会运行此函数
 data = wineset1()  #创建第一批数据集
 result=knnestimate(data,(95.0,3.0)) #根据最近邻直接求平均进行预测
 print(result)

 result=weightedknn(data,(95.0,3.0),weightf=inverseweight) #使用反函数做权值分配方法,进行加权平均
 print(result)
 result = weightedknn(data, (95.0, 3.0), weightf=subtractweight) # 使用减法函数做权值分配方法,进行加权平均
 print(result)
 result = weightedknn(data, (95.0, 3.0), weightf=gaussian) # 使用高斯函数做权值分配方法,进行加权平均
 print(result)

交叉验证

交叉验证是用来验证你的算法或算法参数的好坏,比如上面的加权分配算法我们有三种方式,究竟哪个更好呢?我们可以使用交叉验证进行查看。

随机选择样本数据集中95%作为训练集,5%作为新数据,对新数据进行预测并与已知结果进行比较,查看算法效果。

要实现交叉验证,要实现将样本数据集划分为训练集和新数据两个子集的功能。

# 划分数据。test测试数据集占的比例。其他数据集为训练数据
def dividedata(data,test=0.05):
 trainset=[]
 testset=[]
 for row in data:
  if random()<test:
   testset.append(row)
  else:
   trainset.append(row)
 return trainset,testset

还要能应用算法,计算预测结果与真实结果之间的误差度。

# 使用数据集对使用算法进行预测的结果的误差进行统计,一次判断算法好坏。algf为算法函数,trainset为训练数据集,testset为预测数据集
def testalgorithm(algf,trainset,testset):
 error=0.0
 for row in testset:
  guess=algf(trainset,row['input']) #这一步要和样本数据的格式保持一致,列表内个元素为一个字典,每个字典包含input和result两个属性。而且函数参数是列表和元组
  error+=(row['result']-guess)**2
  #print row['result'],guess
 #print error/len(testset)
 return error/len(testset)

有了数据拆分和算法性能误差统计函数。我们就可以在原始数据集上进行多次这样的实验,统计平均误差。

# 将数据拆分和误差统计合并在一起。对数据集进行多次划分,并验证算法好坏
def crossvalidate(algf,data,trials=100,test=0.1):
 error=0.0
 for i in range(trials):
  trainset,testset=dividedata(data,test)
  error+=testalgorithm(algf,trainset,testset)
 return error/trials

交叉验证测试

if __name__=='__main__': #只有在执行当前模块时才会运行此函数
 data = wineset1()  #创建第一批数据集
 print(data)
  error = crossvalidate(knnestimate,data) #对直接求均值算法进行评估
 print('平均误差:'+str(error))

 def knn3(d,v): return knnestimate(d,v,k=3) #定义一个函数指针。参数为d列表,v元组
 error = crossvalidate(knn3, data)   #对直接求均值算法进行评估
 print('平均误差:' + str(error))

 def knninverse(d,v): return weightedknn(d,v,weightf=inverseweight) #定义一个函数指针。参数为d列表,v元组
 error = crossvalidate(knninverse, data)   #对使用反函数做权值分配方法进行评估
 print('平均误差:' + str(error))

不同类型、值域的变量、无用变量

在样本数据的各个属性中可能并不是取值范围相同的同类型的数据,比如上面的酒的属性可能包含档次(0-100),酒的年限(0-50),酒的容量(三种容量375.0ml、750.0ml、1500.0ml),甚至在我们获取的样本数据中还有可能包含无用的数据,比如酒生产的流水线号(1-20之间的整数)。在计算样本距离时,取值范围大的属性的变化会严重影响取值范围小的属性的变化,以至于结果会忽略取值范围小的属性。而且无用属性的变化也会增加数据之间的距离。

所以就要对样本数据的属性进行缩放到合适的范围,并要能删除无效属性。

构造新的数据集

# 构建新数据集,模拟不同类型变量的问题
def wineset2():
 rows=[]
 for i in range(300):
  rating=random()*50+50 #酒的档次
  age=random()*50   #酒的年限
  aisle=float(randint(1,20)) #酒的通道号(无关属性)
  bottlesize=[375.0,750.0,1500.0][randint(0,2)] #酒的容量
  price=wineprice(rating,age) #酒的价格
  price*=(bottlesize/750)
  price*=(random()*0.2+0.9)
  rows.append({'input':(rating,age,aisle,bottlesize),'result':price})
 return rows

实现按比例对属性的取值进行缩放的功能

# 按比例对属性进行缩放,scale为各属性的值的缩放比例。
def rescale(data,scale):
 scaleddata=[]
 for row in data:
  scaled=[scale[i]*row['input'][i] for i in range(len(scale))]
  scaleddata.append({'input':scaled,'result':row['result']})
 return scaleddata

那就剩下最后最后一个问题,究竟各个属性缩放多少呢。这是一个优化问题,我们可以通过优化技术寻找最优化解。而需要优化的成本函数,就是通过缩放以后进行预测的结果与真实结果之间的误差值。误差值越小越好。误差值的计算同前面交叉验证时使用的相同crossvalidate函数

下面构建成本函数

# 生成成本函数。闭包
def createcostfunction(algf,data):
 def costf(scale):
  sdata=rescale(data,scale)
  return crossvalidate(algf,sdata,trials=10)
 return costf

weightdomain=[(0,10)]*4  #将缩放比例这个题解的取值范围设置为0-10,可以自己设定,用于优化算法

优化技术的可以参看https://3water.com/article/131719.htm

测试代码

if __name__=='__main__': #只有在执行当前模块时才会运行此函数
 #========缩放比例优化===
 data = wineset2() # 创建第2批数据集
 print(data)
 import optimization
 costf=createcostfunction(knnestimate,data)  #创建成本函数
 result = optimization.annealingoptimize(weightdomain,costf,step=2) #使用退火算法寻找最优解
 print(result)

不对称分布

对于样本数据集包含多种分布情况时,输出结果我们也希望不唯一。我们可以使用概率结果进行表示,输出每种结果的值和出现的概率。

比如葡萄酒有可能是从折扣店购买的,而样本数据集中没有记录这一特性。所以样本数据中价格存在两种形式的分布。

构造数据集

def wineset3():
 rows=wineset1()
 for row in rows:
  if random()<0.5:
   # 葡萄酒是从折扣店购买的
   row['result']*=0.6
 return rows

如果以结果概率的形式存在,我们要能够计算指定范围的概率值

# 计算概率。data样本数据集,vec1预测数据,low,high结果范围,weightf为根据距离进行权值分配的函数
def probguess(data,vec1,low,high,k=5,weightf=gaussian):
 dlist=getdistances(data,vec1) #获取距离列表
 nweight=0.0
 tweight=0.0

 for i in range(k):
  dist=dlist[i][0] #距离
  idx=dlist[i][1] #索引号
  weight=weightf(dist) #权值
  v=data[idx]['result'] #真实结果

  # 当前数据点位于指定范围内么?
  if v>=low and v<=high:
   nweight+=weight #指定范围的权值之和
  tweight+=weight  #总的权值之和
 if tweight==0: return 0

 # 概率等于位于指定范围内的权重值除以所有权重值
 return nweight/tweight

对于多种输出、以概率和值的形式表示的结果,我们可以使用累积概率分布图或概率密度图的形式表现。

绘制累积概率分布图

from pylab import *

# 绘制累积概率分布图。data样本数据集,vec1预测数据,high取值最高点,k近邻范围,weightf权值分配
def cumulativegraph(data,vec1,high,k=5,weightf=gaussian):
 t1=arange(0.0,high,0.1)
 cprob=array([probguess(data,vec1,0,v,k,weightf) for v in t1]) #预测产生的不同结果的概率
 plot(t1,cprob)
 show()

绘制概率密度图

# 绘制概率密度图
def probabilitygraph(data,vec1,high,k=5,weightf=gaussian,ss=5.0):
 # 建立一个代表价格的值域范围
 t1=arange(0.0,high,0.1)

 # 得到整个值域范围内的所有概率
 probs=[probguess(data,vec1,v,v+0.1,k,weightf) for v in t1]

 # 通过加上近邻概率的高斯计算结果,对概率值做平滑处理
 smoothed=[]
 for i in range(len(probs)):
  sv=0.0
  for j in range(0,len(probs)):
   dist=abs(i-j)*0.1
   weight=gaussian(dist,sigma=ss)
   sv+=weight*probs[j]
  smoothed.append(sv)
 smoothed=array(smoothed)

 plot(t1,smoothed)
 show()

测试代码

if __name__=='__main__': #只有在执行当前模块时才会运行此函数

 data = wineset3() # 创建第3批数据集
 print(data)
 cumulativegraph(data,(1,1),120) #绘制累积概率密度
 probabilitygraph(data,(1,1),6) #绘制概率密度图

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python Property属性的2种用法
Jun 21 Python
Python编程之event对象的用法实例分析
Mar 23 Python
python3 模拟登录v2ex实例讲解
Jul 13 Python
Python设计实现的计算器功能完整实例
Aug 18 Python
CentOS7.3编译安装Python3.6.2的方法
Jan 22 Python
python之DataFrame实现excel合并单元格
Feb 22 Python
python文本数据处理学习笔记详解
Jun 17 Python
Django中在xadmin中集成DjangoUeditor过程详解
Jul 24 Python
python使用paramiko模块通过ssh2协议对交换机进行配置的方法
Jul 25 Python
Python3.7 pyodbc完美配置访问access数据库
Oct 03 Python
python将logging模块封装成单独模块并实现动态切换Level方式
May 12 Python
Pytorch 使用 nii数据做输入数据的操作
May 26 Python
Python实现螺旋矩阵的填充算法示例
Dec 28 #Python
wxPython的安装图文教程(Windows)
Dec 28 #Python
Python制作豆瓣图片的爬虫
Dec 28 #Python
浅谈Python使用Bottle来提供一个简单的web服务
Dec 27 #Python
python编程实现12306的一个小爬虫实例
Dec 27 #Python
python导出chrome书签到markdown文件的实例代码
Dec 27 #Python
Python类的继承和多态代码详解
Dec 27 #Python
You might like
德生S2000南麂列岛台湾FM收听记录
2021/03/02 无线电
PHP常用代码
2006/11/23 PHP
php错误提示failed to open stream: HTTP request failed!的完美解决方法
2011/06/06 PHP
PHP基础学习之流程控制的实现分析
2013/04/28 PHP
php判断电脑访问、手机访问的例子
2014/05/10 PHP
thinkphp,onethink和thinkox中验证码不显示的解决方法分析
2016/06/06 PHP
php socket通信简单实现
2016/11/18 PHP
在JavaScript中使用inline函数的问题
2007/03/08 Javascript
JavaScript 编写匿名函数的几种方法
2010/02/21 Javascript
jQuery的css() 方法使用指南
2015/05/03 Javascript
jQuery插件bgStretcher.js实现全屏背景特效
2015/06/05 Javascript
在JavaScript的正则表达式中使用exec()方法
2015/06/16 Javascript
JavaScript对Json的增删改属性详解
2016/06/02 Javascript
bootstrap模态框垂直居中效果
2016/12/03 Javascript
基于Vue实现timepicker
2017/04/25 Javascript
angularJS模态框$modal实例代码
2017/05/27 Javascript
angularjs2 ng2 密码隐藏显示的实例代码
2017/08/01 Javascript
详解KOA2如何手写中间件(装饰器模式)
2018/10/11 Javascript
socket io与vue-cli的结合使用的示例代码
2018/11/01 Javascript
vue router 组件的高级应用实例代码
2019/04/08 Javascript
JS代码触发事件代码实例
2020/01/02 Javascript
Vue 样式切换及三元判断样式关联操作
2020/08/09 Javascript
[45:34]完美世界DOTA2联赛PWL S3 Rebirth vs CPG 第一场 12.18
2020/12/19 DOTA
简单的抓取淘宝图片的Python爬虫
2014/12/25 Python
利用Python脚本生成sitemap.xml的实现方法
2017/01/31 Python
python爬取本站电子书信息并入库的实现代码
2020/01/20 Python
django-xadmin根据当前登录用户动态设置表单字段默认值方式
2020/03/13 Python
解决html5中的video标签ios系统中无法播放使用的问题
2020/08/10 HTML / CSS
Stuart Weitzman美国官网:美国奢华鞋履品牌
2016/08/18 全球购物
意大利高端时尚买手店:Stefania Mode
2018/03/01 全球购物
荷兰时尚精品店:Labels Fashion
2020/03/22 全球购物
Loreto Gallo英国:欧洲领先的在线药房
2021/01/21 全球购物
联想C++笔试题
2012/06/13 面试题
物理教育专业毕业生推荐信
2013/11/03 职场文书
工商管理专业应届生求职信
2013/11/04 职场文书
2015年国培研修感言
2015/08/01 职场文书