python实现k-means聚类算法


Posted in Python onFebruary 23, 2018

k-means聚类算法

k-means是发现给定数据集的k个簇的算法,也就是将数据集聚合为k类的算法。

算法过程如下:
1)从N个文档随机选取K个文档作为质心
2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类,我们一般取欧几里得距离
3)重新计算已经得到的各个类的质心
4)迭代步骤(2)、(3)直至新的质心与原质心相等或迭代次数大于指定阈值,算法结束

算法实现

随机初始化k个质心,用dict保存质心的值以及被聚类到该簇中的所有data。

def initCent(dataSet , k):
 N = shape(dataSet)[1]
 cents = {}
 randIndex=[]
 #随机生成k个不重复的索引
 for i in range(k): 
 rand = random.randint(0,N)
 while rand in randIndex:
  rand = random.randint(0, N)
 randIndex.append(rand)
 #按索引取dataSet中的data作为质心
 for i in range(k):
 templist = []
 templist.append(dataSet[randIndex[i]])
 templist.append([dataSet[randIndex[i]]])
 cents[i] = templist
 return cents

对dataSet中的所有数据进行一次聚类。返回值cents为dict类型的数据,int类型的key,list类型的value。其中cents[i][0]为质心位置,cents[i][1]为存储该簇中所有data的列表。

#计算两个向量的欧氏距离
def calDist(X1 , X2):
 sum = 0
 for x1 , x2 in zip(X1 , X2):
 sum += (x1 - x2) ** 2
 return sum ** 0.5

#聚类
def doKmeans(dataSet , k , cents):
 #清空上一次迭代后的簇中元素,只记录质心
 for i in range(k):
 cents[i][1] = []
 for data in dataSet:
 no = 0#初始化簇标号
 minDist = sys.maxint#初始化data与k个质心的最短距离
 for i in range(k):
  dist = calDist(data , cents[i][0])
  if dist < minDist:
  minDist = dist
  no = i
 #找到距离最近的质心
 cents[no][1].append(data)
 #更新质心
 for i in range(k):
 for j in range(shape(dataSet)[0]):
  cents[i][0] = mean(cents[i][1],axis=0).tolist()
 return cents

k-means主方法

#判断两次聚类的结果是否相同
def isEqual(old , new):
 for i in range(len(old)):
 if(old[i] != new[i][0]):
  return 0
 return 1

#主方法
def kmeans_main(dataSet,k):
 cents = initCent(dataSet, k)
 for x in range(1000):
 oldcents = []
 #拷贝上一次迭代的结果
 for i in cents.keys():
  oldcents.append(cents[i][0])
 newcents = doKmeans(dataSet, k , cents)
 #若相邻两次迭代结果相同,算法结束
 if isEqual(oldcents , newcents)>0:
  break
 cents = newcents
 return cents

结果测试

数据集(虚构)

2 3 2.54
2 1 0.72
3 5 3.66
4 3 1.71
3.11 5.29 4.13
4.15 2 3.1
3.12 3.33 3.72
1.49 5 2.6
3 5 2.88
3.9 1.78 2.56
-2 3 5
3 1 0.4
-2 1 2.2
-3 0 1.7
-4 1 2
8 -1 0
2 3.2 7.1
1 3 5
2 4 3
0.1 2 5.4
2 0 5.54
2 1 1.72
3 5 2.66
1 8 1.71
5.11 1.29 4.13
7.15 2 7.1
1.12 5.33 4.72
6.49 4 3.6
4 8 6.88
1.9 5.78 6.56
-2 -3 2.5
1 -1 2.4
-2 1 3.2
-1 0 5.7
-2 3 2
1 -1 4
3 4.2 6.1
5 2 5
3 5.7 13
0.9 2.9 1.4

画图方法

def draw(cents):
 color = [ 'y', 'g', 'b']
 X = []
 Y = []
 Z = []
 fig = plt.figure()
 ax = Axes3D(fig)
 for i in cents.keys():
 X.append(cents[i][0][0])
 Y.append(cents[i][0][1])
 Z.append(cents[i][0][2])
 ax.scatter(X, Y, Z,alpha=0.4,marker='o',color='r', label=str(i))
 for i in cents.keys():
 X = []
 Y = []
 Z = []
 data = cents[i][1]
 for vec in data:
  X.append(vec[0])
  Y.append(vec[1])
  Z.append(vec[2])
 ax.scatter(X, Y, Z, alpha=0.4,marker='o', color=color[i], label=str(i),)
 plt.show()

测试及结果展示(红点表示质心)

dataSet = loadDataSet("dataSet.txt")
cents = kmeans_main(dataSet , 3)
draw(cents)

python实现k-means聚类算法

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python contextlib模块使用示例
Feb 18 Python
python通过exifread模块获得图片exif信息的方法
Mar 16 Python
使用python实现接口的方法
Jul 07 Python
Python实现的基数排序算法原理与用法实例分析
Nov 23 Python
python基于socket进行端口转发实现后门隐藏的示例
Jul 25 Python
pytorch: Parameter 的数据结构实例
Dec 31 Python
Python vtk读取并显示dicom文件示例
Jan 13 Python
python 安装库几种方法之cmd,anaconda,pycharm详解
Apr 08 Python
python实时监控logstash日志代码
Apr 27 Python
使用keras实现孪生网络中的权值共享教程
Jun 11 Python
Django中如何用xlwt生成表格的方法步骤
Jan 31 Python
OpenCV全景图像拼接的实现示例
Jun 05 Python
python写一个md5解密器示例
Feb 23 #Python
Python机器学习之K-Means聚类实现详解
Feb 22 #Python
python实现远程通过网络邮件控制计算机重启或关机
Feb 22 #Python
python实现微信发送邮件关闭电脑功能
Feb 22 #Python
python使用itchat实现手机控制电脑
Feb 22 #Python
Python实现利用163邮箱远程关电脑脚本
Feb 22 #Python
Python3.4实现远程控制电脑开关机
Feb 22 #Python
You might like
第十三节 对象串行化 [13]
2006/10/09 PHP
PHP ajax 分页类代码
2008/11/13 PHP
PHP 手机归属地查询 api
2010/02/08 PHP
PHP中的traits简单使用实例
2015/05/13 PHP
php实现scws中文分词搜索的方法
2015/12/25 PHP
Jquery ui css framework
2010/06/28 Javascript
关于JavaScript中原型继承中的一点思考
2012/07/25 Javascript
jQuery弹层插件jquery.fancybox.js用法实例
2016/01/22 Javascript
如何解决IONIC页面底部被遮住无法向上滚动问题
2016/09/06 Javascript
微信小程序 Storage API实例详解
2016/10/02 Javascript
JavaScript简单拖拽效果(1)
2017/05/17 Javascript
layui实现动态和静态分页
2018/04/28 Javascript
element-ui组件table实现自定义筛选功能的示例代码
2019/03/15 Javascript
Vue列表循环从指定下标开始的多种解决方案
2020/04/08 Javascript
[01:24]2014DOTA2 TI第二日 YYF表示这届谁赢都有可能
2014/07/11 DOTA
Python的ORM框架SQLObject入门实例
2014/04/28 Python
python 中字典嵌套列表的方法
2018/07/03 Python
用Python画小女孩放风筝的示例
2019/11/23 Python
sklearn+python:线性回归案例
2020/02/24 Python
python文件及目录操作代码汇总
2020/07/08 Python
Python+Opencv身份证号码区域提取及识别实现
2020/08/25 Python
欧舒丹美国官网:L’Occitane美国
2018/02/23 全球购物
蒙蒂塞罗商店:Monticello Shop
2018/11/25 全球购物
The North Face北面法国官网:美国著名户外品牌
2019/11/01 全球购物
android面试问题与答案
2016/12/27 面试题
学生自我评语大全
2014/04/18 职场文书
学期评语大全
2014/04/30 职场文书
妇女干部培训方案
2014/05/12 职场文书
高中综合实践活动总结
2014/07/07 职场文书
招标授权委托书样本
2014/09/23 职场文书
委托公证书格式
2015/01/26 职场文书
2015年上半年物业工作总结
2015/03/30 职场文书
结婚喜宴迎宾词
2015/08/10 职场文书
2016年领导干部廉政承诺书
2016/03/24 职场文书
Java 多线程协作作业之信号同步
2022/05/11 Java/Android
python可视化分析绘制带趋势线的散点图和边缘直方图
2022/06/25 Python