编程 Python

python实现kMeans算法

Posted in Python onDecember 21, 2017

聚类是一种无监督的学习，将相似的对象放到同一簇中，有点像是全自动分类，簇内的对象越相似，簇间的对象差别越大，则聚类效果越好。

1、k均值聚类算法

k均值聚类将数据分为k个簇，每个簇通过其质心，即簇中所有点的中心来描述。首先随机确定k个初始点作为质心，然后将数据集分配到距离最近的簇中。然后将每个簇的质心更新为所有数据集的平均值。然后再进行第二次划分数据集，直到聚类结果不再变化为止。

伪代码为

随机创建k个簇质心
当任意一个点的簇分配发生改变时：
    对数据集中的每个数据点：
        对每个质心：
            计算数据集到质心的距离
        将数据集分配到最近距离质心对应的簇
    对每一个簇，计算簇中所有点的均值并将均值作为质心

python实现

import numpy as np
import matplotlib.pyplot as plt

def loadDataSet(fileName): 
 dataMat = [] 
 with open(fileName) as f:
  for line in f.readlines():
   line = line.strip().split('\t')
   dataMat.append(line)
 dataMat = np.array(dataMat).astype(np.float32)
 return dataMat


def distEclud(vecA,vecB):
 return np.sqrt(np.sum(np.power((vecA-vecB),2)))
def randCent(dataSet,k):
 m = np.shape(dataSet)[1]
 center = np.mat(np.ones((k,m)))
 for i in range(m):
  centmin = min(dataSet[:,i])
  centmax = max(dataSet[:,i])
  center[:,i] = centmin + (centmax - centmin) * np.random.rand(k,1)
 return center
def kMeans(dataSet,k,distMeans = distEclud,createCent = randCent):
 m = np.shape(dataSet)[0]
 clusterAssment = np.mat(np.zeros((m,2)))
 centroids = createCent(dataSet,k)
 clusterChanged = True
 while clusterChanged:
  clusterChanged = False
  for i in range(m):
   minDist = np.inf
   minIndex = -1
   for j in range(k):
    distJI = distMeans(dataSet[i,:],centroids[j,:])
    if distJI < minDist:
     minDist = distJI
     minIndex = j
   if clusterAssment[i,0] != minIndex:
    clusterChanged = True
   clusterAssment[i,:] = minIndex,minDist**2
  for cent in range(k):
   ptsInClust = dataSet[np.nonzero(clusterAssment[:,0].A == cent)[0]]
   centroids[cent,:] = np.mean(ptsInClust,axis = 0)
 return centroids,clusterAssment



data = loadDataSet('testSet.txt')
muCentroids, clusterAssing = kMeans(data,4)
fig = plt.figure(0)
ax = fig.add_subplot(111)
ax.scatter(data[:,0],data[:,1],c = clusterAssing[:,0].A)
plt.show()

print(clusterAssing)

2、二分k均值算法

K均值算法可能会收敛到局部最小值，而非全局最小。一种用于度量聚类效果的指标为误差平方和（SSE）。因为取了平方，更加重视原理中心的点。为了克服k均值算法可能会收敛到局部最小值的问题，有人提出来二分k均值算法。
首先将所有点作为一个簇，然后将该簇一分为二，然后选择所有簇中对其划分能够最大程度减低SSE的值的簇，直到满足指定簇数为止。

伪代码

将所有点看成一个簇
计算SSE
while 当簇数目小于k时：
    for 每一个簇：
        计算总误差
        在给定的簇上进行k均值聚类(k=2)
        计算将该簇一分为二的总误差
    选择使得误差最小的那个簇进行划分操作

python实现

import numpy as np
import matplotlib.pyplot as plt

def loadDataSet(fileName): 
 dataMat = [] 
 with open(fileName) as f:
  for line in f.readlines():
   line = line.strip().split('\t')
   dataMat.append(line)
 dataMat = np.array(dataMat).astype(np.float32)
 return dataMat


def distEclud(vecA,vecB):
 return np.sqrt(np.sum(np.power((vecA-vecB),2)))
def randCent(dataSet,k):
 m = np.shape(dataSet)[1]
 center = np.mat(np.ones((k,m)))
 for i in range(m):
  centmin = min(dataSet[:,i])
  centmax = max(dataSet[:,i])
  center[:,i] = centmin + (centmax - centmin) * np.random.rand(k,1)
 return center
def kMeans(dataSet,k,distMeans = distEclud,createCent = randCent):
 m = np.shape(dataSet)[0]
 clusterAssment = np.mat(np.zeros((m,2)))
 centroids = createCent(dataSet,k)
 clusterChanged = True
 while clusterChanged:
  clusterChanged = False
  for i in range(m):
   minDist = np.inf
   minIndex = -1
   for j in range(k):
    distJI = distMeans(dataSet[i,:],centroids[j,:])
    if distJI < minDist:
     minDist = distJI
     minIndex = j
   if clusterAssment[i,0] != minIndex:
    clusterChanged = True
   clusterAssment[i,:] = minIndex,minDist**2
  for cent in range(k):
   ptsInClust = dataSet[np.nonzero(clusterAssment[:,0].A == cent)[0]]
   centroids[cent,:] = np.mean(ptsInClust,axis = 0)
 return centroids,clusterAssment

def biKmeans(dataSet,k,distMeans = distEclud):
 m = np.shape(dataSet)[0]
 clusterAssment = np.mat(np.zeros((m,2)))
 centroid0 = np.mean(dataSet,axis=0).tolist()
 centList = [centroid0]
 for j in range(m):
  clusterAssment[j,1] = distMeans(dataSet[j,:],np.mat(centroid0))**2
 while (len(centList)<k):
  lowestSSE = np.inf
  for i in range(len(centList)):
   ptsInCurrCluster = dataSet[np.nonzero(clusterAssment[:,0].A == i)[0],:]
   centroidMat,splitClustAss = kMeans(ptsInCurrCluster,2,distMeans)
   sseSplit = np.sum(splitClustAss[:,1])
   sseNotSplit = np.sum(clusterAssment[np.nonzero(clusterAssment[:,0].A != i)[0],1])
   if (sseSplit + sseNotSplit) < lowestSSE:
    bestCentToSplit = i
    bestNewCents = centroidMat.copy()
    bestClustAss = splitClustAss.copy()
    lowestSSE = sseSplit + sseNotSplit
  print('the best cent to split is ',bestCentToSplit)
#  print('the len of the bestClust')
  bestClustAss[np.nonzero(bestClustAss[:,0].A == 1)[0],0] = len(centList)
  bestClustAss[np.nonzero(bestClustAss[:,0].A == 0)[0],0] = bestCentToSplit

  clusterAssment[np.nonzero(clusterAssment[:,0].A == bestCentToSplit)[0],:] = bestClustAss.copy()
  centList[bestCentToSplit] = bestNewCents[0,:].tolist()[0]
  centList.append(bestNewCents[1,:].tolist()[0])
 return np.mat(centList),clusterAssment

data = loadDataSet('testSet2.txt')
muCentroids, clusterAssing = biKmeans(data,3)
fig = plt.figure(0)
ax = fig.add_subplot(111)
ax.scatter(data[:,0],data[:,1],c = clusterAssing[:,0].A,cmap=plt.cm.Paired)
ax.scatter(muCentroids[:,0],muCentroids[:,1])
plt.show()

print(clusterAssing)
print(muCentroids)

代码及数据集下载：K-means

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python实现kMeans算法

- Author -

开贰锤

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python 多线程抓取图片效率对比

Feb 27 Python

python 3利用Dlib 19.7实现摄像头人脸检测特征点标定

Feb 26 Python

python实现Windows电脑定时关机

Jun 20 Python

对python操作kafka写入json数据的简单demo分享

Dec 27 Python

numpy求平均值的维度设定的例子

Aug 24 Python

python爬虫正则表达式解析

Sep 28 Python

使用opencv将视频帧转成图片输出

Dec 10 Python

python实现音乐播放器 python实现花框音乐盒子

Feb 25 Python

TensorFlow实现模型断点训练,checkpoint模型载入方式

May 26 Python

详解python安装matplotlib库三种失败情况

Jul 28 Python

基于Python-Pycharm实现的猴子摘桃小游戏(源代码)

Feb 20 Python

python 爬取豆瓣网页的示例

Apr 13 Python

利用Tkinter(python3.6)实现一个简单计算器

Dec 21 #Python

python编写朴素贝叶斯用于文本分类

Dec 21 #Python

python并发2之使用asyncio处理并发

Dec 21 #Python

利用Python暴力破解zip文件口令的方法详解

Dec 21 #Python

Python人脸识别初探

Dec 21 #Python

python中判断文件编码的chardet(实例讲解)

Dec 21 #Python

python 设置文件编码格式的实现方法

Dec 21 #Python

You might like

php 服务器调试 Zend Debugger 的安装教程

2009/09/25 PHP

php中OR与|| AND与&&的区别总结

2013/10/26 PHP

通过修改配置真正解决php文件上传大小限制问题(nginx+php)

2015/09/23 PHP

php无限级分类实现方法分析

2016/10/19 PHP

mongodb和php的用法详解

2019/03/25 PHP

defer属性导致引用JQuery的页面报“浏览器无法打开网站xxx，操作被中止”错误的解决方法

2010/04/27 Javascript

使用jQuery Ajax 请求webservice来实现更简练的Ajax

2016/08/04 Javascript

Jquery Easyui分割按钮组件SplitButton使用详解（17）

2016/12/18 Javascript

Bootstrap免费字体和图标网站(值得收藏)

2017/03/16 Javascript

webpack下实现动态引入文件方法

2018/02/22 Javascript

对于Python的框架中一些会话程序的管理

2015/04/20 Python

python中偏函数partial用法实例分析

2015/07/08 Python

Python采集代理ip并判断是否可用和定时更新的方法

2018/05/07 Python

Tensorflow使用tfrecord输入数据格式

2018/06/19 Python

对Pandas DataFrame缺失值的查找与填充示例讲解

2018/11/06 Python

python文字和unicode/ascll相互转换函数及简单加密解密实现代码

2019/08/12 Python

Python多线程及其基本使用方法实例分析

2019/10/29 Python

python实现电子词典

2020/03/03 Python

Python 跨.py文件调用自定义函数说明

2020/06/01 Python

Python实现一个论文下载器的过程

2021/01/18 Python

英国HYPE双肩包官网：英国本土时尚潮牌

2018/09/26 全球购物

Theo + George官方网站：都柏林时尚品牌

2019/04/08 全球购物

法国高保真音响和家庭影院商店：Son Video

2019/04/26 全球购物

外语系毕业生求职自荐信

2014/04/12 职场文书

生物工程专业求职信

2014/09/03 职场文书

单位员工收入证明样本

2014/10/09 职场文书

幼儿园见习报告

2014/10/30 职场文书

工厂见习报告范文

2014/10/31 职场文书

大雁塔英文导游词

2015/02/10 职场文书

简单的辞职信怎么写

2015/02/28 职场文书

小平您好观后感

2015/06/09 职场文书

学校运动会感想

2015/08/10 职场文书

干货：如何写好观后感！

2019/05/21 职场文书

如何用JavaScript学习算法复杂度

2021/04/30 Javascript

sql注入教程之类型以及提交注入

2021/08/02 MySQL

Python Django / Flask如何使用Elasticsearch

2022/04/19 Python