编程 Python

Python机器学习之K-Means聚类实现详解

Posted in Python onFebruary 22, 2018

本文为大家分享了Python机器学习之K-Means聚类的实现代码，供大家参考，具体内容如下

1.K-Means聚类原理

K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。其基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。
算法大致流程为：（1）随机选取k个点作为种子点(这k个点不一定属于数据集)；（2）分别计算每个数据点到k个种子点的距离，离哪个种子点最近，就属于哪类；（3）重新计算k个种子点的坐标(简单常用的方法是求坐标值的平均值作为新的坐标值；（4）重复2、3步，直到种子点坐标不变或者循环次数完成。

2.数据及其寻找初步的聚类中心

数据为Matlab加载格式（mat），包含X变量，数据来源为（大家可以去这下载），X为300*2维变量，由于是2维，所以基本上就是在平面坐标轴上的一些点中进行聚类。

我们首先构建初步寻找聚类中心（centroids，质心）函数，再随机设置初始质心，通过欧氏距离初步判断X的每一个变量属于哪个质心。代码为：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb
from scipy.io import loadmat

def find_closest_centroids(X, centroids):
  m = X.shape[0]
  k = centroids.shape[0] #要聚类的类别个数
  idx = np.zeros(m) 
  
  for i in range(m):
    min_dist = 1000000 #迭代终止条件
    for j in range(k):
      dist = np.sum((X[i,:] - centroids[j,:]) ** 2) 
      if dist < min_dist:
        # 记录当前最短距离和其中心的索引值
        min_dist = dist
        idx[i] = j
  
  return idx
data = loadmat('D:\python\Python ml\ex7data2.mat')
X = data['X']
initial_centroids = np.array([[3, 3], [6, 2], [8, 5]])

idx = find_closest_centroids(X, initial_centroids)
idx[0:3]

在这里先生成m（这里为300）个0向量，即idx，也就是假设X的每个变量均属于0类，然后再根据与初始质心的距离计算dist = np.sum((X[i,:] - centroids[j,:]) ** 2)，初步判断每个变量归属哪个类，最终替代idx中的0.

3.不断迭代寻找质心的位置并实现kmeans算法

上述idx得到的300维向量是判断X中每个变量的归属类别，在此基础上，再对初始质心集群位置不断调整，寻找最优质心。

def compute_centroids(X, idx, k):
  m, n = X.shape
  centroids = np.zeros((k, n))
  
  for i in range(k):
    indices = np.where(idx == i)
    centroids[i,:] = (np.sum(X[indices,:], axis=1) / len(indices[0])).ravel()
  #这里简单的将该类中心的所有数值求平均值作为新的类中心
return centroids
compute_centroids(X, idx, 3)

根据上述函数，来构建kmeans函数实现K-means聚类算法。然后根据得到的每个变量归属类别与质心坐标，进行可视化。

def run_k_means(X, initial_centroids, max_iters):
  m, n = X.shape
  k = initial_centroids.shape[0]
  idx = np.zeros(m)
  centroids = initial_centroids
  
  for i in range(max_iters):
    idx = find_closest_centroids(X, centroids)
    centroids = compute_centroids(X, idx, k)
  
  return idx, centroids
idx, centroids = run_k_means(X, initial_centroids, 10)
cluster1 = X[np.where(idx == 0)[0],:] #获取X中属于第一个类别的数据集合，即类别1的点
cluster2 = X[np.where(idx == 1)[0],:]
cluster3 = X[np.where(idx == 2)[0],:]

fig, ax = plt.subplots(figsize=(12,8))
ax.scatter(cluster1[:,0], cluster1[:,1], s=30, color='r', label='Cluster 1')
ax.scatter(cluster2[:,0], cluster2[:,1], s=30, color='g', label='Cluster 2')
ax.scatter(cluster3[:,0], cluster3[:,1], s=30, color='b', label='Cluster 3')
ax.legend()
plt.show()

得到图形如下：

Python机器学习之K-Means聚类实现详解

image.png

4.关于初始化质心的设置

我们前边设置的初始质心：[3, 3], [6, 2], [8, 5]，是事先设定的，并由此生成idx（每一变量归属类别的向量），这是后边进行kmeans聚类的基础，实际上对于二维以上数据，由于无法在平面坐标轴展示，很难一开始就设定较好的初始质心，另外，初始质心的设定也可能会影响算法的收敛性。所以需要我们再构造个初始化质心设定函数，来更好地设置初始质心。

def init_centroids(X, k):
  m, n = X.shape
  centroids = np.zeros((k, n)) #初始化零矩阵
  idx = np.random.randint(0, m, k) #返回0-m之间的整数值
  
  for i in range(k):
    centroids[i,:] = X[idx[i],:]
  
return centroids
init_centroids(X, 3)

这里所生成的初始质心位置，其实就是从X的数据中随机找3个变量作为初始值。在此基础上，令initial_centroids = init_centroids(X, 3)，然后代入前边的code中，重新运行一遍即可。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python机器学习之K-Means聚类实现详解

- Author -

博观厚积

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python学习之asyncore模块用法实例教程

Sep 29 Python

python循环监控远程端口的方法

Mar 14 Python

利用Python的Twisted框架实现webshell密码扫描器的教程

Apr 16 Python

利用Python开发微信支付的注意事项

Aug 19 Python

Python实现扣除个人税后的工资计算器示例

Mar 26 Python

PyQt5每天必学之进度条效果

Apr 19 Python

Python3.6通过自带的urllib通过get或post方法请求url的实例

May 10 Python

python 匹配url中是否存在IP地址的方法

Jun 04 Python

使用Python快速制作可视化报表的方法

Feb 03 Python

Appium+python自动化之连接模拟器并启动淘宝APP（超详解）

Jun 17 Python

python自动化实现登录获取图片验证码功能

Nov 20 Python

使用Python的Turtle库绘制森林的实例

Dec 18 Python

python实现远程通过网络邮件控制计算机重启或关机

Feb 22 #Python

python实现微信发送邮件关闭电脑功能

Feb 22 #Python

python使用itchat实现手机控制电脑

Feb 22 #Python

Python实现利用163邮箱远程关电脑脚本

Feb 22 #Python

Python3.4实现远程控制电脑开关机

Feb 22 #Python

python实现微信远程控制电脑

Feb 22 #Python

Python标准库笔记struct模块的使用

Feb 22 #Python

You might like

php实现将上传word文件转为html的方法

2015/06/03 PHP

php身份证号码检查类实例

2015/06/18 PHP

php解析xml 的四种简单方法(附实例)

2016/07/11 PHP

Laravel相关的一些故障解决

2020/08/19 PHP

win10下 php安装seaslog扩展的详细步骤

2020/12/04 PHP

Prototype使用指南之selector.js说明

2008/10/26 Javascript

jQuery 源码分析笔记(3) Deferred机制

2011/06/19 Javascript

NodeJs中的非阻塞方法介绍

2012/06/05 NodeJs

extjs4 treepanel动态改变行高度示例

2013/12/17 Javascript

vuejs父子组件通信的问题

2017/01/11 Javascript

微信小程序开发经验整理

2017/02/15 Javascript

nodejs后台集成ueditor富文本编辑器的实例

2017/07/11 NodeJs

Angular限制input框输入金额（是小数的话只保留两位小数点）

2017/07/13 Javascript

vue.js或js实现中文A-Z排序的方法

2018/03/08 Javascript

原生JS实现的雪花飘落动画效果

2018/05/03 Javascript

微信小程序实现人脸识别

2018/05/25 Javascript

[01:39]（回顾）各路豪强针锋相对，几经鏖战四强产生

2014/07/01 DOTA

利用Python绘制MySQL数据图实现数据可视化

2015/03/30 Python

Python设计模式之抽象工厂模式

2016/08/25 Python

浅谈numpy数组的几种排序方式

2017/12/15 Python

python 获取图片分辨率的方法

2019/01/08 Python

python协程gevent案例爬取斗鱼图片过程解析

2019/08/27 Python

浅析Python语言自带的数据结构有哪些

2019/08/27 Python

解决Python Matplotlib绘图数据点位置错乱问题

2020/05/16 Python

Pycharm连接gitlab实现过程图解

2020/09/01 Python

Html5 语法与规则简要概述

2014/07/29 HTML / CSS

Lookfantastic阿联酋官网：英国知名美妆护肤购物网站

2020/05/26 全球购物

大学生毕业的自我评价分享

2014/01/02 职场文书

家长对孩子的评语

2014/04/18 职场文书

医学专业自荐信

2014/06/14 职场文书

毕业生班级鉴定评语

2015/01/04 职场文书

酒桌上的开场白

2015/06/01 职场文书

工作收入证明模板

2015/06/12 职场文书

个人的事迹材料怎么写

2019/04/24 职场文书

用Python远程登陆服务器的步骤

2021/04/16 Python

用python实现监控视频人数统计

2021/05/21 Python