编程 Python

python 代码实现k-means聚类分析的思路(不使用现成聚类库)

Posted in Python onJune 01, 2020

一、实验目标

1、使用 K-means 模型进行聚类，尝试使用不同的类别个数 K，并分析聚类结果。

2、按照 8:2 的比例随机将数据划分为训练集和测试集，至少尝试 3 个不同的 K 值，并画出不同 K 下的聚类结果，及不同模型在训练集和测试集上的损失。对结果进行讨论，发现能解释数据的最好的 K 值。二、算法原理

首先确定k，随机选择k个初始点之后所有点根据距离质点的距离进行聚类分析，离某一个质点a相较于其他质点最近的点分配到a的类中，根据每一类mean值更新迭代聚类中心，在迭代完成后分别计算训练集和测试集的损失函数SSE_train、SSE_test，画图进行分析。

python 代码实现k-means聚类分析的思路(不使用现成聚类库)

伪代码如下：

num=10 #k的种类
for k in range(1,num):
 随机选择k个质点
 for i in range(n): #迭代n次
 根据点与质点间的距离对于X_train进行聚类
 根据mean值迭代更新质点
 计算SSE_train
 计算SSE_test
画图

　算法流程图：

python 代码实现k-means聚类分析的思路(不使用现成聚类库)

三、代码实现

1、导入库

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn.model_selection import train_test_split

2、计算距离

def distance(p1,p2):
 return np.sqrt((p1[0]-p2[0])**2+(p1[1]-p2[1])**2)

3、计算均值

def means(arr):
 return np.array([np.mean([p[0] for p in arr]),np.mean([p[1] for p in arr])])

4、二维数据处理

#数据处理
data= pd.read_table('cluster.dat',sep='\t',header=None) 
data.columns=['x']
data['y']=None
for i in range(len(data)): #遍历每一行 
 column = data['x'][i].split( ) #分开第i行，x列的数据。split()默认是以空格等符号来分割，返回一个列表 
 data['x'][i]=column[0] #分割形成的列表第一个数据给x列 
 data['y'][i]=column[1] #分割形成的列表第二个数据给y列
list=[]
list1=[]
for i in range(len(data)):
 list.append(float(data['x'][i]))
 list.append(float(data['y'][i]))
 list1.append(list)
 list=[]
arr=np.array(list1)
print(arr)

python 代码实现k-means聚类分析的思路(不使用现成聚类库)

5、划分数据集和训练集

#按照8：2划分数据集和训练集
X_train, X_test = train_test_split(arr,test_size=0.2,random_state=1)

6、主要聚类实现

count=10 #k的种类：1、2、3...10
SSE_train=[] #训练集的SSE
SSE_test=[] #测试集的SSE
n=20 #迭代次数
for k in range(1,count):
 cla_arr=[] #聚类容器
 centroid=[] #质点
 for i in range(k):
 j=np.random.randint(0,len(X_train))
 centroid.append(list1[j])
 cla_arr.append([])
 centroids=np.array(centroid) 
 cla_tmp=cla_arr #临时训练集聚类容器
 cla_tmp1=cla_arr #临时测试集聚类容器
 for i in range(n): #开始迭代
 for e in X_train: #对于训练集中的点进行聚类分析
 pi=0
 min_d=distance(e,centroids[pi]) 
 for j in range(k):
 if(distance(e,centroids[j])<min_d): 
  min_d=distance(e,centroids[j])
  pi=j
 cla_tmp[pi].append(e) #添加点到相应的聚类容器中
 
 for m in range(k):
 if(n-1==i):
 break
 centroids[m]=means(cla_tmp[m])#迭代更新聚类中心
 cla_tmp[m]=[]
 dis=0
 for i in range(k):  #计算训练集的SSE_train
 for j in range(len(cla_tmp[i])):
 dis+=distance(centroids[i],cla_tmp[i][j])
 SSE_train.append(dis)
 
 col = ['HotPink','Aqua','Chartreuse','yellow','red','blue','green','grey','orange'] #画出对应K的散点图
 for i in range(k):
 plt.scatter([e[0] for e in cla_tmp[i]],[e[1] for e in cla_tmp[i]],color=col[i])
 plt.scatter(centroids[i][0],centroids[i][1],linewidth=3,s=300,marker='+',color='black')
 plt.show()
 
 for e in X_test:  #测试集根据训练集的质点进行聚类分析
 ki=0
 min_d=distance(e,centroids[ki])
 for j in range(k):
 if(distance(e,centroids[j])<min_d):
 min_d=distance(e,centroids[j])
 ki=j
 cla_tmp1[ki].append(e)
 for i in range(k):  #计算测试集的SSE_test
 for j in range(len(cla_tmp1[i])):
 dis+=distance(centroids[i],cla_tmp1[i][j])
 SSE_test.append(dis)

python 代码实现k-means聚类分析的思路(不使用现成聚类库)

7、画图

SSE=[] #计算测试集与训练集SSE的差值
for i in range(len(SSE_test)):
 SSE.append(SSE_test[i]-SSE_train[i])

x=[1,2,3,4,5,6,7,8,9]
plt.figure()
plt.plot(x,SSE_train,marker='*')
plt.xlabel("K")
plt.ylabel("SSE_train")
plt.show() #画出SSE_train的图

plt.figure()
plt.plot(x,SSE_test,marker='*')
plt.xlabel("K")
plt.ylabel("SSE_test")
plt.show() #画出SSE_test的图

plt.figure()
plt.plot(x,SSE,marker='+')
plt.xlabel("K")
plt.ylabel("SSE_test-SSE_train")
plt.show() #画出SSE_test-SSE_train的图

python 代码实现k-means聚类分析的思路(不使用现成聚类库)

四、实验结果分析

可以看出SSE随着K的增长而减小，测试集和训练集的图形趋势几乎一致，在相同的K值下，测试集的SSE大于训练集的SSE。于是我对于在相同的K值下的SSE_test和SSE_train做了减法（上图3），可知K=4时数据得出结果最好。这里我主要使用肘部原则来判断。本篇并未实现轮廓系数，参考文章：https://3water.com/article/187771.htm

总结

到此这篇关于python 代码实现k-means聚类分析(不使用现成聚类库)的文章就介绍到这了,更多相关python k-means聚类分析内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python 代码实现k-means聚类分析的思路(不使用现成聚类库)

- Author -

会发光的大月亮

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python pycurl验证basic和digest认证的方法

May 02 Python

Python使用sort和class实现的多级排序功能示例

Aug 15 Python

用python实现k近邻算法的示例代码

Sep 06 Python

python实现对指定字符串补足固定长度倍数截断输出的方法

Nov 15 Python

详解Python函数式编程—高阶函数

Mar 29 Python

新手入门Python编程的8个实用建议

Jul 12 Python

基于Python2、Python3中reload()的不同用法介绍

Aug 12 Python

浅析pandas 数据结构中的DataFrame

Oct 12 Python

使用pycharm和pylint检查python代码规范操作

Jun 09 Python

python3.x中安装web.py步骤方法

Jun 23 Python

Python venv虚拟环境配置过程解析

Jul 08 Python

python打包多类型文件的操作方法

Sep 21 Python

python如何写出表白程序

Jun 01 #Python

python中os包的用法

Jun 01 #Python

python保留格式汇总各部门excel内容的实现思路

Jun 01 #Python

Python如何使用正则表达式爬取京东商品信息

Jun 01 #Python

浅谈pycharm导入pandas包遇到的问题及解决

Jun 01 #Python

python实现密码验证合格程序的思路详解

Jun 01 #Python

Python网络爬虫四大选择器用法原理总结

Jun 01 #Python

You might like

php下拉选项的批量操作的实现代码

2013/10/14 PHP

PHP自动补全表单的两种方法

2017/03/06 PHP

PHP使用PhpSpreadsheet操作Excel实例详解

2020/03/26 PHP

php设计模式之观察者模式实例详解【星际争霸游戏案例】

2020/03/30 PHP

ThinkPHP5 框架引入 Go AOP，PHP AOP编程项目详解

2020/05/12 PHP

JS动态添加option和删除option(附实例代码)

2013/04/01 Javascript

JavaScript验证图片类型(扩展名)的函数分享

2014/05/05 Javascript

js获取checkbox复选框选中的选项实例

2014/08/24 Javascript

基于jQuery实现的图片切换焦点图整理

2014/12/07 Javascript

JavaScript中toString()方法的使用详解

2015/06/05 Javascript

Vue.js中用v-bind绑定class的注意事项

2016/12/13 Javascript

jQuery插件Echarts实现的双轴图效果示例【附demo源码下载】

2017/03/04 Javascript

JavaScript实现获取select下拉框中第一个值的方法

2018/02/06 Javascript

ES6基础之展开语法(Spread syntax)

2019/02/21 Javascript

使用vue-cli3 创建vue项目并配置VS Code 自动代码格式化 vue语法高亮问题

2019/05/14 Javascript

vue组件内部引入外部js文件的方法

2020/01/18 Javascript

three.js 实现露珠滴落动画效果的示例代码

2021/03/01 Javascript

[01:43]3.19DOTA2发布会三代刀塔人第三代

2014/03/25 DOTA

python不带重复的全排列代码

2013/08/13 Python

在Django的session中使用User对象的方法

2015/07/23 Python

Python IDE PyCharm的基本快捷键和配置简介

2015/11/04 Python

详解使用pymysql在python中对mysql的增删改查操作(综合)

2017/01/18 Python

Python实现的科学计算器功能示例

2017/08/04 Python

Python实现决策树并且使用Graphviz可视化的例子

2019/08/09 Python

在python3.9下如何安装scrapy的方法

2021/02/03 Python

LightInTheBox西班牙站点：全球商品在线采购

2016/09/22 全球购物

办理护照介绍信

2014/01/16 职场文书

中介公司区域经理岗位职责范本

2014/03/02 职场文书

企业厂务公开实施方案

2014/03/26 职场文书

实习单位评语

2014/04/26 职场文书

宿舍标语大全

2014/06/19 职场文书

逃课检讨书

2015/01/26 职场文书

春节慰问简报

2015/07/21 职场文书

小学毕业感言200字

2015/07/30 职场文书

《艾尔登法环》1.03.3补丁上线碎星伤害调整

2022/04/06 其他游戏

使用JS前端技术实现静态图片局部流动效果

2022/08/05 Javascript