编程 Python

python实现层次聚类的方法

Posted in Python onNovember 01, 2021

层次聚类算法

顾名思义，层次聚类就是一层一层的进行聚类，可以由上向下把大的类别（cluster）分割，叫作分裂法；也可以由下向上对小的类别进行聚合，叫作凝聚法；但是一般用的比较多的是由下向上的凝聚方法。

分裂法：

分裂法指的是初始时将所有的样本归为一个类簇，然后依据某种准则进行逐渐的分裂，直到达到某种条件或者达到设定的分类数目。用算法描述：
输入：样本集合D，聚类数目或者某个条件（一般是样本距离的阈值，这样就可不设置聚类数目）
输出：聚类结果

1.将样本集中的所有的样本归为一个类簇；
repeat：
    2.在同一个类簇（计为c）中计算两两样本之间的距离，找出距离最远的两个样本a,b；
    3.将样本a，b分配到不同的类簇c1和c2中；
    4.计算原类簇（c）中剩余的其他样本点和a，b的距离，若是dis(a)<dis(b)，则将样本点归到c1中，否则归到c2中；
util：达到聚类的数目或者达到设定的条件

凝聚法：

凝聚法指的是初始时将每个样本点当做一个类簇，所以原始类簇的大小等于样本点的个数，然后依据某种准则合并这些初始的类簇，直到达到某种条件或者达到设定的分类数目。用算法描述：
输入：样本集合D，聚类数目或者某个条件（一般是样本距离的阈值，这样就可不设置聚类数目）
输出：聚类结果

1.将样本集中的所有的样本点都当做一个独立的类簇；
   repeat：
        2.计算两两类簇之间的距离（后边会做介绍），找到距离最小的两个类簇c1和c2；
        3.合并类簇c1和c2为一个类簇；
   util：达到聚类的数目或者达到设定的条件

例图：

python实现层次聚类的方法

欧式距离的计算公式

python实现层次聚类的方法

类簇间距离的计算方法有许多种：
(1)就是取两个类中距离最近的两个样本的距离作为这两个集合的距离，也就是说，最近两个样本之间的距离越小，这两个类之间的相似度就越大
(2)取两个集合中距离最远的两个点的距离作为两个集合的距离
(3)把两个集合中的点两两的距离全部放在一起求一个平均值，相对也能得到合适一点的结果。
e.g.下面是计算组合数据点(A,F)到(B,C)的距离，这里分别计算了(A,F)和(B,C)两两间距离的均值。

python实现层次聚类的方法

(4)取两两距离的中值，与取均值相比更加能够解除个别偏离样本对结果的干扰。
(5)求每个集合的中心点(就是将集合中的所有元素的对应维度相加然后再除以元素个数得到的一个向量)，然后用中心点代替集合再去就集合间的距离

实现

接下来以世界银行样本数据集进行简单实现。该数据集以标准格式存储在名为WBClust2013.csv的CSV格式的文件中。其有80行数据和14个变量。数据来源

python实现层次聚类的方法

为了使得结果可视化更加方便，我将最后一栏人口数据删除了。并且在实现层次聚类之后加入PCA降维与原始结果进行对比。

from scipy.cluster.hierarchy import linkage, dendrogram, fcluster
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np


data = pd.read_csv('data/WBClust2013.csv')
data.pop('Pop')
# data.pop('RuralWater')
# data.pop('CellPhone')
# data.pop('LifeExp')
data = data[:20]
country = list(data['Country'])
data.pop('Country')

# 以下代码为仅使用层次聚类

plt.figure(figsize=(9, 7))
plt.title("original data")
mergings = linkage(data, method='average')
# print(mergings)
dendrogram(mergings, labels=country, leaf_rotation=45, leaf_font_size=8)
plt.show()
Z = linkage(data, method='average')
print(Z)
cluster_assignments = fcluster(Z, t=3.0, criterion='maxclust')
print(cluster_assignments)
for i in range(1, 4):
    print('cluster', i, ':')
    num = 1
    for index, value in enumerate(cluster_assignments):
        if value == i:
            if num % 5 == 0:
                print()
            num += 1
            print(country[index], end='  ')
    print()

# 以下代码为加入PCA进行对比
class myPCA():

    def __init__(self, X, d=2):
        self.X = X
        self.d = d

    def mean_center(self, data):
        """
        去中心化
        :param data: data sets
        :return:
        """
        n, m = data.shape
        for i in range(m):
            aver = np.sum(self.X[:, i])/n
            x = np.tile(aver, (1, n))
            self.X[:, i] = self.X[:, i]-x

    def runPCA(self):

        # 计算协方差矩阵，得到特征值，特征向量
        S = np.dot(self.X.T, self.X)
        S_val, S_victors = np.linalg.eig(S)
        index = np.argsort(-S_val)[0:self.d]
        Y = S_victors[:, index]
        # 得到输出样本集
        Y = np.dot(self.X, Y)
        return Y

# data_for_pca = np.array(data)
# pcaObject=myPCA(data_for_pca,d=2)
# pcaObject.mean_center(data_for_pca)
# res=pcaObject.runPCA()

# plt.figure(figsize=(9, 7))
# plt.title("after pca")
# mergings = linkage(res,method='average')
# print(mergings)
# dendrogram(mergings,labels=country,leaf_rotation=45,leaf_font_size=8)
# plt.show()
# Z = linkage(res, method='average')
# print(Z)
# cluster_assignments = fcluster(Z, t=3.0, criterion='maxclust')
# print(cluster_assignments)
# for i in range(1,4):
#     print('cluster', i, ':')
#     num = 1
#     for index, value in enumerate(cluster_assignments):
#         if value == i:
#             if num % 5 ==0:
#                 print()
#             num+=1
#             print(country[index],end='  ')
#     print()

两次分类结果都是一样的：

cluster 1 :
China  United States  Indonesia  Brazil  
Russian Federation  Japan  Mexico  Philippines  Vietnam  
Egypt, Arab Rep.  Germany  Turkey  Thailand  France  
United Kingdom  
cluster 2 :
India  Pakistan  Nigeria  Bangladesh  
cluster 3 :
Ethiopia

通过树状图对结果进行可视化

原始树状图：

python实现层次聚类的方法

PCA降维后的结果：

python实现层次聚类的方法

到此这篇关于python实现层次聚类的文章就介绍到这了,更多相关python层次聚类内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python实现层次聚类的方法

- Author -

?_蕖

- Original Sources -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python正则表达式中的括号匹配问题

Dec 14 Python

Python数据类型详解（二）列表

May 08 Python

Python切片索引用法示例

May 15 Python

python爬虫正则表达式之处理换行符

Jun 08 Python

python itchat实现调用微信接口的第三方模块方法

Jun 11 Python

python单例模式的多种实现方法

Jul 26 Python

Python获取时间范围内日期列表和周列表的函数

Aug 05 Python

Python下应用opencv 实现人脸检测功能

Oct 24 Python

python元组的概念知识点

Nov 19 Python

Python+OpenCV+图片旋转并用原底色填充新四角的例子

Dec 12 Python

pytorch中tensor.expand()和tensor.expand_as()函数详解

Dec 27 Python

python使用建议与技巧分享（二）

Aug 17 Python

Python list列表删除元素的4种方法

Nov 01 #Python

Python面向对象编程之类的概念

Nov 01 #Python

python代码实现扫码关注公众号登录的实战

python编程实现清理微信重复缓存文件

Nov 01 #Python

python调用ffmpeg命令行工具便捷操作视频示例实现过程

Nov 01 #Python

Python字典的基础操作

Nov 01 #Python

Python集合的基础操作

Nov 01 #Python

You might like

php结合飞信免费天气预报短信

2009/05/07 PHP

PHP文件操作方法汇总

2015/07/01 PHP

动态加载js的几种方法

2006/10/23 Javascript

JavaScript 题型问答有答案参考

2010/02/17 Javascript

基于mootools插件实现遮罩层新手引导

2012/05/24 Javascript

如何使用jQuery来处理图片坏链具体实现步骤

2013/05/02 Javascript

浅析基于WEB前端页面的页面内容搜索的实现思路

2014/06/10 Javascript

JS实现获取键盘按下的按键并显示在页面上的方法

2015/11/04 Javascript

jQuery实现字符串全部替换的方法

2016/12/12 Javascript

EasyUI学习之Combobox下拉列表(1)

2016/12/29 Javascript

jquery实现提示语淡入效果

2017/05/05 jQuery

全面解析vue中的数据双向绑定

2017/05/10 Javascript

Node.JS利用PhantomJs抓取网页入门教程

2017/05/19 Javascript

详解Angular4 路由设置相关

2017/08/26 Javascript

微信小程序实现banner图轮播效果

2020/06/28 Javascript

JavaScript从原型到原型链深入理解

2019/06/03 Javascript

webpack + vue 打包生成公共配置文件（域名）方便动态修改

2019/08/29 Javascript

原生js实现的金山打字小游戏（实例代码详解）

2020/03/16 Javascript

解决vue页面渲染但dom没渲染的操作

2020/07/27 Javascript

Openlayers实现图形绘制

2020/09/28 Javascript

python计算时间差的方法

2015/05/20 Python

python 按不同维度求和,最值,均值的实例

2018/06/28 Python

python搜索包的路径的实现方法

2019/07/19 Python

解决Django中checkbox复选框的传值问题

2020/03/31 Python

详解用python -m http.server搭一个简易的本地局域网

2020/09/24 Python

CSS3实现红包抖动效果

2020/12/23 HTML / CSS

数百万免费的图形资源：Freepik

2020/09/21 全球购物

诺思信科技（南京）有限公司.NET笔试题答案

2013/07/06 面试题

拾金不昧的表扬信

2014/01/16 职场文书

高一生物教学反思

2014/01/17 职场文书

周年庆典邀请函范文

2014/01/24 职场文书

诉讼代理人授权委托书

2014/04/08 职场文书

学校2014重阳节活动策划方案

2014/09/16 职场文书

个人四风问题对照检查材料

2014/10/01 职场文书

行政经理岗位职责

2015/04/15 职场文书

传单、海报早OUT了，另类传单营销方案送给你！

2019/07/15 职场文书