编程 Python

k-means & DBSCAN 总结

Posted in Python onApril 27, 2021

k-means

概述

k-means 通常被称为劳埃德算法, 是聚类算法中最经典也是最容易理解的模型. 简单的来说聚类就是把相似的东西分到一组.
k-means & DBSCAN 总结

基本概念

k 值:

要得到簇的个数

质心:

均值, 即向量各维度取平均即可

距离的度量:

欧几里得距离和余弦相似度

优化目标:
k-means & DBSCAN 总结

代码:

class sklearn.cluster.KMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300, tol=0.0001, precompute_distances='auto', verbose=0, random_state=None, copy_x=True, n_jobs=1, algorithm='auto')
  """
  :param n_clusters:要形成的聚类数以及生成的质心数

  :param init:初始化方法，默认为'k-means ++',以智能方式选择k-均值聚类的初始聚类中心，以加速收敛;random,从初始质心数据中随机选择k个观察值（行

  :param n_init：int，默认值：10使用不同质心种子运行k-means算法的时间。最终结果将是n_init连续运行在惯性方面的最佳输出。

  :param n_jobs：int用于计算的作业数量。这可以通过并行计算每个运行的n_init。如果-1使用所有CPU。如果给出1，则不使用任何并行计算代码，这对调试很有用。对于-1以下的n_jobs，使用（n_cpus + 1 + n_jobs）。因此，对于n_jobs = -2，所有CPU都使用一个。

  :param random_state:随机数种子，默认为全局numpy随机数生成器
  """

基本方法

fit(X,y=None)

使用 X 作为训练数据拟合模型. 如:

kmeans.fit(X)

predict(X)

预测新的数据所在的类别. 如:

kmeans.predict([[0, 0], [4, 4]])
array([0, 1], dtype=int32)

clustercenters

获取集群中心的点坐标. 如:

kmeans.cluster_centers_
array([[ 1.,  2.],
       [ 4.,  2.]])

labels_

获取每个点的类别. 如:

kmeans.labels_

工作流程

算法的执行过程分为 4 个阶段:

随机设 k 个特征空间内的点作为初始的聚类中心
对于根据每个数据的特征向量, 从 k 个聚类中心中寻找最近的一个, 并把该暑假标记为这个聚类的中心
在所有的数据都被标记过聚类中心之后, 根据这些数据分配的类簇, 通过取分配每个先前质心的所有样本的平均值来创建新的质心重, 新对 k 个聚类中心做计算
计算旧和新质心之间的差异. 如果所有的数据点从属的聚类中心与上一次的分配的类簇没有变化, 那么迭代就可以停止, 否则回到步骤 2 继续循环

优势 vs 劣势

优势

算法原理简单, 可解释性好
收敛速度快
调参的时候只需要改变 k 一个参数

劣势

k 值难以确定
复杂度与样本呈线性关系
很难发现任意形状的簇

DBSCAN 算法

概述

DBSCAN 算法 (Density-Based Spatial Clustering of Applications with Noise) 是一种基于密度空间聚类算法.
k-means & DBSCAN 总结

基本概念

核心对象:

若某个点的密度达到算法设定的阈值则其为核心点
即 r 邻域内的点的数量不小于 minPts

邻域的距离阈值:

设定的半径 r

直接密度可达:

若某点 p 在点 q 的 r 邻域内, 且 q 是核心点则 p-q 直接密度可达

密度可达:

若有一个点的序列 q0, q1, … qk, 对任意 qi-qi-1 是直接密度可达的, 则从 q0 到 qk 密度可达, 这实际上是直接密度可达的 “传播”

密度相连:

若从某核心点 p 出发, 点 q 和点 k 都是密度可达的. 则称点 q 和点 k 是密度相连的

边界点:

属于某一个类的非核心点, 不能发展下线了

噪声点:

不属于任何一个类簇的点, 从任何一个核心出发都是密度不可达的

图解

k-means & DBSCAN 总结

A: 核心对象
B, C: 边界点
N: 离群点

工作流程

参数 D: 输入数据集
参数 e: 指定半径
MinPts: 密度阈值

优势 vs 劣势

优势

不需要指定簇个数
可以发现任意形状的簇
擅长找到离群点 (检测任务)
只需两个参数

劣势

高维数据不是特别适用 (可以做降维)
参数对结果的影响非常大
Sklearn 中效率并不是很高 (数据削减策略)

总结

DBSCAN 的总体效果比 k-means 好很多, 当我们需要用到聚类算法的时候推荐使用 DBSCAN, 特别在数据不规则的情况下.
k-means & DBSCAN 总结

k-means & DBSCAN 总结

- Author -

我是小白呀

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python使用Tkinter显示网络图片的方法

Apr 24 Python

使用Python读写及压缩和解压缩文件的示例

Jul 08 Python

用python找出那些被“标记”的照片

Apr 20 Python

浅谈Python中的作用域规则和闭包

Mar 20 Python

mvc框架打造笔记之wsgi协议的优缺点以及接口实现

Aug 01 Python

Jacobi迭代算法的Python实现详解

Jun 29 Python

python实现广度优先搜索过程解析

Oct 19 Python

Django models filter筛选条件详解

Mar 16 Python

django执行原始查询sql,并返回Dict字典例子

Apr 01 Python

Python 捕获代码中所有异常的方法

Aug 03 Python

python3让print输出不换行的方法

Aug 24 Python

python/golang 删除链表中的元素

Sep 14 Python

秀！学妹看见都惊呆的Python小招数！【详细语言特性使用技巧】

Apr 27 #Python

Python代码，能玩30多款童年游戏！这些有几个是你玩过的

python实现腾讯滑块验证码识别

Apr 27 #Python

python实现调用摄像头并拍照发邮箱

Apr 27 #Python

django如何自定义manage.py管理命令

Apr 27 #Python

Python爬虫之爬取二手房信息

七个Python必备的GUI库

You might like

php array_unique之后json_encode需要注意

2011/01/02 PHP

PHP合并两个或多个数组的方法

2019/01/20 PHP

几行代码轻松搞定jquery实现flash8类似的连接效果

2007/05/03 Javascript

js跟随滚动条滚动浮动代码

2009/12/31 Javascript

在jQuery 1.5中使用deferred对象的代码(翻译)

2011/03/10 Javascript

拥抱模块化的JavaScript

2012/03/07 Javascript

jQuery实现动画效果的实例代码

2013/05/07 Javascript

ajax请求get与post的区别总结

2013/11/04 Javascript

jquery弹出层类代码分享

2013/12/27 Javascript

JavaScript设计模式之观察者模式（发布者-订阅者模式）

2014/09/24 Javascript

Jquery插件实现点击获取验证码后60秒内禁止重新获取

2015/03/13 Javascript

js实现浏览本地文件并显示扩展名的方法

2015/08/17 Javascript

详解支持Angular 2的表格控件

2017/01/19 Javascript

vue组件生命周期详解

2017/11/07 Javascript

nodejs基于WS模块实现WebSocket聊天功能的方法

2018/01/12 NodeJs

Node.js 使用jade模板引擎的示例

2018/05/11 Javascript

layui获取选中行数据的实例讲解

2018/08/19 Javascript

Vue render函数实战之实现tabs选项卡组件

2019/04/22 Javascript

socket在egg中的使用实例代码详解

2019/05/30 Javascript

七行JSON代码把你的网站变成移动应用过程详解

2019/07/09 Javascript

详解js location.href和window.open的几种用法和区别

2019/12/02 Javascript

vue-cli3.0实现一个多页面应用的历奇经历记录总结

2020/03/16 Javascript

微信小程序地图实现展示线路

2020/07/29 Javascript

Python基础之函数用法实例详解

2014/09/10 Python

django接入新浪微博OAuth的方法

2015/06/29 Python

Python unittest模块用法实例分析

2018/05/25 Python

python多进程使用及线程池的使用方法代码详解

2018/10/24 Python

python实现简单图片物体标注工具

2019/03/18 Python

详解python播放音频的三种方法

2019/09/23 Python

英国最大的纸工艺品商店：CraftStash

2018/12/01 全球购物

墨尔本复古时尚品牌：Dangerfield

2018/12/12 全球购物

大学秋游活动方案

2014/02/11 职场文书

党在我心中的演讲稿

2014/09/13 职场文书

《敬重卑微》读后感3篇

2019/11/26 职场文书

让文件路径提取变得更简单的Python Path库

2021/05/27 Python

服务器间如何实现文件共享

2022/05/20 Servers