编程 Python

Python sklearn库实现PCA教程(以鸢尾花分类为例)

Posted in Python onFebruary 24, 2020

PCA简介

主成分分析（Principal Component Analysis，PCA）是最常用的一种降维方法，通常用于高维数据集的探索与可视化，还可以用作数据压缩和预处理等。矩阵的主成分就是其协方差矩阵对应的特征向量，按照对应的特征值大小进行排序，最大的特征值就是第一主成分，其次是第二主成分，以此类推。

基本步骤：

具体实现

我们通过Python的sklearn库来实现鸢尾花数据进行降维，数据本身是4维的降维后变成2维，可以在平面中画出样本点的分布。样本数据结构如下图：

Python sklearn库实现PCA教程(以鸢尾花分类为例)

其中样本总数为150，鸢尾花的类别有三种，分别标记为0，1，2

代码

import matplotlib.pyplot as plt     #加载matplotlib用于数据的可视化
from sklearn.decomposition import PCA   #加载PCA算法包
from sklearn.datasets import load_iris


data=load_iris()
y=data.target
x=data.data
pca=PCA(n_components=2)  #加载PCA算法，设置降维后主成分数目为2
reduced_x=pca.fit_transform(x)#对样本进行降维

red_x,red_y=[],[]
blue_x,blue_y=[],[]
green_x,green_y=[],[]


for i in range(len(reduced_x)):
 if y[i] ==0:
  red_x.append(reduced_x[i][0])
  red_y.append(reduced_x[i][1])

 elif y[i]==1:
  blue_x.append(reduced_x[i][0])
  blue_y.append(reduced_x[i][1])

 else:
  green_x.append(reduced_x[i][0])
  green_y.append(reduced_x[i][1])

#可视化
plt.scatter(red_x,red_y,c='r',marker='x')
plt.scatter(blue_x,blue_y,c='b',marker='D')
plt.scatter(green_x,green_y,c='g',marker='.')
plt.show()

结果图

Python sklearn库实现PCA教程(以鸢尾花分类为例)

知识拓展：python sklearn PCA 实例代码-主成分分析

python sklearn decomposition PCA 主成分分析

主成分分析（PCA）

1、主成分分析（Principal Component Analysis,PCA）是最常用的一种降维方法，

通常用于高维数据集的探索与可视化，还可以用作数据压缩和预处理

2、PCA可以把具有相关性的高维变量合成为线性无关的低维变量，称为主成分。

主成分能够尽可能保留原始数据的信息

3、概念

方差：用来度量一组数据的分散程度

协方差：用来度量两个变量之间的线性相关性程度，若两个变量的协议差为0，二者线性无关

协方差矩阵：矩阵的特征向量是描述数据集结构的非零向量，?? ⃗=?? ⃗

特征向量和特征值：? ⃗ 特征向量，?是特征值

4、提取：

矩阵的主成分是其协方差矩阵对应的特征向量，按照对应的特征值大小进行排序，最大的特征值就是第一主成分，其次是第二主成分

5、原理：

1、对所有样本进行中心化:xi-(x1+x2…xm)/m
2、计算样本的协方差矩阵X(X.T)
3、对协方差矩阵X(X.T)做特征值分解
4、取最大的d个特征值所对应的特征向量w1,w2…wd

输出投影矩阵W=(w1,w2,…,wd)

6、参数说明

sklearn.decomposition.PCA(n_components=None,copy=True,whithen=False,svd_solver=‘auto',tol=0.0,

iterated_power=‘auto',random_state=None)

n_components:指定主成分的个数，即降维后数据的维度

svd_slover:设置特征值分解的方法：‘full',‘arpack',‘randomized'

PCA实现高维度数据可视化实例

目标：

已知鸢尾花数据是4维的，共三类样本，使用PCA实现对鸢尾花数据进行降维，实现在二维平面上的可视化

实例程序编写

import matplotlib.pyplot as plt
import sklearn.decomposition as dp
from sklearn.datasets.base import load_iris

x,y=load_iris(return_X_y=True) #加载数据，x表示数据集中的属性数据，y表示数据标签
pca=dp.PCA(n_components=2) #加载pca算法，设置降维后主成分数目为2
reduced_x=pca.fit_transform(x) #对原始数据进行降维，保存在reduced_x中
red_x,red_y=[],[]
blue_x,blue_y=[],[]
green_x,green_y=[],[]
for i in range(len(reduced_x)): #按鸢尾花的类别将降维后的数据点保存在不同的表表中
 if y[i]==0:
  red_x.append(reduced_x[i][0])
  red_y.append(reduced_x[i][1])
 elif y[i]==1:
  blue_x.append(reduced_x[i][0])
  blue_y.append(reduced_x[i][1])
 else:
  green_x.append(reduced_x[i][0])
  green_y.append(reduced_x[i][1])
plt.scatter(red_x,red_y,c='r',marker='x')
plt.scatter(blue_x,blue_y,c='b',marker='D')
plt.scatter(green_x,green_y,c='g',marker='.')
plt.show()

以上这篇Python sklearn库实现PCA教程(以鸢尾花分类为例)就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

Python sklearn库实现PCA教程(以鸢尾花分类为例)

- Author -

Cindy0812

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

浅谈Python中的可变对象和不可变对象

Jul 07 Python

基于python中的TCP及UDP(详解)

Nov 06 Python

python 把文件中的每一行以数组的元素放入数组中的方法

Apr 29 Python

Django保护敏感信息的方法示例

May 09 Python

Django框架HttpResponse对象用法实例分析

Nov 01 Python

解决Pytorch训练过程中loss不下降的问题

Jan 02 Python

Python实现图像的垂直投影示例

Jan 17 Python

全网首秀之Pycharm十大实用技巧(推荐)

Apr 27 Python

使用keras2.0 将Merge层改为函数式

May 23 Python

Python爬虫获取豆瓣电影并写入excel

Jul 31 Python

python调用win32接口进行截图的示例

Nov 11 Python

Django与数据库交互的实现

Jun 03 Python

python 线性回归分析模型检验标准--拟合优度详解

Feb 24 #Python

最小二乘法及其python实现详解

Feb 24 #Python

在Python 的线程中运行协程的方法

Feb 24 #Python

Python 爬取必应壁纸的实例讲解

Feb 24 #Python

Python unittest工作原理和使用过程解析

Feb 24 #Python

Python 剪绳子的多种思路实现(动态规划和贪心)

Feb 24 #Python

用python介绍4种常用的单链表翻转的方法小结

Feb 24 #Python

You might like

预告映像公开！第1章续篇剧场版动画《Princess Principal Crown Handler》4月10日上映！

2020/03/06 日漫

如何分别全角和半角以避免乱码

2006/10/09 PHP

PHP+jQuery实现自动补全功能源码

2013/05/15 PHP

PHP常用函数之base64图片上传功能详解

2019/10/21 PHP

动态刷新 dorado树的js代码

2009/06/12 Javascript

javascript面向对象编程代码

2011/12/19 Javascript

jquery使用append(content)方法注意事项分享

2014/01/06 Javascript

JavaScript 作用域链解析

2014/11/13 Javascript

Jquery时间轴特效(三种不同类型)

2015/11/02 Javascript

JS如何设置元素样式的方法示例

2017/08/28 Javascript

three.js实现3D模型展示的示例代码

2017/12/31 Javascript

jquery实现左右轮播切换效果

2018/01/01 jQuery

使用bootstrap实现下拉框搜索功能的实例讲解

2018/08/10 Javascript

微信小程序 SOTER 生物认证DEMO 指纹识别功能

2019/12/13 Javascript

[00:37]2016完美“圣”典风云人物：AMS宣传片

2016/12/06 DOTA

常见的在Python中实现单例模式的三种方法

2015/04/08 Python

对python中的try、except、finally 执行顺序详解

2019/02/18 Python

Python绘制股票移动均线的实例

2019/08/24 Python

如何使用python进行pdf文件分割

2019/11/11 Python

Python笔记之工厂模式

2019/11/20 Python

使用python的turtle绘画滑稽脸实例

2019/11/21 Python

Python tkinter三种布局实例详解

2020/01/06 Python

pandas读取csv文件提示不存在的解决方法及原因分析

2020/04/21 Python

python实现定时发送邮件到指定邮箱

2020/12/23 Python

Appium+Python实现简单的自动化登录测试的实现

2021/01/26 Python

HTML5 Canvas+JS控制电脑或手机上的摄像头实例

2014/05/03 HTML / CSS

百丽国际旗下购物网站：优购

2017/02/28 全球购物

迪士尼西班牙官方网上商店：ShopDisney西班牙

2020/02/02 全球购物

大学生村官心得体会范文

2014/01/04 职场文书

初中优秀班集体申报材料

2014/05/01 职场文书

委托书格式

2014/08/01 职场文书

大学生翘课检讨书范文

2014/10/06 职场文书

2015年银行个人工作总结

2015/05/14 职场文书

餐厅服务员管理制度

2015/08/05 职场文书

Windows server 2016服务器基本设置

2022/08/14 Servers

码云(gitee)通过git自动同步到阿里云服务器

2022/12/24 Servers