编程 Python

Python机器学习之PCA降维算法详解

Posted in Python onMay 19, 2021

一、算法概述

主成分分析（Principal ComponentAnalysis，PCA）是一种掌握事物主要矛盾的统计分析方法，它可以从多元事物中解析出主要影响因素，揭示事物的本质，简化复杂的问题。
PCA 是最常用的一种降维方法，它的目标是通过某种线性投影，将高维的数据映射到低维的空间中，并期望在所投影的维度上数据的方差最大，以此使用较少的维度，同时保留较多原数据的维度。
PCA 算法目标是求出样本数据协方差矩阵的特征值和特征向量，而协方差矩阵的特征向量的方向就是PCA需要投影的方向。使样本数据向低维投影后，能尽可能表征原始的数据。
PCA 可以把具有相关性的高维变量合成为线性无关的低维变量，称为主成分。主成分能够尽可能的保留原始数据的信息。
PCA 通常用于高维数据集的探索与可视化，还可以用作数据压缩和预处理等。

二、算法步骤

1.将原始数据按行组成m行n列的矩阵X

2.将X的每一列（代表一个属性字段）进行零均值化，即减去这一列的均值

3.求出协方差矩阵

4.求出协方差矩阵的特征值及对应的特征向量r

5.将特征向量按对应特征值大小从左到右按列排列成矩阵，取前k列组成矩阵P

6.计算降维到k维的数据

三、相关概念

方差：描述一个数据的离散程度

Python机器学习之PCA降维算法详解

协方差：描述两个数据的相关性，接近1就是正相关，接近-1就是负相关，接近0就是不相关

Python机器学习之PCA降维算法详解

协方差矩阵：协方差矩阵是一个对称的矩阵，而且对角线是各个维度的方差

Python机器学习之PCA降维算法详解

特征值：用于选取降维的K个特征值
特征向量：用于选取降维的K个特征向量

四、算法优缺点

优点

仅仅需要以方差衡量信息量，不受数据集以外的因素影响。
各主成分之间正交，可消除原始数据成分间的相互影响的因素。
计算方法简单，主要运算是特征值分解，易于实现。

缺点

主成分各个特征维度的含义具有一定的模糊性，不如原始样本特征的解释性强。
方差小的非主成分也可能含有对样本差异的重要信息，降维丢弃的数据可能对后续数据处理有影响。

五、算法实现

自定义实现

import numpy as np


# 对初始数据进行零均值化处理
def zeroMean(dataMat):
    # 求列均值
    meanVal = np.mean(dataMat, axis=0)
    # 求列差值
    newData = dataMat - meanVal
    return newData, meanVal


# 对初始数据进行降维处理
def pca(dataMat, percent=0.19):
    newData, meanVal = zeroMean(dataMat)

    # 求协方差矩阵
    covMat = np.cov(newData, rowvar=0)

    # 求特征值和特征向量
    eigVals, eigVects = np.linalg.eig(np.mat(covMat))

    # 抽取前n个特征向量
    n = percentage2n(eigVals, percent)
    print("数据降低到：" + str(n) + '维')

    # 将特征值按从小到大排序
    eigValIndice = np.argsort(eigVals)
    # 取最大的n个特征值的下标
    n_eigValIndice = eigValIndice[-1:-(n + 1):-1]
    # 取最大的n个特征值的特征向量
    n_eigVect = eigVects[:, n_eigValIndice]

    # 取得降低到n维的数据
    lowDataMat = newData * n_eigVect
    reconMat = (lowDataMat * n_eigVect.T) + meanVal

    return reconMat, lowDataMat, n


# 通过方差百分比确定抽取的特征向量的个数
def percentage2n(eigVals, percentage):
    # 按降序排序
    sortArray = np.sort(eigVals)[-1::-1]
    # 求和
    arraySum = sum(sortArray)

    tempSum = 0
    num = 0
    for i in sortArray:
        tempSum += i
        num += 1
        if tempSum >= arraySum * percentage:
            return num


if __name__ == '__main__':
    # 初始化原始数据(行代表样本,列代表维度)
    data = np.random.randint(1, 20, size=(6, 8))
    print(data)

    # 对数据降维处理
    fin = pca(data, 0.9)
    mat = fin[1]
    print(mat)

利用Sklearn库实现

import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

# 加载数据
data = load_iris()
x = data.data
y = data.target

# 设置数据集要降低的维度
pca = PCA(n_components=2)
# 进行数据降维
reduced_x = pca.fit_transform(x)

red_x, red_y = [], []
green_x, green_y = [], []
blue_x, blue_y = [], []

# 对数据集进行分类
for i in range(len(reduced_x)):
    if y[i] == 0:
        red_x.append(reduced_x[i][0])
        red_y.append(reduced_x[i][1])
    elif y[i] == 1:
        green_x.append(reduced_x[i][0])
        green_y.append(reduced_x[i][1])
    else:
        blue_x.append(reduced_x[i][0])
        blue_y.append(reduced_x[i][1])

plt.scatter(red_x, red_y, c='r', marker='x')
plt.scatter(green_x, green_y, c='g', marker='D')
plt.scatter(blue_x, blue_y, c='b', marker='.')
plt.show()

六、算法优化

PCA是一种线性特征提取算法，通过计算将一组特征按重要性从小到大重新排列得到一组互不相关的新特征，但该算法在构造子集的过程中采用等权重的方式，忽略了不同属性对分类的贡献是不同的。

KPCA算法

KPCA是一种改进的PCA非线性降维算法，它利用核函数的思想，把样本数据进行非线性变换，然后在变换空间进行PCA，这样就实现了非线性PCA。

局部PCA算法

局部PCA是一种改进的PCA局部降维算法，它在寻找主成分时加入一项具有局部光滑性的正则项，从而使主成分保留更多的局部性信息。

到此这篇关于Python机器学习之PCA降维算法详解的文章就介绍到这了,更多相关Python PCA降维算法内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python机器学习之PCA降维算法详解

- Author -

ProChick

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

跟老齐学Python之print详解

Sep 28 Python

如何处理Python3.4 使用pymssql 乱码问题

Jan 08 Python

利用Python获取赶集网招聘信息前篇

Apr 18 Python

Python迭代器定义与简单用法分析

Apr 30 Python

如何用Python实现简单的Markdown转换器

Jul 16 Python

Numpy之文件存取的示例代码

Aug 03 Python

Django web框架使用url path name详解

Apr 29 Python

python如何基于redis实现ip代理池

Jan 17 Python

Python3使用xlrd、xlwt处理Excel方法数据

Feb 28 Python

详解django使用include无法跳转的解决方法

Mar 19 Python

python实现简易名片管理系统

Apr 11 Python

python分分钟绘制精美地图海报

Feb 15 Python

Python 批量下载阴阳师网站壁纸

May 19 #Python

python 如何将两个实数矩阵合并为一个复数矩阵

May 19 #Python

python使用pywinauto驱动微信客户端实现公众号爬虫

python基于tkinter实现gif录屏功能

Python 读写 Matlab Mat 格式数据的操作

May 19 #Python

python3 hdf5文件遍历代码

May 19 #Python

Python基础之元组与文件知识总结

You might like

php 的加密函数 md5,crypt,base64_encode 等使用介绍

2012/04/09 PHP

基于flush()不能按顺序输出时的解决办法

2013/06/29 PHP

浅谈json_encode用法

2015/03/05 PHP

PHP在线书签系统分享

2016/01/04 PHP

如何通过View::first使用Laravel Blade的动态模板详解

2017/09/21 PHP

深入分析PHP设计模式

2020/06/15 PHP

createElement动态创建HTML对象脚本代码

2008/11/24 Javascript

Javascript事件热键兼容ie|firefox

2010/12/30 Javascript

用javascript作一个通用向导说明

2011/08/30 Javascript

JavaScript中的类与实例实现方法

2015/01/23 Javascript

javascript针对cookie的基本操作实例详解

2015/11/30 Javascript

微信小程序自己制作小组件实例详解

2016/12/22 Javascript

用file标签实现多图文件上传预览

2017/02/14 Javascript

快速解决vue-cli不能初始化webpack模板的问题

2018/03/20 Javascript

vue-cli脚手架build目录下utils.js工具配置文件详解

2018/09/14 Javascript

vue项目引入字体.ttf的方法

2018/09/28 Javascript

vue相关配置文件详解及多环境配置详细步骤

2020/05/19 Javascript

vue自定义组件(通过Vue.use()来使用)即install的用法说明

2020/08/11 Javascript

Python正则表达式教程之二：捕获篇

2017/03/02 Python

PYTHON发送邮件YAGMAIL的简单实现解析

2019/10/28 Python

Python有参函数使用代码实例

2020/01/06 Python

python3.6.5基于kerberos认证的hive和hdfs连接调用方式

2020/06/06 Python

python 用opencv实现图像修复和图像金字塔

2020/11/27 Python

介绍CSS3使用技巧5个

2009/04/02 HTML / CSS

Html5页面内使用JSON动画的实现

2019/01/29 HTML / CSS

英国排名第一的礼品体验公司：Red Letter Days

2018/08/16 全球购物

英国户外装备商店：Ultimate Outdoors

2019/05/07 全球购物

解释一下ArrayList Vector和LinkedList的实现和区别

2013/04/26 面试题

学生会竞选演讲稿纪检部

2014/08/25 职场文书

计算机实训报告范文

2014/11/05 职场文书

优秀教师事迹材料

2014/12/15 职场文书

违反学校规则制度检讨书

2015/01/01 职场文书

怎样写观后感

2015/06/19 职场文书

python模块与C和C++动态库相互调用实现过程示例

2021/11/02 Python

分享几个简单MySQL优化小妙招

2022/03/31 MySQL

MyBatis核心源码深度剖析SQL语句执行过程

2022/05/20 Java/Android