python实现PCA降维的示例详解


Posted in Python onFebruary 24, 2020

概述

本文主要介绍一种降维方法,PCA(Principal Component Analysis,主成分分析)。降维致力于解决三类问题。

1. 降维可以缓解维度灾难问题;

2. 降维可以在压缩数据的同时让信息损失最小化;

3. 理解几百个维度的数据结构很困难,两三个维度的数据通过可视化更容易理解。

PCA简介

在理解特征提取与处理时,涉及高维特征向量的问题往往容易陷入维度灾难。随着数据集维度的增加,算法学习需要的样本数量呈指数级增加。有些应用中,遇到这样的大数据是非常不利的,而且从大数据集中学习需要更多的内存和处理能力。另外,随着维度的增加,数据的稀疏性会越来越高。在高维向量空间中探索同样的数据集比在同样稀疏的数据集中探索更加困难。

主成分分析也称为卡尔胡宁-勒夫变换(Karhunen-Loeve Transform),是一种用于探索高维数据结构的技术。PCA通常用于高维数据集的探索与可视化。还可以用于数据压缩,数据预处理等。PCA可以把可能具有相关性的高维变量合成线性无关的低维变量,称为主成分( principal components)。新的低维数据集会尽可能的保留原始数据的变量。

PCA将数据投射到一个低维子空间实现降维。例如,二维数据集降维就是把点投射成一条线,数据集的每个样本都可以用一个值表示,不需要两个值。三维数据集可以降成二维,就是把变量映射成一个平面。一般情况下,nn维数据集可以通过映射降成kk维子空间,其中k≤nk≤n。

假如你是一本养花工具宣传册的摄影师,你正在拍摄一个水壶。水壶是三维的,但是照片是二维的,为了更全面的把水壶展示给客户,你需要从不同角度拍几张图片。下图是你从四个方向拍的照片:

python实现PCA降维的示例详解

第一张图里水壶的背面可以看到,但是看不到前面。第二张图是拍前面,可以看到壶嘴,这张图可以提供了第一张图缺失的信息,但是壶把看不到了。从第三张俯视图里无法看出壶的高度。第四张图是你真正想要的,水壶的高度,顶部,壶嘴和壶把都清晰可见。

PCA的设计理念与此类似,它可以将高维数据集映射到低维空间的同时,尽可能的保留更多变量。PCA旋转数据集与其主成分对齐,将最多的变量保留到第一主成分中。假设我们有下图所示的数据集:

python实现PCA降维的示例详解

数据集看起来像一个从原点到右上角延伸的细长扁平的椭圆。要降低整个数据集的维度,我们必须把点映射成一条线。下图中的两条线都是数据集可以映射的,映射到哪条线样本变化最大?

python实现PCA降维的示例详解

显然,样本映射到黑色虚线的变化比映射到红色点线的变化要大的多。实际上,这条黑色虚线就是第一主成分。第二主成分必须与第一主成分正交,也就是说第二主成分必须是在统计学上独立的,会出现在与第一主成分垂直的方向,如下图所示:

python实现PCA降维的示例详解

后面的每个主成分也会尽量多的保留剩下的变量,唯一的要求就是每一个主成分需要和前面的主成分正交。

现在假设数据集是三维的,散点图看起来像是沿着一个轴旋转的圆盘。

python实现PCA降维的示例详解

这些点可以通过旋转和变换使圆盘完全变成二维的。现在这些点看着像一个椭圆,第三维上基本没有变量,可以被忽略。

当数据集不同维度上的方差分布不均匀的时候,PCA最有用。(如果是一个球壳形数据集,PCA不能有效的发挥作用,因为各个方向上的方差都相等;没有丢失大量的信息维度一个都不能忽略)。

python实现PCA降维代码

# coding=utf-8
from sklearn.decomposition import PCA 
from pandas.core.frame import DataFrame
import pandas as pd 
import numpy as np 
l=[]
with open('test.csv','r') as fd:
 
  line= fd.readline()
  while line:
    if line =="":
      continue
 
    line = line.strip()
    word = line.split(",")
    l.append(word)
    line= fd.readline()
 
data_l=DataFrame(l)
print (data_l)
dataMat = np.array(data_l) 
 
 
pca_sk = PCA(n_components=2) 
newMat = pca_sk.fit_transform(dataMat) 
 
 
data1 = DataFrame(newMat)
data1.to_csv('test_PCA.csv',index=False,header=False)

以上这篇python实现PCA降维的示例详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
跟老齐学Python之不要红头文件(1)
Sep 28 Python
Python实现读取并保存文件的类
May 11 Python
Python实现嵌套列表及字典并按某一元素去重复功能示例
Nov 30 Python
Python实现matplotlib显示中文的方法详解
Feb 06 Python
Python实现简单生成验证码功能【基于random模块】
Feb 10 Python
利用Opencv中Houghline方法实现直线检测
Feb 11 Python
浅析Python 3 字符串中的 STR 和 Bytes 有什么区别
Oct 14 Python
使用Python控制摄像头拍照并发邮件
Apr 23 Python
关于python中密码加盐的学习体会小结
Jul 15 Python
python反转列表的三种方式解析
Nov 08 Python
Spring @Enable模块驱动原理及使用实例
Jun 23 Python
Python3 类型标注支持操作
Jun 02 Python
Python sklearn库实现PCA教程(以鸢尾花分类为例)
Feb 24 #Python
python 线性回归分析模型检验标准--拟合优度详解
Feb 24 #Python
最小二乘法及其python实现详解
Feb 24 #Python
在Python 的线程中运行协程的方法
Feb 24 #Python
Python 爬取必应壁纸的实例讲解
Feb 24 #Python
Python unittest工作原理和使用过程解析
Feb 24 #Python
Python 剪绳子的多种思路实现(动态规划和贪心)
Feb 24 #Python
You might like
php基础知识:类与对象(3) 构造函数和析构函数
2006/12/13 PHP
php实现session自定义会话处理器的方法
2015/01/27 PHP
PHP的数组中提高元素查找与元素去重的效率的技巧解析
2016/03/03 PHP
详解Yii2.0 rules验证规则集合
2017/03/21 PHP
php实现基于pdo的事务处理方法示例
2017/07/21 PHP
PHP使用 Pear 进行安装和卸载包的方法详解
2019/07/08 PHP
JS构建页面的DOM节点结构的实现代码
2011/12/09 Javascript
JS实现悬浮移动窗口(悬浮广告)的特效
2013/03/12 Javascript
js与运算符和或运算符的妙用
2014/02/14 Javascript
jQuery中animate的几种用法与注意事项
2016/12/12 Javascript
如何快速解决JS或Jquery ajax异步跨域的问题
2018/01/08 jQuery
angular2中Http请求原理与用法详解
2018/01/11 Javascript
jQuery插件实现弹性运动完整示例
2018/07/07 jQuery
angularJs自定义过滤器实现手机号信息隐藏的方法
2018/10/08 Javascript
python简单分割文件的方法
2015/07/30 Python
Python探索之自定义实现线程池
2017/10/27 Python
django使用html模板减少代码代码解析
2017/12/12 Python
Python实现的字典值比较功能示例
2018/01/08 Python
Python中pymysql 模块的使用详解
2019/08/12 Python
Python实现socket非阻塞通讯功能示例
2019/11/06 Python
PyCharm汉化安装及永久激活详细教程(靠谱)
2020/01/16 Python
2020年10款优秀的Python第三方库,看看有你中意的吗?
2021/01/12 Python
CSS3 3D旋转rotate效果实例介绍
2016/05/03 HTML / CSS
Jabra捷波朗美国官网:用于办公、车载和运动的无线蓝牙耳麦
2017/02/01 全球购物
阿迪达斯俄罗斯官方商城:adidas俄罗斯
2017/03/08 全球购物
台湾租车首选品牌:IWS艾维士租车
2019/05/03 全球购物
生产主管岗位职责
2013/11/10 职场文书
信息部岗位职责
2013/11/12 职场文书
大专生简历的自我评价
2013/11/26 职场文书
教师实习自我鉴定
2013/12/14 职场文书
党员群众路线对照检查材料
2014/08/31 职场文书
2014年民政局关于保密工作整改措施
2014/09/19 职场文书
基层党组织整改方案
2014/10/25 职场文书
2015年人力资源部工作总结
2015/04/30 职场文书
2016优秀护士求职自荐信
2016/01/28 职场文书
SQL实现LeetCode(178.分数排行)
2021/08/04 MySQL