编程 Python

Python常用数据分析模块原理解析

Posted in Python onJuly 20, 2020

前言

python是一门优秀的编程语言，而是python成为数据分析软件的是因为python强大的扩展模块。也就是这些python的扩展包让python可以做数据分析，主要包括numpy，scipy，pandas，matplotlib，scikit-learn等等诸多强大的模块，在结合上ipython交互工具，以及python强大的爬虫数据获取能力，字符串处理能力，让python成为完整的数据分析工具。

Python常用数据分析模块原理解析

numpy

官网：https://www.scipy.org/

NumPy（Numerical Python的简称）是高性能科学计算和数据分析的基础包。NumPy最重要的一个特点就是其N维数组对象（即ndarray），该对象是一个快速而灵活的大数据集容器。可以利用这种数组对整块数据执行一些数学运算，比python自带的数组以及元组效率更高，其语法跟变量元素之间的运算一样，无需进行循环操作。

在使用python进行数据分析的过程中，我们大部分时候是不会直接使用numpy包，而是其他包要用到numpy。可以说numpy是整个python数据分析工作的基石。

举个简单的案例，我们要计算100000个随机数的值，如果传统编程需要写循环，用了2.2s，而使用numpy数据结构，则可以进行向量化操作，无需循环，只需要28.2ms节约大量时间。

In [1]: import numpy
In [2]: my_arr = np.arange(1000000)
In [3]: my_list = list(range(1000000))
In [4]: %time for _ in range(10): my_arr2 = my_arr * 2
Wall time: 28.2 ms
In [5]: %time for _ in range(10): my_list2 = [x * 2 for x in my_list]
Wall time: 2.2 s

pandas

官网：https://pandas.pydata.org/

Python Data Analysis Library，可根据需要帮助组织各种参数的数据。pandas基于numpy底层数据结构。让python成为类似Excel，R等统计学软件，主要就是pandas的功劳。pandas在python中实现了各种数据的计算，分组计算，添加删除，排序，筛选，抽样等都能工作。使Pandas成为数据科学家中最受欢迎的库。

pandas主要包含两种数据结构：Series与DataFrame。Series是一种类似于以为数组的对象，它由一组数据以及与之相关的数据标签组成，仅有一组数据即可产生最简单的Series。Series类似于R中的向量，属于以为数据。Series可以构成二维的DataFrame。行为记录值，列为观测值。如果熟悉R中的数据框DataFrame，在使用pandas则会轻松上手，因为作者自己说pandas的DataFrame就是模仿R的数据框。

scipy

官网：https://www.scipy.org/

scipy是一个用于数学、科学、工程领域的常用软件包，可以处理插值、积分、优化、图像处理、常微分方程数值解的求解、信号处理等问题。它用于有效计算Numpy矩阵，使Numpy和Scipy协同工作，高效解决问题。
Scipy是由针对特定任务的子模块组成：

Python常用数据分析模块原理解析

matplotlib

官网：https://matplotlib.org/

matplotlib是python中优秀的数据可视化的包，根据命名就可以看到，它其实是一个matlib的plot库，也就是利用python将matlib的绘图功能实现了一遍。如果你熟悉matlib绘图，那么将直接上手。matplotlib是Python编程语言及其数值数学扩展包 NumPy的可视化操作界面。它为利用通用的图形用户界面工具包，如Tkinter, wxPython, Qt或GTK+向应用程序嵌入式绘图提供了应用程序接口（API）。

plotnine

官网：https://plotnine.readthedocs.io/en/stable/

如果你不熟悉matlib，而是从R转到python，可能不太喜欢matplotlib的绘图模式和风格，觉得不如R绘图方便。而且R还有ggplot2包。那么plotnine则是将ggplot2移植到python上，在python上完全重现ggplot2的功能。如果你熟悉ggplot2的语法，直接上手。不过，我倒是觉得这个工作意义不大，这属于重新发明轮子，后面如果ggplot2在更新了，二者之间还是会有一些差别，用户会有些困扰。当然，这样的问题仁者见仁，愚者见愚。聊胜于无，如果想在 python环境中完成全部工作，有了这个包还是非常不错的。

Python常用数据分析模块原理解析

scikit-learn

官网：https://scikit-learn.org/stable/

有很多人不是天天喜欢三句话不离大数据，机器学习，人工智能吗。那么scikit-learn则是完成python大数据机器学习的包。scikit-Learn是python数据分析中非常重要的一个模块，它是一个基于NumPy和SciPy构建的开源机器学习工具包。它具有常用的ML算法，可用于预处理，分类，回归以及聚类。算法包括[支持向量机]( support vector machines，ridge回归，网格搜索算法(Grid Search algorithm) ，k均值聚类等等。另外还有样本数据集。API易学易用。在几乎所有平台上的良好性能，它在学术和商业用途中都很受欢迎。

Python常用数据分析模块原理解析

其他：

除了以上包之外，python还有很多很多其他有关数据分析的包，不胜枚举，比如图片识别的opencv，google机器学习开源库tensorflow，PyTorch等等，一个崭新的世界等待你去发现。但是前提是前面基础这些包熟悉了，以及有最核心的计算机以及统计学基础，否则就是无水之源，无木之本，你所谓的人工智能，只能是人工智障。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python常用数据分析模块原理解析

- Author -

吃着东西不想停

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

详解Python程序与服务器连接的WSGI接口

Apr 29 Python

Python中asyncore异步模块的用法及实现httpclient的实例

Jun 28 Python

Python更新数据库脚本两种方法及对比介绍

Jul 27 Python

利用Python暴力破解zip文件口令的方法详解

Dec 21 Python

Django中的Signal代码详解

Feb 05 Python

Python多进程原理与用法分析

Aug 21 Python

Python求两点之间的直线距离(2种实现方法)

Jul 07 Python

Django admin model 汉化显示文字的实现方法

Aug 12 Python

python中count函数简单的实例讲解

Feb 06 Python

Django实现后台上传并显示图片功能

May 29 Python

keras 实现轻量级网络ShuffleNet教程

Jun 19 Python

使用pandas模块实现数据的标准化操作

May 14 Python

Python+Kepler.gl实现时间轮播地图过程解析

Jul 20 #Python

用pandas划分数据集实现训练集和测试集

Jul 20 #Python

Python数据可视化实现漏斗图过程图解

Jul 20 #Python

浅谈pandas dataframe对除数是零的处理

Jul 20 #Python

为什么说python更适合树莓派编程

Jul 20 #Python

Python faker生成器生成虚拟数据代码实例

Jul 20 #Python

Python DataFrame使用drop_duplicates()函数去重(保留重复值，取重复值)

Jul 20 #Python

You might like

php 什么是PEAR？(第二篇)

2009/03/19 PHP

逆序二维数组插入一元素的php代码

2012/06/08 PHP

php二分查找二种实现示例

2014/03/12 PHP

解决PHP里大量数据循环时内存耗尽的方法

2015/10/10 PHP

php文件缓存方法总结

2016/03/16 PHP

PHP简单读取PDF页数的实现方法

2016/07/21 PHP

php之可变函数的实例详解

2017/09/13 PHP

JavaScript 字符串乘法

2009/08/20 Javascript

node.js中的console用法总结

2014/12/15 Javascript

AngularJS中取消对HTML片段转义的方法例子

2015/01/04 Javascript

javascript中Date对象应用之简易日历实现

2016/07/12 Javascript

Angularjs使用ng-repeat中$even和$odd属性的注意事项

2016/12/31 Javascript

前端框架学习总结之Angular、React与Vue的比较详解

2017/03/14 Javascript

JavaScript插件Tab选项卡效果

2017/11/14 Javascript

使用json-server简单完成CRUD模拟后台数据的方法

2018/07/12 Javascript

Vue匿名插槽与作用域插槽的合并和覆盖行为

2019/04/22 Javascript

vue elementUI 表单校验的实现代码（多层嵌套）

2019/11/06 Javascript

jQuery实现鼠标放置名字上显示详细内容气泡提示框效果的方法分析

2020/04/04 jQuery

vue element 关闭当前tab 跳转到上一路由操作

2020/07/22 Javascript

js实现简单的点名器随机色实例代码

2020/09/20 Javascript

vue 实现element-ui中的加载中状态

2020/11/11 Javascript

利用Python绘制数据的瀑布图的教程

2015/04/07 Python

python实现简单ftp客户端的方法

2015/06/28 Python

python+rsync精确同步指定格式文件

2019/08/29 Python

Django 解决阿里云部署同步数据库报错的问题

2020/05/14 Python

TensorFlow keras卷积神经网络添加L2正则化方式

2020/05/22 Python

Python3合并两个有序数组代码实例

2020/08/11 Python

详解Selenium 元素定位和WebDriver常用方法

2020/12/04 Python

美国专注于健康商品的网站：eVitamins

2017/01/23 全球购物

健身场所或家用健身设备：Life Fitness

2017/11/01 全球购物

Yahoo-PHP面试题2

2014/12/06 面试题

护理工作感言

2014/01/16 职场文书

客房领班岗位职责

2015/02/11 职场文书

2016年小学中秋节活动总结

2016/04/05 职场文书

golang 接口嵌套实现复用的操作

2021/04/29 Golang

Python借助with语句实现代码段只执行有限次

2022/03/23 Python