python pandas库的安装和创建


Posted in Python onJanuary 10, 2019

pandas 对于数据分析的人员来说都是必须熟悉的第三方库,pandas 在科学计算上有很大的优势,特别是对于数据分析人员来说,相当的重要。python中有了Numpy ,但是Numpy 还是比较数学化,还需要有一种库能够更加具体的代表数据模型,我们都非常的清楚在数据处理中EXCEL 扮演着非常重要的作用,表格的模式是数据模型最好的一种展现形式。

pandas 是对表格数据模型在python上的模拟,它有简单的像SQL 对数据的处理,能够方便的在python上实现。

pandas 的安装

pandas 在python上的安装同样的使用pip进行:

pip install pandas

pandas 创建对象

pandas 有两种数据结构:SeriesDataFrame

Series

Series 像python中的数据list 一样,每个数据都有自己的索引。从list创建 Series

>>> import pandas as pd
>>> s1 = pd.Series([100,23,'bugingcode'])
>>> s1
0   100
1   23
2 bugingcode
dtype: object
>>>

Series 中添加相应的索引:

>>> import numpy as np
>>> ts = pd.Series(np.random.randn(365), index=np.arange(1,366))
>>> ts

在index中设置索引值是一个从1到366的值。

Series 的数据结构最像的是python中的字典,从字典中创建Series

sd = {'xiaoming':14,'tom':15,'john':13}
s4 = pd.Series(sd)

这时候可以看到Series 已经是自带索引index。

pandas 本身跟 python的另外一个第三方库Matplotlib 有很多的连接,Matplotlib 一个最经常用到的是用来展示数据的,如果还对Matplotlib 不了解的话,后面的章节会进行介绍,现在先拿过来直接用下,如果还没有安装的话,一样的用pip命令安装 pip install Matplotlib , 展示如下数据:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

ts = pd.Series(np.random.randn(365), index=np.arange(1,366))
ts.plot()
plt.show()

python pandas库的安装和创建

一个不规则的图形,在数据分析中,时间是一个重要的特性,因为很多数据都是跟时间是有关系的,销售额跟时间有关系,天气跟时间有关系。。。,在pandas 中也提供了关于时间的一些函数,使用date_range 生成一系列时间。

>>> pd.date_range('01/01/2017',periods=365)
DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
    '2017-01-05', '2017-01-06', '2017-01-07', '2017-01-08',
    '2017-01-09', '2017-01-10',
    ...
    '2017-12-22', '2017-12-23', '2017-12-24', '2017-12-25',
    '2017-12-26', '2017-12-27', '2017-12-28', '2017-12-29',
    '2017-12-30', '2017-12-31'],
    dtype='datetime64[ns]', length=365, freq='D')
>>>

之前我们的图形不规则,有一个原因是数据不是连续的,使用cumsum让数据连续:

如下:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

ts = pd.Series(np.random.randn(365), index=pd.date_range('01/01/2017',periods=365))
ts = ts.cumsum()
ts.plot()
plt.show()

python pandas库的安装和创建

DataFrame

DataFrame 相当于Series 一维的一个扩展,是一种二维的数据模型,相当于EXcel表格中的数据,有横竖两种坐标,横轴很Series 一样使用index,竖轴用columns 来确定,在建立DataFrame 对象的时候,需要确定三个元素:数据,横轴,竖轴。

df = pd.DataFrame(np.random.randn(8,6), index=pd.date_range('01/01/2018',periods=8),columns=list('ABCDEF'))
print df

数据如下:

A   B   C   D   E   F
2018-01-01 0.712636 0.546680 -0.847866 -0.629005 2.152686 0.563907
2018-01-02 -1.292799 1.122098 0.743293 0.656412 0.989738 2.468200
2018-01-03 1.762894 0.783614 -0.301468 0.289608 -0.780844 0.873074
2018-01-04 -0.818066 1.629542 -0.595451 0.910141 0.160980 0.306660
2018-01-05 2.008658 0.456592 -0.839597 1.615013 0.718422 -0.564584
2018-01-06 0.480893 0.724015 -1.076434 -0.253731 0.337147 -0.028212
2018-01-07 -0.672501 0.739550 -1.316094 1.118234 -1.456680 -0.601890
2018-01-08 -1.028436 -1.036542 -0.459044 1.321962 -0.198338 -1.034822

在数据分析的过程中,很常见的一种情况是数据直接从excel 或者cvs 过来,可以excel中读取数据到DataFrame ,数据在 DataFrame 中进行处理:

df = pd.read_excel('data.xlsx',sheet_name= 'Sheet1')
print df

同样的有保存数据到excelto_excel

处理cvs数据的函数是:read_cvsto_cvs ,处理HDF5的函数为 read_hdfto_hdf

访问DataFrame 可以跟二位数组一样的访问方式:

print df['A']

带出横轴标签:

2018-01-01 0.712636
2018-01-02 -1.292799
2018-01-03 1.762894
2018-01-04 -0.818066
2018-01-05 2.008658
2018-01-06 0.480893
2018-01-07 -0.672501
2018-01-08 -1.028436

同样的可以指定某一个元素:

print df['A']['2018-01-01']

对数组进行切片出来,认清横轴和纵轴:

>>> import pandas as pd
>>> df = pd.read_excel('data.xlsx',sheet_name= 'Sheet1')
>>> df[:][0:3]
     A   B   C   D   E   F
2018-01-01 0.712636 0.546680 -0.847866 -0.629005 2.152686 0.563907
2018-01-02 -1.292799 1.122098 0.743293 0.656412 0.989738 2.468200
2018-01-03 1.762894 0.783614 -0.301468 0.289608 -0.780844 0.873074
>>>

DataFrame 涉及的较多的函数,接下来会有更多的介绍。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python 将字符串转换成字典dict
Mar 24 Python
Python中用Ctrl+C终止多线程程序的问题解决
Mar 30 Python
python处理html转义字符的方法详解
Jul 01 Python
浅谈Python2获取中文文件名的编码问题
Jan 09 Python
详解Python安装tesserocr遇到的各种问题及解决办法
Mar 07 Python
在python中用print()输出多个格式化参数的方法
Jul 16 Python
PyQt5基本控件使用之消息弹出、用户输入、文件对话框的使用方法
Aug 06 Python
Django项目后台不挂断运行的方法
Aug 31 Python
Python之Class&Object用法详解
Dec 25 Python
关于Pytorch的MNIST数据集的预处理详解
Jan 10 Python
Python try except异常捕获机制原理解析
Apr 18 Python
python 自动刷新网页的两种方法
Apr 20 Python
Python绘制并保存指定大小图像的方法
Jan 10 #Python
解决Python plt.savefig 保存图片时一片空白的问题
Jan 10 #Python
Python使用pydub库对mp3与wav格式进行互转的方法
Jan 10 #Python
python利用ffmpeg进行录制屏幕的方法
Jan 10 #Python
Python3.6.2调用ffmpeg的方法
Jan 10 #Python
Django组件之cookie与session的使用方法
Jan 10 #Python
通过python的matplotlib包将Tensorflow数据进行可视化的方法
Jan 09 #Python
You might like
PHP读MYSQL中文乱码的解决方法
2006/12/17 PHP
php 多线程上下文中安全写文件实现代码
2009/12/28 PHP
推荐一款MAC OS X 下php集成开发环境mamp
2014/11/08 PHP
PHP网站建设的流程与步骤分享
2015/09/25 PHP
学习php设计模式 php实现享元模式(flyweight)
2015/12/07 PHP
Yii2下session跨域名共存的解决方案
2017/02/04 PHP
PHP高精确度运算BC函数库实例详解
2017/08/15 PHP
基于 Swoole 的微信扫码登录功能实现代码
2018/01/15 PHP
jquery 得到当前页面高度和宽度的两个函数
2010/02/21 Javascript
jQuery获取css z-index在各种浏览器中的返回值
2010/09/15 Javascript
fancybox1.3.1 基于Jquery的插件在IE中图片显示问题
2010/10/01 Javascript
JavaScript flash复制库类 Zero Clipboard
2011/01/17 Javascript
用客户端js实现带省略号的分页
2013/04/27 Javascript
js调用后台servlet方法实例
2013/06/09 Javascript
浅析JS原型继承与类的继承
2016/04/07 Javascript
用JavaScript和jQuery实现瀑布流
2017/03/19 Javascript
微信小程序 实现列表项滑动显示删除按钮的功能
2017/04/13 Javascript
了解VUE的render函数的使用
2017/06/08 Javascript
JavaScript类的继承操作实例总结
2018/12/20 Javascript
JS实现求5的阶乘示例
2019/01/21 Javascript
深入理解vue-class-component源码阅读
2019/02/18 Javascript
微信小程序云开发如何使用云函数生成二维码
2019/05/18 Javascript
layui 动态设置checbox 选中状态的例子
2019/09/02 Javascript
javascript实现固定侧边栏
2021/02/09 Javascript
python中base64加密解密方法实例分析
2015/05/16 Python
Python 25行代码实现的RSA算法详解
2018/04/10 Python
用Python实现最速下降法求极值的方法
2019/07/10 Python
解决pip install psycopg2出错问题
2020/07/09 Python
详解python 内存优化
2020/08/17 Python
XML文档面试题
2015/08/05 面试题
抽象类和接口的区别
2012/09/19 面试题
物业管理员岗位职责范文
2013/11/25 职场文书
简历的个人自我评价范文
2014/01/03 职场文书
乡村卫生服务一体化管理实施方案
2014/03/30 职场文书
通知的格式范文
2015/04/27 职场文书
Python游戏开发实例之graphics实现AI五子棋
2021/11/01 Python