python pandas库的安装和创建


Posted in Python onJanuary 10, 2019

pandas 对于数据分析的人员来说都是必须熟悉的第三方库,pandas 在科学计算上有很大的优势,特别是对于数据分析人员来说,相当的重要。python中有了Numpy ,但是Numpy 还是比较数学化,还需要有一种库能够更加具体的代表数据模型,我们都非常的清楚在数据处理中EXCEL 扮演着非常重要的作用,表格的模式是数据模型最好的一种展现形式。

pandas 是对表格数据模型在python上的模拟,它有简单的像SQL 对数据的处理,能够方便的在python上实现。

pandas 的安装

pandas 在python上的安装同样的使用pip进行:

pip install pandas

pandas 创建对象

pandas 有两种数据结构:SeriesDataFrame

Series

Series 像python中的数据list 一样,每个数据都有自己的索引。从list创建 Series

>>> import pandas as pd
>>> s1 = pd.Series([100,23,'bugingcode'])
>>> s1
0   100
1   23
2 bugingcode
dtype: object
>>>

Series 中添加相应的索引:

>>> import numpy as np
>>> ts = pd.Series(np.random.randn(365), index=np.arange(1,366))
>>> ts

在index中设置索引值是一个从1到366的值。

Series 的数据结构最像的是python中的字典,从字典中创建Series

sd = {'xiaoming':14,'tom':15,'john':13}
s4 = pd.Series(sd)

这时候可以看到Series 已经是自带索引index。

pandas 本身跟 python的另外一个第三方库Matplotlib 有很多的连接,Matplotlib 一个最经常用到的是用来展示数据的,如果还对Matplotlib 不了解的话,后面的章节会进行介绍,现在先拿过来直接用下,如果还没有安装的话,一样的用pip命令安装 pip install Matplotlib , 展示如下数据:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

ts = pd.Series(np.random.randn(365), index=np.arange(1,366))
ts.plot()
plt.show()

python pandas库的安装和创建

一个不规则的图形,在数据分析中,时间是一个重要的特性,因为很多数据都是跟时间是有关系的,销售额跟时间有关系,天气跟时间有关系。。。,在pandas 中也提供了关于时间的一些函数,使用date_range 生成一系列时间。

>>> pd.date_range('01/01/2017',periods=365)
DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
    '2017-01-05', '2017-01-06', '2017-01-07', '2017-01-08',
    '2017-01-09', '2017-01-10',
    ...
    '2017-12-22', '2017-12-23', '2017-12-24', '2017-12-25',
    '2017-12-26', '2017-12-27', '2017-12-28', '2017-12-29',
    '2017-12-30', '2017-12-31'],
    dtype='datetime64[ns]', length=365, freq='D')
>>>

之前我们的图形不规则,有一个原因是数据不是连续的,使用cumsum让数据连续:

如下:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

ts = pd.Series(np.random.randn(365), index=pd.date_range('01/01/2017',periods=365))
ts = ts.cumsum()
ts.plot()
plt.show()

python pandas库的安装和创建

DataFrame

DataFrame 相当于Series 一维的一个扩展,是一种二维的数据模型,相当于EXcel表格中的数据,有横竖两种坐标,横轴很Series 一样使用index,竖轴用columns 来确定,在建立DataFrame 对象的时候,需要确定三个元素:数据,横轴,竖轴。

df = pd.DataFrame(np.random.randn(8,6), index=pd.date_range('01/01/2018',periods=8),columns=list('ABCDEF'))
print df

数据如下:

A   B   C   D   E   F
2018-01-01 0.712636 0.546680 -0.847866 -0.629005 2.152686 0.563907
2018-01-02 -1.292799 1.122098 0.743293 0.656412 0.989738 2.468200
2018-01-03 1.762894 0.783614 -0.301468 0.289608 -0.780844 0.873074
2018-01-04 -0.818066 1.629542 -0.595451 0.910141 0.160980 0.306660
2018-01-05 2.008658 0.456592 -0.839597 1.615013 0.718422 -0.564584
2018-01-06 0.480893 0.724015 -1.076434 -0.253731 0.337147 -0.028212
2018-01-07 -0.672501 0.739550 -1.316094 1.118234 -1.456680 -0.601890
2018-01-08 -1.028436 -1.036542 -0.459044 1.321962 -0.198338 -1.034822

在数据分析的过程中,很常见的一种情况是数据直接从excel 或者cvs 过来,可以excel中读取数据到DataFrame ,数据在 DataFrame 中进行处理:

df = pd.read_excel('data.xlsx',sheet_name= 'Sheet1')
print df

同样的有保存数据到excelto_excel

处理cvs数据的函数是:read_cvsto_cvs ,处理HDF5的函数为 read_hdfto_hdf

访问DataFrame 可以跟二位数组一样的访问方式:

print df['A']

带出横轴标签:

2018-01-01 0.712636
2018-01-02 -1.292799
2018-01-03 1.762894
2018-01-04 -0.818066
2018-01-05 2.008658
2018-01-06 0.480893
2018-01-07 -0.672501
2018-01-08 -1.028436

同样的可以指定某一个元素:

print df['A']['2018-01-01']

对数组进行切片出来,认清横轴和纵轴:

>>> import pandas as pd
>>> df = pd.read_excel('data.xlsx',sheet_name= 'Sheet1')
>>> df[:][0:3]
     A   B   C   D   E   F
2018-01-01 0.712636 0.546680 -0.847866 -0.629005 2.152686 0.563907
2018-01-02 -1.292799 1.122098 0.743293 0.656412 0.989738 2.468200
2018-01-03 1.762894 0.783614 -0.301468 0.289608 -0.780844 0.873074
>>>

DataFrame 涉及的较多的函数,接下来会有更多的介绍。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python内置函数bin() oct()等实现进制转换
Dec 30 Python
Python字符串处理实现单词反转
Jun 14 Python
解决python中遇到字典里key值为None的情况,取不出来的问题
Oct 17 Python
3分钟学会一个Python小技巧
Nov 23 Python
pycharm运行程序时在Python console窗口中运行的方法
Dec 03 Python
Python对HTML转义字符进行反转义的实现方法
Apr 28 Python
python计算无向图节点度的实例代码
Nov 22 Python
python实现批量处理将图片粘贴到另一张图片上并保存
Dec 12 Python
matplotlib 对坐标的控制,加图例注释的操作
Apr 17 Python
Tensorflow实现将标签变为one-hot形式
May 22 Python
python源码剖析之PyObject详解
May 18 Python
PyTorch device与cuda.device用法
Apr 03 Python
Python绘制并保存指定大小图像的方法
Jan 10 #Python
解决Python plt.savefig 保存图片时一片空白的问题
Jan 10 #Python
Python使用pydub库对mp3与wav格式进行互转的方法
Jan 10 #Python
python利用ffmpeg进行录制屏幕的方法
Jan 10 #Python
Python3.6.2调用ffmpeg的方法
Jan 10 #Python
Django组件之cookie与session的使用方法
Jan 10 #Python
通过python的matplotlib包将Tensorflow数据进行可视化的方法
Jan 09 #Python
You might like
帖几个PHP的无限分类实现想法~
2007/01/02 PHP
php session 检测和注销
2009/03/16 PHP
解析php如何将日志写进syslog
2013/06/28 PHP
php设置session值和cookies的学习示例
2014/03/21 PHP
php5.3 goto函数介绍和示例
2014/03/21 PHP
PHP也能干大事之PHP中的编码解码详解
2015/04/20 PHP
Ubuntu中支持PHP5与PHP7双版本的简单实现
2018/08/19 PHP
PHP正则之正向预查与反向预查讲解与实例
2020/04/06 PHP
prototype 源码中文说明之 prototype.js
2006/09/22 Javascript
解决jquery插件冲突的问题
2014/01/23 Javascript
使用jsonp完美解决跨域问题
2014/11/27 Javascript
node.js中的fs.truncate方法使用说明
2014/12/15 Javascript
javascript获取网页宽高方法汇总
2015/07/19 Javascript
vue给input file绑定函数获取当前上传的对象完美实现方法
2017/12/15 Javascript
node打造微信个人号机器人的方法示例
2018/04/26 Javascript
vue学习笔记之过滤器的基本使用方法实例分析
2020/02/01 Javascript
vue实现给div绑定keyup的enter事件
2020/07/31 Javascript
[46:43]DOTA2上海特级锦标赛主赛事日 - 1 胜者组第一轮#2LGD VS MVP.Phx第二局
2016/03/02 DOTA
django模型中的字段和model名显示为中文小技巧分享
2014/11/18 Python
Python使用Flask框架获取当前查询参数的方法
2015/03/21 Python
简单谈谈Python中的json与pickle
2017/07/19 Python
Python随机生成均匀分布在三角形内或者任意多边形内的点
2017/12/14 Python
python 构造三维全零数组的方法
2018/11/12 Python
对Python生成汉字字库文字,以及转换为文字图片的实例详解
2019/01/29 Python
Python基于codecs模块实现文件读写案例解析
2020/05/11 Python
CSS3实现同时执行倾斜和旋转的动画效果
2016/10/27 HTML / CSS
CSS3+HTML5+JS 实现一个块的收缩与展开动画效果
2020/11/17 HTML / CSS
html+css3实现的登录界面
2020/12/09 HTML / CSS
阿玛尼意大利官网:Armani意大利
2018/10/30 全球购物
自考毕业生自我鉴定
2013/11/04 职场文书
个人应聘自我评价分享
2013/11/18 职场文书
销售人员获奖感言
2014/02/05 职场文书
村干部群众路线教育活动对照检查材料
2014/10/01 职场文书
详解Vue router路由
2021/11/20 Vue.js
十大最强妖精系宝可梦,哲尔尼亚斯实力最强,第五被称为大力士
2022/03/18 日漫
Android中View.post和Handler.post的关系
2022/06/05 Java/Android