编程 Python

Python pandas用法最全整理

Posted in Python onAugust 04, 2019

1、首先导入pandas库，一般都会用到numpy库，所以我们先导入备用：

import numpy as npimport pandas as pd

2、导入CSV或者xlsx文件：

df = pd.DataFrame(pd.read_csv('name.csv',header=1))df = pd.DataFrame(pd.read_excel('name.xlsx'))

3、用pandas创建数据表：

df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006], "date":pd.date_range('20130102', periods=6), "city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '], "age":[23,44,54,32,34,32], "category":['100-A','100-B','110-A','110-C','210-A','130-F'], "price":[1200,np.nan,2133,5433,np.nan,4432]},columns =['id','date','city','category','age','price'])

二、数据表信息查看

1、维度查看：

df.shape

2、数据表基本信息（维度、列名称、数据格式、所占空间等）：

df.info()

3、每一列数据的格式：

df.dtypes

4、某一列格式：

df['B'].dtype

5、空值：

df.isnull()

6、查看某一列空值：

df.isnull()

7、查看某一列的唯一值：

df['B'].unique()

8、查看数据表的值：

df.values

9、查看列名称：

df.columns

10、查看前10行数据、后10行数据：

df.head() #默认前10行数据df.tail()  #默认后10 行数据

相关推荐：《Python视频教程》

三、数据表清洗

1、用数字0填充空值：

df.fillna(value=0)

2、使用列prince的均值对NA进行填充：

df['prince'].fillna(df['prince'].mean())

3、清楚city字段的字符空格：

df['city']=df['city'].map(str.strip)

4、大小写转换：

df['city']=df['city'].str.lower()

5、更改数据格式：

df['price'].astype('int')

6、更改列名称：

df.rename(columns={'category': 'category-size'})

7、删除后出现的重复值：

df['city'].drop_duplicates()

8、删除先出现的重复值：

df['city'].drop_duplicates(keep='last')

9、数据替换：

df['city'].replace('sh', 'shanghai')

四、数据预处理

df1=pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006,1007,1008], "gender":['male','female','male','female','male','female','male','female'],"pay":['Y','N','Y','Y','N','Y','N','Y',],"m-point":[10,12,20,40,40,40,30,20]})

1、数据表合并

df_inner=pd.merge(df,df1,how='inner') # 匹配合并，交集df_left=pd.merge(df,df1,how='left')    #df_right=pd.merge(df,df1,how='right')df_outer=pd.merge(df,df1,how='outer') #并集

2、设置索引列

df_inner.set_index('id')

3、按照特定列的值排序：

df_inner.sort_values(by=['age'])

4、按照索引列排序：

df_inner.sort_index()

5、如果prince列的值>3000，group列显示high，否则显示low：

df_inner['group'] = np.where(df_inner['price'] > 3000,'high','low')

6、对复合多个条件的数据进行分组标记

df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price'] >= 4000), 'sign']=1

7、对category字段的值依次进行分列，并创建数据表，索引值为df_inner的索引列，列名称为category和size

pd.DataFrame((x.split('-') for x in df_inner['category']),index=df_inner.index,columns=['category','size']))

8、将完成分裂后的数据表和原df_inner数据表进行匹配

df_inner=pd.merge(df_inner,split,right_index=True, left_index=True)

五、数据提取

主要用到的三个函数：loc,iloc和ix，loc函数按标签值进行提取，iloc按位置进行提取，ix可以同时按标签和位置进行提取。

1、按索引提取单行的数值

df_inner.loc[3]

2、按索引提取区域行数值

df_inner.iloc[0:5]

3、重设索引

df_inner.reset_index()

4、设置日期为索引

df_inner=df_inner.set_index('date')

5、提取4日之前的所有数据

df_inner[:'2013-01-04']

6、使用iloc按位置区域提取数据

df_inner.iloc[:3,:2] #冒号前后的数字不再是索引的标签名称，而是数据所在的位置，从0开始，前三行，前两列。

7、适应iloc按位置单独提起数据

df_inner.iloc[[0,2,5],[4,5]] #提取第0、2、5行，4、5列

8、使用ix按索引标签和位置混合提取数据

df_inner.ix[:'2013-01-03',:4] #2013-01-03号之前，前四列数据

9、判断city列的值是否为北京

df_inner['city'].isin(['beijing'])

10、判断city列里是否包含beijing和shanghai，然后将符合条件的数据提取出来

df_inner.loc[df_inner['city'].isin(['beijing','shanghai'])]

11、提取前三个字符，并生成数据表

pd.DataFrame(category.str[:3])

六、数据筛选

使用与、或、非三个条件配合大于、小于、等于对数据进行筛选，并进行计数和求和。

1、使用“与”进行筛选

df_inner.loc[(df_inner['age'] > 25) & (df_inner['city'] == 'beijing'), ['id','city','age','category','gender']]

2、使用“或”进行筛选

df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beijing'), ['id','city','age','category','gender']].sort(['age'])

3、使用“非”条件进行筛选

df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id'])

4、对筛选后的数据按city列进行计数

df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id']).city.count()

5、使用query函数进行筛选

df_inner.query('city == ["beijing", "shanghai"]')

6、对筛选后的结果按prince进行求和

df_inner.query('city == ["beijing", "shanghai"]').price.sum()

七、数据汇总

主要函数是groupby和pivote_table

1、对所有的列进行计数汇总

df_inner.groupby('city').count()

2、按城市对id字段进行计数

df_inner.groupby('city')['id'].count()

3、对两个字段进行汇总计数

df_inner.groupby(['city','size'])['id'].count()

4、对city字段进行汇总，并分别计算prince的合计和均值

df_inner.groupby('city')['price'].agg([len,np.sum, np.mean])

八、数据统计

数据采样，计算标准差，协方差和相关系数

1、简单的数据采样

df_inner.sample(n=3)

2、手动设置采样权重

weights = [0, 0, 0, 0, 0.5, 0.5]df_inner.sample(n=2, weights=weights)

3、采样后不放回

df_inner.sample(n=6, replace=False)

4、采样后放回

df_inner.sample(n=6, replace=True)

5、数据表描述性统计

df_inner.describe().round(2).T #round函数设置显示小数位，T表示转置

6、计算列的标准差

df_inner['price'].std()

7、计算两个字段间的协方差

df_inner['price'].cov(df_inner['m-point'])

8、数据表中所有字段间的协方差

df_inner.cov()

9、两个字段的相关性分析

df_inner['price'].corr(df_inner['m-point']) #相关系数在-1到1之间，接近1为正相关，接近-1为负相关，0为不相关

10、数据表的相关性分析

df_inner.corr()

九、数据输出

分析后的数据可以输出为xlsx格式和csv格式

1、写入Excel

df_inner.to_excel('excel_to_python.xlsx', sheet_name='bluewhale_cc')

2、写入到CSV

df_inner.to_csv('excel_to_python.csv')

以上就是最全的Python pandas用法总结的详细内容，感谢大家的阅读和对三水点靠木的支持。

Python pandas用法最全整理

- Author -

爱喝马黛茶的安东尼

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

利用一个简单的例子窥探CPython内核的运行机制

Mar 30 Python

Python黑魔法@property装饰器的使用技巧解析

Jun 16 Python

Python中文分词工具之结巴分词用法实例总结【经典案例】

Apr 15 Python

Python SQLite3简介

Feb 22 Python

Dlib+OpenCV深度学习人脸识别的方法示例

May 14 Python

详解Python3之数据指纹MD5校验与对比

Jun 11 Python

pytorch使用指定GPU训练的实例

Aug 19 Python

在Python中画图(基于Jupyter notebook的魔法函数)

Oct 28 Python

Python求解排列中的逆序数个数实例

May 03 Python

如何打包Python Web项目实现免安装一键启动的方法

May 21 Python

Python学习工具jupyter notebook安装及用法解析

Oct 23 Python

Python OpenCV实现传统图片格式与base64转换

Jun 13 Python

python匿名函数用法实例分析

Aug 03 #Python

pycharm编写spark程序，导入pyspark包的3中实现方法

Aug 02 #Python

Python适配器模式代码实现解析

Aug 02 #Python

Python3网络爬虫开发实战之极验滑动验证码的识别

Aug 02 #Python

pandas中DataFrame修改index、columns名的方法示例

Aug 02 #Python

pandas DataFrame的修改方法(值、列、索引)

Aug 02 #Python

Flask框架钩子函数功能与用法分析

Aug 02 #Python

You might like

PHP stream_context_create()作用和用法分析

2011/03/29 PHP

php语言流程控制中的主动与被动

2012/11/05 PHP

js动态在form上插入enctype=multipart/form-data的问题

2012/05/24 Javascript

jquery实现marquee效果(文字或者图片的水平垂直滚动)

2013/01/07 Javascript

javascript真的不难-回顾一下基础知识

2013/01/15 Javascript

JS控件ASP.NET的treeview控件全选或者取消(示例代码)

2013/12/16 Javascript

javascript框架设计之框架分类及主要功能

2015/06/23 Javascript

理解javascript定时器中的setTimeout与setInterval

2016/02/23 Javascript

Javascript实现倒计时（防页面刷新）实例

2016/12/13 Javascript

Three.js基础部分学习

2017/01/08 Javascript

jQuery实现鼠标跟随效果

2017/02/20 Javascript

基于JS代码实现简单易用的倒计时 x 天 x 时 x 分 x 秒效果

2017/07/13 Javascript

Node.Js生成比特币地址代码解析

2018/04/21 Javascript

详解基于node.js的脚手架工具开发经历

2019/01/28 Javascript

layui form表单提交之后重新加载数据表格的方法

2019/09/11 Javascript

实用的 vue tags 创建缓存导航的过程实现

2020/12/03 Vue.js

python 简易计算器程序，代码就几行

2009/08/29 Python

Python中的jquery PyQuery库使用小结

2014/05/13 Python

Python爬取附近餐馆信息代码示例

2017/12/09 Python

python多进程提取处理大量文本的关键词方法

2018/06/05 Python

在pycharm中使用git版本管理以及同步github的方法

2019/01/16 Python

Django实现学员管理系统

2019/02/26 Python

python3 字符串/列表/元组（str/list/tuple）相互转换方法及join()函数的使用

2019/04/03 Python

python实现websocket的客户端压力测试

2019/06/25 Python

Python虚拟环境的原理及使用详解

2019/07/02 Python

在python中求分布函数相关的包实例

2020/04/15 Python

python框架flask入门之环境搭建及开启调试

2020/06/07 Python

python生成xml时规定dtd实例方法

2020/09/21 Python

英国电视和家用电器购物网站：rlrdistribution.co.uk

2018/11/20 全球购物

2015大学生入党个人自传

2015/06/26 职场文书

教师旷工检讨书

2015/08/15 职场文书

导游词之无锡华莱坞

2019/12/02 职场文书

golang import自定义包方式

2021/04/29 Golang

python tqdm用法及实例详解

2021/06/16 Python

动画《新网球王子 U-17 WORLD CUP》希腊队PV公开

2022/04/02 日漫

使用Python通过企业微信应用给企业成员发消息

2022/04/18 Python