编程 Python

python之pandas用法大全

Posted in Python onMarch 13, 2018

一、生成数据表

1、首先导入pandas库，一般都会用到numpy库，所以我们先导入备用：

import numpy as np
import pandas as pd

2、导入CSV或者xlsx文件：

df = pd.DataFrame(pd.read_csv('name.csv',header=1))
df = pd.DataFrame(pd.read_excel('name.xlsx'))

3、用pandas创建数据表：

df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006], 
 "date":pd.date_range('20130102', periods=6),
 "city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
 "age":[23,44,54,32,34,32],
 "category":['100-A','100-B','110-A','110-C','210-A','130-F'],
 "price":[1200,np.nan,2133,5433,np.nan,4432]},
 columns =['id','date','city','category','age','price'])

二、数据表信息查看

1、维度查看：

df.shape

2、数据表基本信息（维度、列名称、数据格式、所占空间等）：

df.info()

3、每一列数据的格式：

df.dtypes

4、某一列格式：

df['B'].dtype

5、空值：

df.isnull()

6、查看某一列空值：

df.isnull()

7、查看某一列的唯一值：

df['B'].unique()

8、查看数据表的值：

df.values

9、查看列名称：

df.columns

10、查看前10行数据、后10行数据：

df.head() #默认前10行数据
df.tail()  #默认后10 行数据

三、数据表清洗

1、用数字0填充空值：

df.fillna(value=0)

2、使用列prince的均值对NA进行填充：

df['prince'].fillna(df['prince'].mean())

3、清楚city字段的字符空格：

df['city']=df['city'].map(str.strip)

4、大小写转换：

df['city']=df['city'].str.lower()

5、更改数据格式：

df['price'].astype('int')

6、更改列名称：

df.rename(columns={'category': 'category-size'})

7、删除后出现的重复值：

df['city'].drop_duplicates()

8、删除先出现的重复值：

df['city'].drop_duplicates(keep='last')

9、数据替换：

df['city'].replace('sh', 'shanghai')

四、数据预处理

df1=pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006,1007,1008], 
"gender":['male','female','male','female','male','female','male','female'],
"pay":['Y','N','Y','Y','N','Y','N','Y',],
"m-point":[10,12,20,40,40,40,30,20]})

1、数据表合并

df_inner=pd.merge(df,df1,how='inner') # 匹配合并，交集
df_left=pd.merge(df,df1,how='left')    #
df_right=pd.merge(df,df1,how='right')
df_outer=pd.merge(df,df1,how='outer') #并集

2、设置索引列

df_inner.set_index('id')

3、按照特定列的值排序：

df_inner.sort_values(by=['age'])

4、按照索引列排序：

df_inner.sort_index()

5、如果prince列的值>3000，group列显示high，否则显示low：

df_inner['group'] = np.where(df_inner['price'] > 3000,'high','low')

6、对复合多个条件的数据进行分组标记

df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price'] >= 4000), 'sign']=1

7、对category字段的值依次进行分列，并创建数据表，索引值为df_inner的索引列，列名称为category和size

pd.DataFrame((x.split('-') for x in df_inner['category']),index=df_inner.index,columns=['category','size']))

8、将完成分裂后的数据表和原df_inner数据表进行匹配

df_inner=pd.merge(df_inner,split,right_index=True, left_index=True)

五、数据提取
主要用到的三个函数：loc,iloc和ix，loc函数按标签值进行提取，iloc按位置进行提取，ix可以同时按标签和位置进行提取。
1、按索引提取单行的数值

df_inner.loc[3]

2、按索引提取区域行数值

df_inner.iloc[0:5]

3、重设索引

df_inner.reset_index()

4、设置日期为索引

df_inner=df_inner.set_index('date')

5、提取4日之前的所有数据

df_inner[:'2013-01-04']

6、使用iloc按位置区域提取数据

df_inner.iloc[:3,:2] #冒号前后的数字不再是索引的标签名称，而是数据所在的位置，从0开始，前三行，前两列。

7、适应iloc按位置单独提起数据

df_inner.iloc[[0,2,5],[4,5]] #提取第0、2、5行，4、5列

8、使用ix按索引标签和位置混合提取数据

df_inner.ix[:'2013-01-03',:4] #2013-01-03号之前，前四列数据

9、判断city列的值是否为北京

df_inner['city'].isin(['beijing'])

10、判断city列里是否包含beijing和shanghai，然后将符合条件的数据提取出来

df_inner.loc[df_inner['city'].isin(['beijing','shanghai'])]

11、提取前三个字符，并生成数据表

pd.DataFrame(category.str[:3])

六、数据筛选
使用与、或、非三个条件配合大于、小于、等于对数据进行筛选，并进行计数和求和。
1、使用“与”进行筛选

df_inner.loc[(df_inner['age'] > 25) & (df_inner['city'] == 'beijing'), ['id','city','age','category','gender']]

2、使用“或”进行筛选

df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beijing'), ['id','city','age','category','gender']].sort(['age'])

3、使用“非”条件进行筛选

df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id'])

4、对筛选后的数据按city列进行计数

df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id']).city.count()

5、使用query函数进行筛选

df_inner.query('city == ["beijing", "shanghai"]')

6、对筛选后的结果按prince进行求和

df_inner.query('city == ["beijing", "shanghai"]').price.sum()

七、数据汇总
主要函数是groupby和pivote_table
1、对所有的列进行计数汇总

df_inner.groupby('city').count()

2、按城市对id字段进行计数

df_inner.groupby('city')['id'].count()

3、对两个字段进行汇总计数

df_inner.groupby(['city','size'])['id'].count()

4、对city字段进行汇总，并分别计算prince的合计和均值

df_inner.groupby('city')['price'].agg([len,np.sum, np.mean])

八、数据统计
数据采样，计算标准差，协方差和相关系数
1、简单的数据采样

df_inner.sample(n=3)

2、手动设置采样权重

weights = [0, 0, 0, 0, 0.5, 0.5]
df_inner.sample(n=2, weights=weights)

3、采样后不放回

df_inner.sample(n=6, replace=False)

4、采样后放回

df_inner.sample(n=6, replace=True)

5、数据表描述性统计

df_inner.describe().round(2).T #round函数设置显示小数位，T表示转置

6、计算列的标准差

df_inner['price'].std()

7、计算两个字段间的协方差

df_inner['price'].cov(df_inner['m-point'])

8、数据表中所有字段间的协方差

df_inner.cov()

9、两个字段的相关性分析

df_inner['price'].corr(df_inner['m-point']) #相关系数在-1到1之间，接近1为正相关，接近-1为负相关，0为不相关

10、数据表的相关性分析

df_inner.corr()

九、数据输出
分析后的数据可以输出为xlsx格式和csv格式
1、写入Excel

df_inner.to_excel('excel_to_python.xlsx', sheet_name='bluewhale_cc')

2、写入到CSV

df_inner.to_csv('excel_to_python.csv')

以上就是关于pandas的基本用法，大家可以参考下

python之pandas用法大全

- Author -

wdc

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

有关wxpython pyqt内存占用问题分析

Jun 09 Python

Python实现115网盘自动下载的方法

Sep 30 Python

python使用matplotlib绘制折线图教程

Feb 08 Python

python pandas写入excel文件的方法示例

Jun 25 Python

Django ORM 常用字段与不常用字段汇总

Aug 09 Python

PyTorch的SoftMax交叉熵损失和梯度用法

Jan 15 Python

python GUI库图形界面开发之PyQt5信号与槽基本操作

Feb 25 Python

完美解决pycharm 不显示代码提示问题

Jun 02 Python

详解python UDP 编程

Aug 24 Python

python使用numpy中的size()函数实例用法详解

Jan 29 Python

Python 文本滚动播放器的实现代码

Apr 25 Python

python数据库批量插入数据的实现(executemany的使用)

Apr 30 Python

python使用sqlite3时游标使用方法

Mar 13 #Python

Python打印输出数组中全部元素

Mar 13 #Python

python实现学生信息管理系统

Apr 05 #Python

python针对excel的操作技巧

Mar 13 #Python

python实现聊天小程序

Mar 13 #Python

Python MySQLdb 使用utf-8 编码插入中文数据问题

Mar 13 #Python

python实现简易通讯录修改版

Mar 13 #Python

You might like

收音机史话 - 1960年代前后的DIY

2021/03/02 无线电

php中显示数组与对象的实现代码

2011/04/18 PHP

解决文件名解压后乱码的问题将文件名进行转码的代码

2012/01/10 PHP

php cURL和Rolling cURL并发方式比较

2013/10/30 PHP

ThinkPHP提交表单时默认自动转义的解决方法

2014/11/25 PHP

php 反斜杠处理函数addslashes()和stripslashes()实例详解

2016/12/25 PHP

PHP开发之归档格式phar文件概念与用法详解【创建,使用,解包还原提取】

2017/11/17 PHP

jquery1.4 教程二 ajax方法的改进

2010/02/25 Javascript

Jquery 滑入滑出效果实现代码

2010/03/27 Javascript

JavaScript使用FileSystemObject对象写入文本文件内容的方法

2015/08/05 Javascript

JavaScript各类型的关系图解

2015/10/16 Javascript

探索Vue.js component内容实现

2016/11/03 Javascript

jQuery点击弹出层弹出模态框点击模态框消失代码分享

2017/01/21 Javascript

如何理解Vue的作用域插槽的实现原理

2017/08/19 Javascript

vue+node+webpack环境搭建教程

2017/11/05 Javascript

javascript 通过键名获取键盘的keyCode方法

2017/12/31 Javascript

javascript实现简单搜索功能

2020/03/26 Javascript

Vue中用JSON实现刷新界面不影响倒计时

2020/10/26 Javascript

[52:06]FNATIC vs NIP 2019国际邀请赛小组赛 BO2 第二场 8.16

2019/08/19 DOTA

Python使用htpasswd实现基本认证授权的例子

2014/06/10 Python

Python实现程序的单一实例用法分析

2015/06/03 Python

Python循环语句之break与continue的用法

2015/10/14 Python

一行代码让 Python 的运行速度提高100倍

2018/10/08 Python

Python Series从0开始索引的方法

2018/11/06 Python

python 实现视频流下载保存MP4的方法

2019/01/09 Python

python实现简单聊天室功能可以私聊

2019/07/12 Python

超实用的 30 段 Python 案例

2019/10/10 Python

如何使用python自带IDLE的几种方法

2020/10/10 Python

处理HTML5新标签的浏览器兼容版问题

2017/03/13 HTML / CSS

Alba Moda瑞士网上商店：独家意大利时尚女装销售

2016/11/28 全球购物

Spartoo美国：欧洲排名第一的在线时装零售商

2019/12/12 全球购物

物业公司采购员岗位职责

2013/12/31 职场文书

自荐信格式简述

2014/01/25 职场文书

英语专业个人求职信范文

2014/02/01 职场文书

行政助理的岗位职责

2014/02/18 职场文书

《天安门广场》教学反思

2014/04/23 职场文书