Python3.5 Pandas模块缺失值处理和层次索引实例详解


Posted in Python onApril 23, 2019

本文实例讲述了Python3.5 Pandas模块缺失值处理和层次索引。分享给大家供大家参考,具体如下:

1、pandas缺失值处理

Python3.5 Pandas模块缺失值处理和层次索引实例详解

Python3.5 Pandas模块缺失值处理和层次索引实例详解

Python3.5 Pandas模块缺失值处理和层次索引实例详解

import numpy as np
import pandas as pd
from pandas import Series,DataFrame

df3 = DataFrame([
  ["Tom",np.nan,456.67,"M"],
  ["Merry",34,345.56,np.nan],
  [np.nan,np.nan,np.nan,np.nan],
  ["John",23,np.nan,"M"],
  ["Joe",18,385.12,"F"]
],columns = ["name","age","salary","gender"])

print(df3)
print("=======判断NaN值=======")
print(df3.isnull())
print("=======判断非NaN值=======")
print(df3.notnull())
print("=======删除包含NaN值的行=======")
print(df3.dropna())
print("=======删除全部为NaN值的行=======")
print(df3.dropna(how="all"))

df3.ix[2,0] = "Gerry"    #修改第2行第0列的值
print(df3)

print("=======删除包含NaN值的列=======")
print(df3.dropna(axis=1))

运行结果:

   name   age  salary gender
0    Tom   NaN  456.67      M
1  Merry  34.0  345.56    NaN
2    NaN   NaN     NaN    NaN
3   John  23.0     NaN      M
4    Joe  18.0  385.12      F
=======判断NaN值=======
    name    age salary gender
0  False   True  False  False
1  False  False  False   True
2   True   True   True   True
3  False  False   True  False
4  False  False  False  False
=======判断非NaN值=======
    name    age salary gender
0   True  False   True   True
1   True   True   True  False
2  False  False  False  False
3   True   True  False   True
4   True   True   True   True
=======删除包含NaN值的行=======
  name   age  salary gender
4  Joe  18.0  385.12      F
=======删除全部为NaN值的行=======
    name   age  salary gender
0    Tom   NaN  456.67      M
1  Merry  34.0  345.56    NaN
3   John  23.0     NaN      M
4    Joe  18.0  385.12      F
    name   age  salary gender
0    Tom   NaN  456.67      M
1  Merry  34.0  345.56    NaN
2  Gerry   NaN     NaN    NaN
3   John  23.0     NaN      M
4    Joe  18.0  385.12      F
=======删除包含NaN值的列=======
    name
0    Tom
1  Merry
2  Gerry
3   John
4    Joe

Python3.5 Pandas模块缺失值处理和层次索引实例详解

import numpy as np
import pandas as pd
from pandas import Series,DataFrame

df4 = DataFrame(np.random.randn(7,3))
print(df4)

df4.ix[:4,1] = np.nan    #第0至3行,第1列的数据
df4.ix[:2,2] = np.nan
print(df4)

print(df4.fillna(0))    #将缺失值用传入的指定值0替换

print(df4.fillna({1:0.5,2:-1}))   #将缺失值按照指定形式填充

运行结果:

          0         1         2
0 -0.737618 -0.530302 -2.716457
1  0.810339  0.063028 -0.341343
2  0.070564  0.347308 -0.121137
3 -0.501875 -1.573071 -0.816077
4 -2.159196 -0.659185 -0.885185
5  0.175086 -0.954109 -0.758657
6  0.395744 -0.875943  0.950323
          0         1         2
0 -0.737618       NaN       NaN
1  0.810339       NaN       NaN
2  0.070564       NaN       NaN
3 -0.501875       NaN -0.816077
4 -2.159196       NaN -0.885185
5  0.175086 -0.954109 -0.758657
6  0.395744 -0.875943  0.950323
          0         1         2
0 -0.737618  0.000000  0.000000
1  0.810339  0.000000  0.000000
2  0.070564  0.000000  0.000000
3 -0.501875  0.000000 -0.816077
4 -2.159196  0.000000 -0.885185
5  0.175086 -0.954109 -0.758657
6  0.395744 -0.875943  0.950323
          0         1         2
0 -0.737618  0.500000 -1.000000
1  0.810339  0.500000 -1.000000
2  0.070564  0.500000 -1.000000
3 -0.501875  0.500000 -0.816077
4 -2.159196  0.500000 -0.885185
5  0.175086 -0.954109 -0.758657
6  0.395744 -0.875943  0.950323

2、pandas常用数学统计方法

Python3.5 Pandas模块缺失值处理和层次索引实例详解

Python3.5 Pandas模块缺失值处理和层次索引实例详解
Python3.5 Pandas模块缺失值处理和层次索引实例详解

Python3.5 Pandas模块缺失值处理和层次索引实例详解

import numpy as np
import pandas as pd
from pandas import Series,DataFrame

#pandas常用数学统计方法

arr = np.array([
  [98.5,89.5,88.5],
  [98.5,85.5,88],
  [70,85,60],
  [80,85,82]
])
df1 = DataFrame(arr,columns=["语文","数学","英语"])
print(df1)
print("=======针对列计算总统计值=======")
print(df1.describe())
print("=======默认计算各列非NaN值个数=======")
print(df1.count())
print("=======计算各行非NaN值个数=======")
print(df1.count(axis=1))

运行结果:

     语文    数学    英语
0  98.5  89.5  88.5
1  98.5  85.5  88.0
2  70.0  85.0  60.0
3  80.0  85.0  82.0
=======针对列计算总统计值=======
              语文         数学         英语
count   4.000000   4.000000   4.000000
mean   86.750000  86.250000  79.625000
std    14.168627   2.179449  13.412525
min    70.000000  85.000000  60.000000
25%    77.500000  85.000000  76.500000
50%    89.250000  85.250000  85.000000
75%    98.500000  86.500000  88.125000
max    98.500000  89.500000  88.500000
=======默认计算各列非NaN值个数=======
语文    4
数学    4
英语    4
dtype: int64
=======计算各行非NaN值个数=======
0    3
1    3
2    3
3    3
dtype: int64

Python3.5 Pandas模块缺失值处理和层次索引实例详解

Python3.5 Pandas模块缺失值处理和层次索引实例详解

import numpy as np
import pandas as pd
from pandas import Series,DataFrame、

#2.pandas相关系数与协方差
df2 = DataFrame({
  "GDP":[12,23,34,45,56],
  "air_temperature":[23,25,26,27,30],
  "year":["2001","2002","2003","2004","2005"]
})

print(df2)
print("=========相关系数========")
print(df2.corr())
print("=========协方差========")
print(df2.cov())
print("=========两个量之间的相关系数========")
print(df2["GDP"].corr(df2["air_temperature"]))
print("=========两个量之间协方差========")
print(df2["GDP"].cov(df2["air_temperature"]))

运行结果:

 GDP  air_temperature  year
0   12               23  2001
1   23               25  2002
2   34               26  2003
3   45               27  2004
4   56               30  2005
=========相关系数========
                      GDP  air_temperature
GDP              1.000000         0.977356
air_temperature  0.977356         1.000000
=========协方差========
                   GDP  air_temperature
GDP              302.5             44.0
air_temperature   44.0              6.7
=========两个量之间的相关系数========
0.97735555485
=========两个量之间协方差========
44.0

Python3.5 Pandas模块缺失值处理和层次索引实例详解

Python3.5 Pandas模块缺失值处理和层次索引实例详解

Python3.5 Pandas模块缺失值处理和层次索引实例详解

Python3.5 Pandas模块缺失值处理和层次索引实例详解

import numpy as np
import pandas as pd
from pandas import Series,DataFrame

#3.pandas唯一值、值计数及成员资格

df3 = DataFrame({
  "order_id":["1001","1002","1003","1004","1005"],
  "member_id":["m01","m01","m02","m01","m02",],
  "order_amt":[345,312.2,123,250.2,235]
})

print(df3)

print("=========去重后的数组=========")
print(df3["member_id"].unique())

print("=========值出现的频率=========")
print(df3["member_id"].value_counts())

print("=========成员资格=========")
df3 = df3["member_id"]
mask = df3.isin(["m01"])
print(mask)
print(df3[mask])

运行结果:

 member_id  order_amt order_id
0       m01      345.0     1001
1       m01      312.2     1002
2       m02      123.0     1003
3       m01      250.2     1004
4       m02      235.0     1005
=========去重后的数组=========
['m01' 'm02']
=========值出现的频率=========
m01    3
m02    2
Name: member_id, dtype: int64
=========成员资格=========
0     True
1     True
2    False
3     True
4    False
Name: member_id, dtype: bool
0    m01
1    m01
3    m01
Name: member_id, dtype: object

3、pandas层次索引

Python3.5 Pandas模块缺失值处理和层次索引实例详解

Python3.5 Pandas模块缺失值处理和层次索引实例详解

Python3.5 Pandas模块缺失值处理和层次索引实例详解

Python3.5 Pandas模块缺失值处理和层次索引实例详解

import numpy as np
import pandas as pd
from pandas import Series,DataFrame

#3.pandas层次索引
data = Series([998.4,6455,5432,9765,5432],
       index=[["2001","2001","2001","2002","2002"],
       ["苹果","香蕉","西瓜","苹果","西瓜"]]
       )
print(data)

df4 = DataFrame({
  "year":[2001,2001,2002,2002,2003],
  "fruit":["apple","banana","apple","banana","apple"],
  "production":[2345,5632,3245,6432,4532],
  "profits":[245.6,432.7,534.1,354,467.8]
})

print(df4)
print("=======层次化索引=======")
df4 = df4.set_index(["year","fruit"])
print(df4)
print("=======依照索引取值=======")
print(df4.ix[2002,"apple"])
print("=======依照层次化索引统计数据=======")
print(df4.sum(level="year"))
print(df4.mean(level="fruit"))
print(df4.min(level=["year","fruit"]))

运行结果:

2001  苹果     998.4
      香蕉    6455.0
      西瓜    5432.0
2002  苹果    9765.0
      西瓜    5432.0
dtype: float64
    fruit  production  profits  year
0   apple        2345    245.6  2001
1  banana        5632    432.7  2001
2   apple        3245    534.1  2002
3  banana        6432    354.0  2002
4   apple        4532    467.8  2003
=======层次化索引=======
             production  profits
year fruit
2001 apple         2345    245.6
     banana        5632    432.7
2002 apple         3245    534.1
     banana        6432    354.0
2003 apple         4532    467.8
=======依照索引取值=======
production    3245.0
profits        534.1
Name: (2002, apple), dtype: float64
=======依照层次化索引统计数据=======
      production  profits
year
2001        7977    678.3
2002        9677    888.1
2003        4532    467.8
        production     profits
fruit
apple         3374  415.833333
banana        6032  393.350000
             production  profits
year fruit
2001 apple         2345    245.6
     banana        5632    432.7
2002 apple         3245    534.1
     banana        6432    354.0
2003 apple         4532    467.8

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python随机生成手机号、数字的方法详解
Jul 21 Python
Python2.7下安装Scrapy框架步骤教程
Dec 22 Python
详解TensorFlow在windows上安装与简单示例
Mar 05 Python
python excel使用xlutils类库实现追加写功能的方法
May 02 Python
解决Mac下首次安装pycharm无project interpreter的问题
Oct 29 Python
Python利用lxml模块爬取豆瓣读书排行榜的方法与分析
Apr 15 Python
Python数据类型之Number数字操作实例详解
May 08 Python
python如何实现不可变字典inmutabledict
Jan 08 Python
opencv python 图片读取与显示图片窗口未响应问题的解决
Apr 24 Python
python中pathlib模块的基本用法与总结
Aug 17 Python
django中websocket的具体使用
Jan 22 Python
pytorch分类模型绘制混淆矩阵以及可视化详解
Apr 07 Python
Python3.5 Pandas模块之DataFrame用法实例分析
Apr 23 #Python
Python3.5 Pandas模块之Series用法实例分析
Apr 23 #Python
使用Python控制摄像头拍照并发邮件
Apr 23 #Python
详解Python静态网页爬取获取高清壁纸
Apr 23 #Python
Python matplotlib画图与中文设置操作实例分析
Apr 23 #Python
Python实现的删除重复文件或图片功能示例【去重】
Apr 23 #Python
详解Python 函数如何重载?
Apr 23 #Python
You might like
用定制的PHP应用程序来获取Web服务器的状态信息
2006/10/09 PHP
php中经典方法实现判断多维数组是否为空
2011/10/23 PHP
解析php中的fopen()函数用打开文件模式说明
2013/06/20 PHP
php使用pack处理二进制文件的方法
2014/07/03 PHP
php数组使用规则分析
2015/02/27 PHP
php+html5基于websocket实现聊天室的方法
2015/07/17 PHP
ThinkPHP框架整合微信支付之JSAPI模式图文详解
2019/04/09 PHP
laravel 实现根据字段不同值做不同查询
2019/10/23 PHP
基于PHP实现生成随机水印图片
2020/12/09 PHP
JavaScript 三种创建对象的方法
2009/10/16 Javascript
jQuery :nth-child前有无空格的区别分析
2011/07/11 Javascript
最佳的addEvent事件绑定是怎样诞生的
2011/10/24 Javascript
JS方法调用括号的问题探讨
2014/01/24 Javascript
使用jquery实现以post打开新窗口
2014/03/19 Javascript
js分页工具实例
2015/01/28 Javascript
js使用post 方式打开新窗口
2015/02/26 Javascript
jQuery滚动条插件nanoscroller使用指南
2015/04/21 Javascript
JavaScript实现点击自动选择TextArea文本的方法
2015/07/02 Javascript
Javascript 引擎工作机制详解
2016/11/30 Javascript
Vue方法与事件处理器详解
2016/12/01 Javascript
简单三步实现报表页面集成天气
2016/12/15 Javascript
d3.js中冷门却实用的内置函数总结
2017/02/04 Javascript
Javascript下拉刷新的简单实现
2017/02/14 Javascript
Web纯前端“旭日图”实现元素周期表
2017/03/10 Javascript
微信小程序异步处理详解
2017/11/10 Javascript
vue实现匀速轮播效果
2020/06/29 Javascript
Python中函数的用法实例教程
2014/09/08 Python
Python 列表list使用介绍
2014/11/30 Python
python实现从字典中删除元素的方法
2015/05/04 Python
Python异常处理操作实例详解
2018/05/10 Python
利用django+wechat-python-sdk 创建微信服务器接入的方法
2019/02/20 Python
python用win32gui遍历窗口并设置窗口位置的方法
2019/07/26 Python
django框架两个使用模板实例
2019/12/11 Python
利用python清除移动硬盘中的临时文件
2020/10/28 Python
求职推荐信
2013/10/28 职场文书
2016年师德先进个人事迹材料
2016/02/29 职场文书