编程 Python

pandas如何处理缺失值

Posted in Python onJuly 31, 2019

在实际应用中对于数据进行分析的时候，经常能看见缺失值，下面来介绍一下如何利用pandas来处理缺失值。常见的缺失值处理方式有，过滤、填充。

一、缺失值的判断

pandas使用浮点值NaN(Not a Number)表示浮点数和非浮点数组中的缺失值，同时python内置None值也会被当作是缺失值。

a、Series的缺失值判断

s = Series(["a","b",np.nan,"c",None])
  print(s)
  '''
  0    a
  1    b
  2   NaN
  3    c
  4  None
  '''
  #判断缺失值,如果是则返回True,否则返回False
  print(s.isnull())
  '''
  0  False
  1  False
  2   True
  3  False
  4   True
  '''
  #输出缺失值的索引和值
  print(s[s.isnull()])
  '''
  2   NaN
  4  None
  '''

b、DataFrame的缺失值判断

a = [[1,np.nan,2],[3,4,None]]
  data = DataFrame(a)
  #DataFrame的None值变成了NaN
  print(data)
  '''
    0  1  2
  0 1 NaN 2.0
  1 3 4.0 NaN
  '''
  print(data.isnull())
  '''
      0   1   2
  0 False  True False
  1 False False  True
  '''
  print(data[data.isnull()])
  '''
    0  1  2
  0 NaN NaN NaN
  1 NaN NaN NaN
  '''

注意：在使用Series和DataFrame的时候，如果其中有值为None，Series会输出None，而DataFrame会输出NaN，但是对空值判断没有影响。DataFrame使用isnull方法在输出空值的时候全为NaN，因为DataFrame对于False对应的位置，输出值会使用NaN代替，而Series对于Fasel对应的位置是没有输出值的。

二、过滤缺失数据

a、Series的缺失值过滤

s = Series(["a","b",np.nan,"c",None])
  #通过使用notnull方法来获取非缺失数据
  print(s[s.notnull()])
  '''
  0  a
  1  b
  3  c
  '''
  #使用dropna方法删除缺失数据,返回一个删除后的Series
  print(s.dropna())
  '''
  0  a
  1  b
  3  c
  '''
  #并没有在原来的Series上进行直接删除
  print(s)
  '''
  0    a
  1    b
  2   NaN
  3    c
  4  None
  '''
  #通过设置inplace参数为True,在原Series上进行删除,不会返回Series
  print(s.dropna(inplace=True))
  #None
  print(s)
  '''
  0  a
  1  b
  3  c
  '''

b、DataFrame的缺失值过滤

DataFrame删除缺失值相对于Series而言就要复杂一些，也许有的时候你是想删除含有缺失值的行或列，也许有时候你需要删除的是，当整行或整列全为缺失值的时候才删除，好在pandas对于这两种情况都有相对应的处理方法。

1、删除含有缺失值的行和列

a = [[1, np.nan, 2],[9,None,np.nan],[3, 4, None],[5,6,7]]
  data = DataFrame(a)
  print(data)
  '''
    0  1  2
  0 1 NaN 2.0
  1 9 NaN NaN
  2 3 4.0 NaN
  3 5 6.0 7.0 
  '''
  #使用dropna方法删除含有缺失值的行，默认是行
  print(data.dropna())
  '''
    0  1  2
  3 5 6.0 7.0
  '''
  #删除含有缺失值的列
  print(data.dropna(axis=1))
  '''
    0
  0 1
  1 9
  2 3
  3 5
  '''

2、删除全为NaN的行和列

a = [[1, np.nan, 2],[np.nan,None,np.nan],[3, None, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
     0  1  2
  0 1.0 NaN 2.0
  1 NaN NaN NaN
  2 3.0 NaN NaN
  3 5.0 NaN 7.0
  '''
  #当行全为NaN的时候,才删除,参数how默认是any,含有缺失值就删除
  print(data.dropna(how="all"))
  '''
     0  1  2
  0 1.0 NaN 2.0
  2 3.0 NaN NaN
  3 5.0 NaN 7.0
  '''
  #当列全为NaN的时候，才删除
  print(data.dropna(how="all",axis=1))
  '''
     0  2
  0 1.0 2.0
  1 NaN NaN
  2 3.0 NaN
  3 5.0 7.0
  '''

dropna方法的inplace的设置与Series一样。

3、指定删除数据后显示部分数据观察

a = [[1, np.nan, 2],[np.nan,None,np.nan],[3, None, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
     0  1  2
  0 1.0 NaN 2.0
  1 NaN NaN NaN
  2 3.0 NaN NaN
  3 5.0 NaN 7.0
  '''
  #当行全为NaN的时候,才删除,参数how默认是any,含有缺失值就删除
  print(data.dropna(how="all"))
  '''
     0  1  2
  0 1.0 NaN 2.0
  2 3.0 NaN NaN
  3 5.0 NaN 7.0
  '''
  #通过thresh参数来控制显示删除数据的条数，删除列的时候thresh参数无效
  print(data.dropna(how="all",thresh=2))
  '''
     0  1  2
  0 1.0 NaN 2.0
  3 5.0 NaN 7.0
  '''

三、填充缺失值

数据都是宝贵的，也许有时候你的数据不够多，因为数据越多对于模型的训练，数据分析都是有好处的，所以很多的时候我们都不想删除数据。通常情况下，也许你会选择用一些特殊值来填充缺失值。下面介绍使用pandas的fillna方法来填充缺失数据。

1、指定特殊值填充缺失值

a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 NaN 6.0
  2 3 7.0 NaN
  3 5 NaN 7.0
  '''
  #用0填充所有的缺失数据
  print(data.fillna(0))
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 0.0 6.0
  2 3 7.0 0.0
  3 5 0.0 7.0
  '''

2、不同列使用不同的填充值

a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 NaN 6.0
  2 3 7.0 NaN
  3 5 NaN 7.0
  '''
  print(data.fillna({1:1,2:2}))
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 1.0 6.0
  2 3 7.0 2.0
  3 5 1.0 7.0
  '''

3、前向填充和后向填充

a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 NaN 6.0
  2 3 7.0 NaN
  3 5 NaN 7.0
  '''
  #前向填充，使用默认是上一行的值,设置axis=1可以使用列进行填充
  print(data.fillna(method="ffill"))
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 2.0 6.0
  2 3 7.0 6.0
  3 5 7.0 7.0
  '''
  #后向填充，使用下一行的值,不存在的时候就不填充
  print(data.fillna(method="bfill"))
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 7.0 6.0
  2 3 7.0 7.0
  3 5 NaN 7.0
  '''

4、使用列的平均值进行填充

a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 NaN 6.0
  2 3 7.0 NaN
  3 5 NaN 7.0
  '''
  print(data.fillna(data.mean()))
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 4.5 6.0
  2 3 7.0 5.0
  3 5 4.5 7.0
  '''

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

pandas如何处理缺失值

- Author -

修炼之路

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python获取beautifulphoto随机某图片代码实例

Dec 18 Python

在MAC上搭建python数据分析开发环境

Jan 26 Python

Python列表list解析操作示例【整数操作、字符操作、矩阵操作】

Jul 25 Python

Python网络爬虫与信息提取(实例讲解)

Aug 29 Python

python编写Logistic逻辑回归

Dec 30 Python

Python中生成器和迭代器的区别详解

Feb 10 Python

分享一下Python数据分析常用的8款工具

Apr 29 Python

对tensorflow 的模型保存和调用实例讲解

Jul 28 Python

使用Pytorch来拟合函数方式

Jan 14 Python

Python叠加矩形框图层2种方法及效果

Jun 18 Python

python 爬虫如何正确的使用cookie

Oct 27 Python

Python使用pyenv实现多环境管理

Feb 05 Python

详细介绍pandas的DataFrame的append方法使用

Jul 31 #Python

使用pandas读取文件的实现

Jul 31 #Python

python3实现mysql导出excel的方法

Jul 31 #Python

Django接收post前端返回的json格式数据代码实现

Jul 31 #Python

python快速编写单行注释多行注释的方法

Jul 31 #Python

使用 Django Highcharts 实现数据可视化过程解析

Jul 31 #Python

利用Python检测URL状态

Jul 31 #Python

You might like

浅谈电磁辐射对健康的影响

2021/03/01 无线电

mysql 查询指定日期时间内sql语句实现原理与代码

2012/12/16 PHP

PHP实例分享判断客户端是否使用代理服务器及其匿名级别

2014/06/04 PHP

PHP使用curl模拟post上传及接收文件的方法

2016/03/04 PHP

checkbox全选/取消全选以及checkbox遍历jQuery实现代码

2009/12/02 Javascript

jQuery中even选择器的定义和用法

2014/12/23 Javascript

原生js实现的贪吃蛇网页版游戏完整实例

2015/05/18 Javascript

Angular中自定义Debounce Click指令防止重复点击

2017/07/26 Javascript

原生JS进行前后端同构

2018/04/22 Javascript

vue的for循环使用方法

2019/02/12 Javascript

vue使用swiper实现左右滑动切换图片

2020/10/16 Javascript

vue $router和$route的区别详解

2020/12/02 Vue.js

Python的IDEL增加清屏功能实例

2017/06/19 Python

利用python为运维人员写一个监控脚本

2018/03/25 Python

Kears+Opencv实现简单人脸识别

2019/08/28 Python

python logging添加filter教程

2019/12/24 Python

python 日志模块日志等级设置失效的解决方案

2020/05/26 Python

Python爬虫如何应对Cloudflare邮箱加密

2020/06/24 Python

Python OpenCV读取中文路径图像的方法

2020/07/02 Python

Matplotlib.pyplot 三维绘图的实现示例

2020/07/28 Python

用HTML5中的Canvas结合公式绘制粒子运动的教程

2015/05/08 HTML / CSS

详解HTML5中的元素与元素

2015/08/17 HTML / CSS

如何在Canvas中添加事件的方法示例

2019/05/21 HTML / CSS

Evisu官方网站：日本牛仔品牌，时尚街头设计风格

2016/12/30 全球购物

马来西亚网上购物：Youbeli

2018/03/30 全球购物

美国家居装饰店：Pier 1

2019/09/04 全球购物

如何删除一个表里面的重复行

2013/07/13 面试题

中职生自荐信

2013/10/13 职场文书

法律专业推荐信范文

2013/11/29 职场文书

护士岗前培训自我评鉴

2014/02/28 职场文书

岗位职责怎么写

2014/03/14 职场文书

电影地道战观后感

2015/06/04 职场文书

运动会加油稿50字

2015/07/21 职场文书

会计岗位工作总结

2015/08/12 职场文书

Redis Cluster集群动态扩容的实现

2021/07/15 Redis

Mybatis-Plus 使用 @TableField 自动填充日期

2022/04/26 Java/Android