pandas如何处理缺失值


Posted in Python onJuly 31, 2019

在实际应用中对于数据进行分析的时候,经常能看见缺失值,下面来介绍一下如何利用pandas来处理缺失值。常见的缺失值处理方式有,过滤、填充。

一、缺失值的判断

pandas使用浮点值NaN(Not a Number)表示浮点数和非浮点数组中的缺失值,同时python内置None值也会被当作是缺失值。

a、Series的缺失值判断

s = Series(["a","b",np.nan,"c",None])
  print(s)
  '''
  0    a
  1    b
  2   NaN
  3    c
  4  None
  '''
  #判断缺失值,如果是则返回True,否则返回False
  print(s.isnull())
  '''
  0  False
  1  False
  2   True
  3  False
  4   True
  '''
  #输出缺失值的索引和值
  print(s[s.isnull()])
  '''
  2   NaN
  4  None
  '''

b、DataFrame的缺失值判断

a = [[1,np.nan,2],[3,4,None]]
  data = DataFrame(a)
  #DataFrame的None值变成了NaN
  print(data)
  '''
    0  1  2
  0 1 NaN 2.0
  1 3 4.0 NaN
  '''
  print(data.isnull())
  '''
      0   1   2
  0 False  True False
  1 False False  True
  '''
  print(data[data.isnull()])
  '''
    0  1  2
  0 NaN NaN NaN
  1 NaN NaN NaN
  '''

注意:在使用Series和DataFrame的时候,如果其中有值为None,Series会输出None,而DataFrame会输出NaN,但是对空值判断没有影响。DataFrame使用isnull方法在输出空值的时候全为NaN,因为DataFrame对于False对应的位置,输出值会使用NaN代替,而Series对于Fasel对应的位置是没有输出值的。

二、过滤缺失数据

a、Series的缺失值过滤

s = Series(["a","b",np.nan,"c",None])
  #通过使用notnull方法来获取非缺失数据
  print(s[s.notnull()])
  '''
  0  a
  1  b
  3  c
  '''
  #使用dropna方法删除缺失数据,返回一个删除后的Series
  print(s.dropna())
  '''
  0  a
  1  b
  3  c
  '''
  #并没有在原来的Series上进行直接删除
  print(s)
  '''
  0    a
  1    b
  2   NaN
  3    c
  4  None
  '''
  #通过设置inplace参数为True,在原Series上进行删除,不会返回Series
  print(s.dropna(inplace=True))
  #None
  print(s)
  '''
  0  a
  1  b
  3  c
  '''

b、DataFrame的缺失值过滤

DataFrame删除缺失值相对于Series而言就要复杂一些,也许有的时候你是想删除含有缺失值的行或列,也许有时候你需要删除的是,当整行或整列全为缺失值的时候才删除,好在pandas对于这两种情况都有相对应的处理方法。

1、删除含有缺失值的行和列

a = [[1, np.nan, 2],[9,None,np.nan],[3, 4, None],[5,6,7]]
  data = DataFrame(a)
  print(data)
  '''
    0  1  2
  0 1 NaN 2.0
  1 9 NaN NaN
  2 3 4.0 NaN
  3 5 6.0 7.0 
  '''
  #使用dropna方法删除含有缺失值的行,默认是行
  print(data.dropna())
  '''
    0  1  2
  3 5 6.0 7.0
  '''
  #删除含有缺失值的列
  print(data.dropna(axis=1))
  '''
    0
  0 1
  1 9
  2 3
  3 5
  '''

2、删除全为NaN的行和列

a = [[1, np.nan, 2],[np.nan,None,np.nan],[3, None, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
     0  1  2
  0 1.0 NaN 2.0
  1 NaN NaN NaN
  2 3.0 NaN NaN
  3 5.0 NaN 7.0
  '''
  #当行全为NaN的时候,才删除,参数how默认是any,含有缺失值就删除
  print(data.dropna(how="all"))
  '''
     0  1  2
  0 1.0 NaN 2.0
  2 3.0 NaN NaN
  3 5.0 NaN 7.0
  '''
  #当列全为NaN的时候,才删除
  print(data.dropna(how="all",axis=1))
  '''
     0  2
  0 1.0 2.0
  1 NaN NaN
  2 3.0 NaN
  3 5.0 7.0
  '''

dropna方法的inplace的设置与Series一样。

3、指定删除数据后显示部分数据观察

a = [[1, np.nan, 2],[np.nan,None,np.nan],[3, None, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
     0  1  2
  0 1.0 NaN 2.0
  1 NaN NaN NaN
  2 3.0 NaN NaN
  3 5.0 NaN 7.0
  '''
  #当行全为NaN的时候,才删除,参数how默认是any,含有缺失值就删除
  print(data.dropna(how="all"))
  '''
     0  1  2
  0 1.0 NaN 2.0
  2 3.0 NaN NaN
  3 5.0 NaN 7.0
  '''
  #通过thresh参数来控制显示删除数据的条数,删除列的时候thresh参数无效
  print(data.dropna(how="all",thresh=2))
  '''
     0  1  2
  0 1.0 NaN 2.0
  3 5.0 NaN 7.0
  '''

三、填充缺失值

数据都是宝贵的,也许有时候你的数据不够多,因为数据越多对于模型的训练,数据分析都是有好处的,所以很多的时候我们都不想删除数据。通常情况下,也许你会选择用一些特殊值来填充缺失值。下面介绍使用pandas的fillna方法来填充缺失数据。

1、指定特殊值填充缺失值

a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 NaN 6.0
  2 3 7.0 NaN
  3 5 NaN 7.0
  '''
  #用0填充所有的缺失数据
  print(data.fillna(0))
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 0.0 6.0
  2 3 7.0 0.0
  3 5 0.0 7.0
  '''

2、不同列使用不同的填充值

a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 NaN 6.0
  2 3 7.0 NaN
  3 5 NaN 7.0
  '''
  print(data.fillna({1:1,2:2}))
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 1.0 6.0
  2 3 7.0 2.0
  3 5 1.0 7.0
  '''

3、前向填充和后向填充

a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 NaN 6.0
  2 3 7.0 NaN
  3 5 NaN 7.0
  '''
  #前向填充,使用默认是上一行的值,设置axis=1可以使用列进行填充
  print(data.fillna(method="ffill"))
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 2.0 6.0
  2 3 7.0 6.0
  3 5 7.0 7.0
  '''
  #后向填充,使用下一行的值,不存在的时候就不填充
  print(data.fillna(method="bfill"))
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 7.0 6.0
  2 3 7.0 7.0
  3 5 NaN 7.0
  '''

4、使用列的平均值进行填充

a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 NaN 6.0
  2 3 7.0 NaN
  3 5 NaN 7.0
  '''
  print(data.fillna(data.mean()))
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 4.5 6.0
  2 3 7.0 5.0
  3 5 4.5 7.0
  '''

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
详解Golang 与python中的字符串反转
Jul 21 Python
Python基于回溯法子集树模板解决找零问题示例
Sep 11 Python
Python合并多个Excel数据的方法
Jul 16 Python
Flask框架各种常见装饰器示例
Jul 17 Python
python和opencv实现抠图
Jul 18 Python
python用列表生成式写嵌套循环的方法
Nov 08 Python
PYQT5实现控制台显示功能的方法
Jun 25 Python
python中pip的使用和修改下载源的方法
Jul 08 Python
解决pycharm 安装numpy失败的问题
Dec 05 Python
使用python 的matplotlib 画轨道实例
Jan 19 Python
解决python3插入mysql时内容带有引号的问题
Mar 02 Python
Python使用Selenium模拟浏览器自动操作功能
Sep 08 Python
详细介绍pandas的DataFrame的append方法使用
Jul 31 #Python
使用pandas读取文件的实现
Jul 31 #Python
python3实现mysql导出excel的方法
Jul 31 #Python
Django接收post前端返回的json格式数据代码实现
Jul 31 #Python
python快速编写单行注释多行注释的方法
Jul 31 #Python
使用 Django Highcharts 实现数据可视化过程解析
Jul 31 #Python
利用Python检测URL状态
Jul 31 #Python
You might like
改变Apache端口等配置修改方法
2008/06/05 PHP
php学习笔记 PHP面向对象的程序设计
2011/06/13 PHP
解析用PHP读写音频文件信息的详解(支持WMA和MP3)
2013/05/10 PHP
PHP生成静态HTML文档实现代码
2016/06/23 PHP
微信公众平台开发-微信服务器IP接口实例(含源码)
2017/03/05 PHP
JavaScript中“+=”的应用
2007/02/02 Javascript
最新优化收藏到网摘代码(digg,diigo)
2007/02/07 Javascript
图片格式的JavaScript和CSS速查手册
2007/08/20 Javascript
jquery利用event.which方法获取键盘输入值的代码
2011/10/09 Javascript
关于js datetime的那点事
2011/11/15 Javascript
返回页面顶部top按钮通过锚点实现(自写)
2013/08/30 Javascript
javascript实现随时变化着的背景颜色
2015/04/02 Javascript
JS基于clipBoard.js插件实现剪切、复制、粘贴
2016/05/03 Javascript
Bootstrap零基础入门教程(二)
2016/07/18 Javascript
第一次接触神奇的Bootstrap
2016/10/14 Javascript
浅析vue-router原理
2018/10/19 Javascript
基于Vue实现电商SKU组合算法问题
2019/05/29 Javascript
聊聊Vue 中 title 的动态修改问题
2019/06/11 Javascript
记一次react前端项目打包优化的方法
2020/03/30 Javascript
[02:28]DOTA2亚洲邀请赛 LGD战队巡礼
2015/02/03 DOTA
Python字符串逐字符或逐词反转方法
2015/05/21 Python
Python简单定义与使用二叉树示例
2018/05/11 Python
Python 字符串换行的多种方式
2018/09/06 Python
Pandas统计重复的列里面的值方法
2019/01/30 Python
Django Admin 上传文件到七牛云的示例代码
2020/06/20 Python
JSF面试题:如何管量web层中的Bean,用什么标签。如何通过jsp页面与Bean绑定在一起进行处理?
2012/10/05 面试题
高级护理专业大学生求职信
2013/10/24 职场文书
简短的公司员工自我评价分享
2013/11/13 职场文书
校园歌手大赛策划书
2014/01/17 职场文书
应届毕业生自荐信例文
2014/02/26 职场文书
领导干部保密承诺书
2014/08/30 职场文书
2014应届本科生自我评价
2014/09/13 职场文书
建筑工地文明标语
2014/10/09 职场文书
见习期个人总结
2015/03/05 职场文书
车辆安全隐患排查制度
2015/08/05 职场文书
《爬天都峰》教学反思
2016/02/23 职场文书