Python Pandas知识点之缺失值处理详解


Posted in Python onMay 11, 2021

前言

数据处理过程中,经常会遇到数据有缺失值的情况,本文介绍如何用Pandas处理数据中的缺失值。

一、什么是缺失值

对数据而言,缺失值分为两种,一种是Pandas中的空值,另一种是自定义的缺失值。

1. Pandas中的空值有三个:np.nan (Not a Number) 、 None 和 pd.NaT(时间格式的空值,注意大小写不能错),这三个值可以用Pandas中的函数isnull(),notnull(),isna()进行判断。

Python Pandas知识点之缺失值处理详解

isnull()和notnull()的结果互为取反,isnull()和isna()的结果一样。对于这三个函数,只需要用其中一个就可以识别出数据中是否有空值。如果数据量较大,再配合numpy中的any()和all()函数就行了。

需要特别注意两点:

  • 如果某一列数据全是空值且包含pd.NaT,np.nan和None会自动转换成pd.NaT。
  • 空值(np.nan、None、pd.NaT)既不是空字符串"",也不是空格" "。

Python Pandas知识点之缺失值处理详解

从Python解释器来看,np.nan的类型是float,None的类型是NoneType,两者在Pandas中都显示为NaN,pd.NaT的类型是Pandas中的NaTType,显示为NaT。而不管是空字符串还是空格,其数据类型都是字符串,Pandas判断的结果不是空值。

2. 自定义缺失值有很多不同的形式,如上面刚说的空字符串和空格(当然,一般不用这两个,因为看起来不够直观)。

在获取数据时,可能会有一些数据无法得到,也可能数据本身就没有,造成了缺失值。对于这些缺失值,在获取数据时通常会用一些符号之类的数据来代替,如问号?,斜杠/,字母NA等。

如果处理的数据是自己获取的,那自己知道缺失值是怎么定义的,如果数据是其他人提供的,一般会同时提供数据的说明文档,说明文档中会注明缺失值的定义方式。

对于自定义缺失值,不能用isnull()等三个函数来判断,不过可以用isin()函数来判断。找到这些值后,将其替换成np.nan,数据就只有空值一种缺失值了。

此外,在数据处理的过程中,也可能产生缺失值,如除0计算,数字与空值计算等。

二、判断缺失值

1. 自定义缺失值的判断和替换

Python Pandas知识点之缺失值处理详解

isin(values): 判断Series或DataFrame中是否包含某些值,可以传入一个可迭代对象、Series、DataFrame或字典。在我们判断某个自定义的缺失值是否存在于数据中时,用列表的方式传入就可以了。

replace(to_replace=None, value=None): 替换Series或DataFrame中的指定值,一般传入两个参数,to_replace为被替换的值,value为替换后的值。to_replace和value不仅支持Python中的整型、字符串、列表、字典等,还支持正则表达式。

使用replace()时,默认返回原数据的一个副本,replace()中的inplace参数默认为False,将inplace参数修改为True,则会修改数据本身。其他参数这里就不展开了,有需要可以自己添加。

其实replace()函数已经可以用于缺失值的填充处理了,直接一步到位,而不用先替换成空值再处理。当然,先替换成空值,可以与空值一起处理。

2. 空值判断

Python Pandas知识点之缺失值处理详解

isnull(): 判断Series或DataFrame中是否包含空值,与isna()结果相同,与notnull()结果相反。返回结果是一个与原数据形状相同的Series或DataFrame。

如果数据很多,我们不可能肉眼观察返回结果中的布尔值,所以需要借助numpy中的any()函数或all()函数,进一步对结果进行判断。

三、删除缺失值

Python Pandas知识点之缺失值处理详解

dropna(axis=0, how="any", thresh=None, subset=None, inplace=False): 删除Series或DataFrame中的空值。

Python Pandas知识点之缺失值处理详解

axis: axis参数默认为0('index'),按行删除,即删除有空值的行。将axis参数修改为1或‘columns',则按列删除,即删除有空值的列。在实际的应用中,一般不会按列删除,例如数据中的一列表示年龄,不能因为年龄有缺失值而删除所有年龄数据。

Python Pandas知识点之缺失值处理详解

how: how参数默认为any,只要一行(或列)数据中有空值就会删除该行(或列)。将how参数修改为all,则只有一行(或列)数据中全部都是空值才会删除该行(或列)。

Python Pandas知识点之缺失值处理详解

thresh: 表示删除空值的界限,传入一个整数。如果一行(或列)数据中少于thresh个非空值(non-NA values),则删除。​也就是说,一行(或列)数据中至少要有thresh个非空值,否则删除。

Python Pandas知识点之缺失值处理详解

subset: 删除空值时,只判断subset指定的列(或行)的子集,其他列(或行)中的空值忽略,不处理。当按行进行删除时,subset设置成列的子集,反之。

inplace: 默认为False,返回原数据的一个副本。将inplace参数修改为True,则会修改数据本身。

删除缺失值,必然会导致数据量的减少,如果缺失值占数据的比例较大,比如超过了数据的10%(具体标准根据项目来定),删除数据对数据分析的结果会有很大的影响,不合理。

四、填充缺失值

Python Pandas知识点之缺失值处理详解

fillna(value=None, method=None, axis=None, inplace=False, limit=None): 填充Series或DataFrame中的空值。

value: 表示填充的值,可以是一个指定值,也可以是字典, Series或DataFrame。

Python Pandas知识点之缺失值处理详解

method: 填充的方式,默认为None。有 ffill,pad,bfill,backfill 四种填充方式可以使用,ffill 和 pad 表示用缺失值的前一个值填充,如果axis=0,则用空值上一行的值填充,如果axis=1,则用空值左边的值填充。假如空值在第一行或第一列,以及空值前面的值全都是空值,则无法获取到可用的填充值,填充后依然保持空值。bfill 和 backfill 表示用缺失值的后一个值填充,axis的用法以及找不到填充值的情况同 ffill 和 pad 。

注意:当指定填充方式method时,不能同时指定填充值value,否则报错。

axis: 通常配合method参数使用,axis=0表示按行,axis=1表示按列。

Python Pandas知识点之缺失值处理详解

limit: 表示填充执行的次数。如果是按行填充,则填充一行表示执行一次,按列同理。

Python Pandas知识点之缺失值处理详解

在缺失值填充时,填充值是自定义的,对于数值型数据,最常用的两种填充值是用该列的均值和众数。DataFrame的众数也是一个DataFrame数据,众数可能有多个(极限情况下,当数据中没有重复值时,众数就是原DataFrame本身),所以用mode()函数求众数时取第一行用于填充就行了。

Python Pandas知识点之缺失值处理详解

除了可以在fillna()函数中传入method参数指定填充方式外,Pandas中也实现了不同填充方式的函数,可以直接调用。

pad(axis=0, inplace=False, limit=None): 用缺失值的前一个值填充。

ffill(): 同pad()。

bfill(): 用缺失值的后一个值填充。

backfill(): 同bfill()。

在进行数据填充时,可能填充之后还有空值,如用ffill 和 pad填充时,数据第一行就是空值。对于这种情况,需要在填充前人工进行判断,避免选择不适合的填充方式,并在填充完成后,再检查一次数据中是否还有空值。

总结

到此这篇关于Python Pandas知识点之缺失值处理的文章就介绍到这了,更多相关Pandas缺失值处理内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Django中使用locals()函数的技巧
Jul 16 Python
python3.4实现邮件发送功能
May 28 Python
python使用ddt过程中遇到的问题及解决方案【推荐】
Oct 29 Python
python 同时运行多个程序的实例
Jan 07 Python
python for和else语句趣谈
Jul 02 Python
用python给自己做一款小说阅读器过程详解
Jul 11 Python
python实现静态服务器
Sep 05 Python
Python子进程subpocess原理及用法解析
Jul 16 Python
Python 程序员必须掌握的日志记录
Aug 17 Python
Django model class Meta原理解析
Nov 14 Python
Django模板报TemplateDoesNotExist异常(亲测可行)
Dec 18 Python
一小时学会TensorFlow2之基本操作2实例代码
Sep 04 Python
Pytorch实现图像识别之数字识别(附详细注释)
浅谈Python基础之列表那些事儿
详解Python牛顿插值法
Python中使用subprocess库创建附加进程
有趣的二维码:使用MyQR和qrcode来制作二维码
python保存大型 .mat 数据文件报错超出 IO 限制的操作
May 10 #Python
Python批量将csv文件转化成xml文件的实例
You might like
ftp类(example.php)
2006/10/09 PHP
php侧拉菜单 漂亮,可以向右或者向左展开,支持FF,IE
2009/10/15 PHP
php中将指针移动到数据集初始位置的实现代码[mysql_data_seek]
2012/11/01 PHP
PHP使用memcache缓存技术提高响应速度的方法
2014/12/26 PHP
Thinkphp5框架实现图片、音频和视频文件的上传功能详解
2019/08/27 PHP
jQuery的Ajax时无响应数据的解决方法
2010/05/25 Javascript
js文本框走动跑马灯效果代码分享
2015/08/25 Javascript
JavaScript对象数组的排序处理方法
2015/10/21 Javascript
js过滤HTML标签完整实例
2015/11/26 Javascript
js代码实现下拉菜单【推荐】
2016/12/15 Javascript
原生js实现商品放大镜效果
2017/01/12 Javascript
深入理解Node.js中的进程管理
2017/03/13 Javascript
实现微信小程序的wxml文件和wxss文件在webstrom的支持
2017/06/12 Javascript
微信小程序 检查接口状态实例详解
2017/06/23 Javascript
mac中利用NVM管理不同node版本的方法详解
2017/11/08 Javascript
Vue.js实现的表格增加删除demo示例
2018/05/22 Javascript
解决vue js IOS H5focus无法自动弹出键盘的问题
2018/08/30 Javascript
mpvue+vuex搭建小程序详细教程(完整步骤)
2018/09/30 Javascript
vue改变对象或数组时的刷新机制的方法总结
2019/04/24 Javascript
javascript实现日历效果
2019/06/17 Javascript
小程序最新获取用户昵称和头像的方法总结
2019/09/23 Javascript
Vue父子之间值传递的实例教程
2020/07/02 Javascript
python抓取京东价格分析京东商品价格走势
2014/01/09 Python
python使用Matplotlib画饼图
2018/09/25 Python
python采集微信公众号文章
2018/12/20 Python
Python子进程subpocess原理及用法解析
2020/07/16 Python
波兰补充商店:Muscle Power
2018/10/29 全球购物
法拉利英国精品店:Ferraris Boutique UK
2019/07/20 全球购物
Speedo速比涛德国官方网站:世界领先的泳装品牌
2019/08/26 全球购物
Napapijri西班牙在线商店:夹克、外套、运动衫等
2020/11/05 全球购物
Java的五个基础面试题
2016/02/26 面试题
大学同学十年聚会感言
2014/02/21 职场文书
反邪教警示教育方案
2014/05/13 职场文书
2014年大学团支部工作总结
2014/12/02 职场文书
你真的了解PHP中的引用符号(&)吗
2021/05/12 PHP
Javascript webpack动态import
2022/04/19 Javascript