在Pandas中处理NaN值的方法


Posted in Python onJune 25, 2019

关于NaN值

-在能够使用大型数据集训练学习算法之前,我们通常需要先清理数据, 也就是说,我们需要通过某个方法检测并更正数据中的错误。
- 任何给定数据集可能会出现各种糟糕的数据,例如离群值或不正确的值,但是我们几乎始终会遇到的糟糕数据类型是缺少值。
- Pandas 会为缺少的值分配 NaN 值。

创建一个具有NaN值得 Data Frame

import pandas as pd

# We create a list of Python dictionaries
# 创建一个字典列表
items2 = [{'bikes': 20, 'pants': 30, 'watches': 35, 'shirts': 15, 'shoes':8, 'suits':45},
{'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5, 'shirts': 2, 'shoes':5, 'suits':7},
{'bikes': 20, 'pants': 30, 'watches': 35, 'glasses': 4, 'shoes':10}]

# 创建一个DataFrame并设置行索引
store_items = pd.DataFrame(items2, index = ['store 1', 'store 2', 'store 3'])

# 显示
store_items

显示:

在Pandas中处理NaN值的方法

数据量大时统计NaN的个数

# 计算在store_items中NaN值的个数
x = store_items.isnull().sum().sum()

# 输出
print('在我们DataFrame中NaN的数量:', x)

输出:

在我们DataFrame中NaN的数量: 3

.isnull() 方法返回一个大小和 store_items 一样的布尔型 DataFrame,并用 True 表示具有 NaN 值的元素,用 False 表示非 NaN 值的元素。

store_items.isnull()

显示:

在Pandas中处理NaN值的方法

在 Pandas 中,逻辑值 True 的数字值是 1,逻辑值 False 的数字值是 0。

因此,我们可以通过数逻辑值 True 的数量数出 NaN 值的数量。

为了数逻辑值 True 的总数,我们使用 .sum() 方法两次。

要使用该方法两次,是因为第一个 sum() 返回一个 Pandas Series,其中存储了列上的逻辑值 True 的总数

第二个 sum() 将上述 Pandas Series 中的 1 相加

除了数 NaN 值的数量之外,我们还可以采用相反的方式,我们可以数非 NaN 值的数量。为此,我们可以使用 .count() 方法

print('在我们DataFrame的列中具有非NaN值得数量分别为:\n', store_items.count())

输出:

在我们DataFrame的列中具有非NaN值得数量:
bikes 3
glasses 2
pants 3
shirts 2
shoes 3
suits 2
watches 3
dtype: int64

处理这些 NaN 值

  • 如果 axis = 0,.dropna(axis) 方法将删除包含 NaN 值的任何行
  • 如果 axis = 1,.dropna(axis) 方法将删除包含 NaN 值的任何列
# 删除包含NaN值得任何行
store_items.dropna(axis = 0)

显示为:

在Pandas中处理NaN值的方法

store_items.dropna(axis = 1)

显示为:

在Pandas中处理NaN值的方法

注意:

- .dropna() 方法不在原地地删除具有 NaN 值的行或列。
- 原始 DataFrame 不会改变。你始终可以在 dropna() 方法中将关键字 inplace 设为 True,在原地删除目标行或列。

将NaN值替换为合适的值

我们不再删除 NaN 值,而是将它们替换为合适的值。例如,我们可以选择将所有 NaN 值替换为 0。为此,我们可以使用 .fillna() 方法

store_items.fillna(0)

显示:

在Pandas中处理NaN值的方法

我们还可以使用 .fillna() 方法将 NaN 值替换为 DataFrame 中的上个值,称之为前向填充

.fillna(method = 'ffill', axis) 将通过前向填充 (ffill) 方法沿着给定 axis 使用上个已知值替换 NaN 值

store_items.fillna(method = 'ffill', axis = 0)

显示:

在Pandas中处理NaN值的方法

注意 store 3 中的两个 NaN 值被替换成了它们所在列中的上个值。

但是注意, store 1 中的 NaN 值没有被替换掉。因为这列前面没有值,因为 NaN 值是该列的第一个值。

现在,使用上个行值进行前向填充

store_items.fillna(method = 'ffill', axis = 1)

显示:

在Pandas中处理NaN值的方法

在这种情况下:所有 NaN 值都被替换成了之前的行值

同时,也可以选择用 DataFrame 中之后的值替换 NaN 值,称之为后向填充

# 向后填充列,即为NaN的列值,用其列中的后一个来填充
store_items.fillna(method = 'backfill', axis = 0)

同理:也可以向后填充行,即为NaN的行值,用其行中的后一个来填充

# 向后填充行,即为NaN的行值,用其行中的后一个来填充
store_items.fillna(method = 'backfill', axis = 1)

注意:.fillna() 方法不在原地地替换(填充)NaN 值。也就是说,原始 DataFrame 不会改变。你始终可以在 fillna() 函数中将关键字 inplace 设为 True,在原地替换 NaN 值。

还可以选择使用不同的插值方法替换 NaN 值

.interpolate(method = 'linear', axis) 方法将通过 linear 插值使用沿着给定 axis 的值替换 NaN 值, 这个差值也就是前后或者上下的中间值

store_items.interpolate(method = 'linear', axis = 0)

同时,也可用行值插入

store_items.interpolate(method = 'linear', axis = 1)

和我们看到的其他方法一样,.interpolate() 方法不在原地地替换 NaN 值,图片就省略了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
总结Python编程中三条常用的技巧
May 11 Python
浅谈Python用QQ邮箱发送邮件时授权码的问题
Jan 29 Python
python 字典中文key处理,读取,比较方法
Jul 06 Python
Sanic框架异常处理与中间件操作实例分析
Jul 16 Python
win8下python3.4安装和环境配置图文教程
Jul 31 Python
python特性语法之遍历、公共方法、引用
Aug 08 Python
python与字符编码问题
May 24 Python
浅谈Pandas Series 和 Numpy array中的相同点
Jun 28 Python
Python如何实现的二分查找算法
May 27 Python
Python 没有main函数的原因
Jul 10 Python
python数字类型和占位符详情
Mar 13 Python
Python使用pandas导入csv文件内容的示例代码
Dec 24 Python
python实现websocket的客户端压力测试
Jun 25 #Python
python中metaclass原理与用法详解
Jun 25 #Python
python实现接口并发测试脚本
Jun 25 #Python
Python实现EXCEL表格的排序功能示例
Jun 25 #Python
python实现动态创建类的方法分析
Jun 25 #Python
python pandas写入excel文件的方法示例
Jun 25 #Python
python多线程http压力测试脚本
Jun 25 #Python
You might like
PHP 日期加减的类,很不错
2009/10/10 PHP
php 检查电子邮件函数(自写)
2014/01/16 PHP
PHP 进度条函数的简单实例
2017/09/19 PHP
jQuery 顺便学习下CSS选择器 奇偶匹配nth-child(even)
2010/05/24 Javascript
js过滤数组重复元素的方法
2010/09/05 Javascript
JS 面向对象之神奇的prototype
2011/02/26 Javascript
浏览器解析js生成的html出现样式问题的解决方法
2012/04/16 Javascript
createTextRange()的使用示例含文本框选中部分文字内容
2014/02/24 Javascript
JavaScript学习笔记之取数组中最大值和最小值
2016/03/23 Javascript
每个程序员都需要学习 JavaScript 的7个理由小结
2016/09/03 Javascript
JQuery实现列表中复选框全选反选功能封装(推荐)
2016/11/24 Javascript
localStorage实现便签小程序
2016/11/28 Javascript
javascript显示系统当前时间代码
2016/12/29 Javascript
遍历json获得数据的几种方法小结
2017/01/21 Javascript
Easyui ueditor 整合解决不能编辑的问题(推荐)
2017/06/25 Javascript
vue实现城市列表选择功能
2018/07/16 Javascript
文章或博客自动生成章节目录索引(支持三级)的实现代码
2020/05/10 Javascript
微信小程序实现列表的横向滑动方式
2020/07/15 Javascript
jQuery实现tab栏切换效果
2020/12/22 jQuery
js canvas实现五子棋小游戏
2021/01/22 Javascript
[02:41]DOTA2亚洲邀请赛小组赛第三日 赛事回顾
2015/02/01 DOTA
批量获取及验证HTTP代理的Python脚本
2017/04/23 Python
Python3中简单的文件操作及两个简单小实例分享
2017/06/18 Python
Python复数属性和方法运算操作示例
2017/07/21 Python
python如何查看微信消息撤回
2018/11/27 Python
python爬虫获取新浪新闻教学
2018/12/23 Python
python读取并定位excel数据坐标系详解
2019/06/26 Python
python按行读取文件并找出其中指定字符串
2019/08/08 Python
pytorch-神经网络拟合曲线实例
2020/01/15 Python
python实现梯度法 python最速下降法
2020/03/24 Python
Python ArgumentParse的subparser用法说明
2020/04/20 Python
美国最大的网上冲印店:Shutterfly
2017/01/01 全球购物
介绍一下Java中标识符的命名规则
2014/02/03 面试题
护理职业生涯规划书
2014/01/24 职场文书
党员干部观看《周恩来四个昼夜》思想汇报
2014/09/10 职场文书
解决Vmware虚拟机安装centos8报错“Section %Packages Does Not End With %End. Pane Is Dead”
2022/06/01 Servers