在Pandas中处理NaN值的方法


Posted in Python onJune 25, 2019

关于NaN值

-在能够使用大型数据集训练学习算法之前,我们通常需要先清理数据, 也就是说,我们需要通过某个方法检测并更正数据中的错误。
- 任何给定数据集可能会出现各种糟糕的数据,例如离群值或不正确的值,但是我们几乎始终会遇到的糟糕数据类型是缺少值。
- Pandas 会为缺少的值分配 NaN 值。

创建一个具有NaN值得 Data Frame

import pandas as pd

# We create a list of Python dictionaries
# 创建一个字典列表
items2 = [{'bikes': 20, 'pants': 30, 'watches': 35, 'shirts': 15, 'shoes':8, 'suits':45},
{'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5, 'shirts': 2, 'shoes':5, 'suits':7},
{'bikes': 20, 'pants': 30, 'watches': 35, 'glasses': 4, 'shoes':10}]

# 创建一个DataFrame并设置行索引
store_items = pd.DataFrame(items2, index = ['store 1', 'store 2', 'store 3'])

# 显示
store_items

显示:

在Pandas中处理NaN值的方法

数据量大时统计NaN的个数

# 计算在store_items中NaN值的个数
x = store_items.isnull().sum().sum()

# 输出
print('在我们DataFrame中NaN的数量:', x)

输出:

在我们DataFrame中NaN的数量: 3

.isnull() 方法返回一个大小和 store_items 一样的布尔型 DataFrame,并用 True 表示具有 NaN 值的元素,用 False 表示非 NaN 值的元素。

store_items.isnull()

显示:

在Pandas中处理NaN值的方法

在 Pandas 中,逻辑值 True 的数字值是 1,逻辑值 False 的数字值是 0。

因此,我们可以通过数逻辑值 True 的数量数出 NaN 值的数量。

为了数逻辑值 True 的总数,我们使用 .sum() 方法两次。

要使用该方法两次,是因为第一个 sum() 返回一个 Pandas Series,其中存储了列上的逻辑值 True 的总数

第二个 sum() 将上述 Pandas Series 中的 1 相加

除了数 NaN 值的数量之外,我们还可以采用相反的方式,我们可以数非 NaN 值的数量。为此,我们可以使用 .count() 方法

print('在我们DataFrame的列中具有非NaN值得数量分别为:\n', store_items.count())

输出:

在我们DataFrame的列中具有非NaN值得数量:
bikes 3
glasses 2
pants 3
shirts 2
shoes 3
suits 2
watches 3
dtype: int64

处理这些 NaN 值

  • 如果 axis = 0,.dropna(axis) 方法将删除包含 NaN 值的任何行
  • 如果 axis = 1,.dropna(axis) 方法将删除包含 NaN 值的任何列
# 删除包含NaN值得任何行
store_items.dropna(axis = 0)

显示为:

在Pandas中处理NaN值的方法

store_items.dropna(axis = 1)

显示为:

在Pandas中处理NaN值的方法

注意:

- .dropna() 方法不在原地地删除具有 NaN 值的行或列。
- 原始 DataFrame 不会改变。你始终可以在 dropna() 方法中将关键字 inplace 设为 True,在原地删除目标行或列。

将NaN值替换为合适的值

我们不再删除 NaN 值,而是将它们替换为合适的值。例如,我们可以选择将所有 NaN 值替换为 0。为此,我们可以使用 .fillna() 方法

store_items.fillna(0)

显示:

在Pandas中处理NaN值的方法

我们还可以使用 .fillna() 方法将 NaN 值替换为 DataFrame 中的上个值,称之为前向填充

.fillna(method = 'ffill', axis) 将通过前向填充 (ffill) 方法沿着给定 axis 使用上个已知值替换 NaN 值

store_items.fillna(method = 'ffill', axis = 0)

显示:

在Pandas中处理NaN值的方法

注意 store 3 中的两个 NaN 值被替换成了它们所在列中的上个值。

但是注意, store 1 中的 NaN 值没有被替换掉。因为这列前面没有值,因为 NaN 值是该列的第一个值。

现在,使用上个行值进行前向填充

store_items.fillna(method = 'ffill', axis = 1)

显示:

在Pandas中处理NaN值的方法

在这种情况下:所有 NaN 值都被替换成了之前的行值

同时,也可以选择用 DataFrame 中之后的值替换 NaN 值,称之为后向填充

# 向后填充列,即为NaN的列值,用其列中的后一个来填充
store_items.fillna(method = 'backfill', axis = 0)

同理:也可以向后填充行,即为NaN的行值,用其行中的后一个来填充

# 向后填充行,即为NaN的行值,用其行中的后一个来填充
store_items.fillna(method = 'backfill', axis = 1)

注意:.fillna() 方法不在原地地替换(填充)NaN 值。也就是说,原始 DataFrame 不会改变。你始终可以在 fillna() 函数中将关键字 inplace 设为 True,在原地替换 NaN 值。

还可以选择使用不同的插值方法替换 NaN 值

.interpolate(method = 'linear', axis) 方法将通过 linear 插值使用沿着给定 axis 的值替换 NaN 值, 这个差值也就是前后或者上下的中间值

store_items.interpolate(method = 'linear', axis = 0)

同时,也可用行值插入

store_items.interpolate(method = 'linear', axis = 1)

和我们看到的其他方法一样,.interpolate() 方法不在原地地替换 NaN 值,图片就省略了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现的简单发送邮件脚本分享
Nov 07 Python
Python中运行并行任务技巧
Feb 26 Python
python3简单实现微信爬虫
Apr 09 Python
Python 打印中文字符的三种方法
Aug 14 Python
python查看模块安装位置的方法
Oct 16 Python
Python网页正文转换语音文件的操作方法
Dec 09 Python
Python基于OpenCV实现人脸检测并保存
Jul 23 Python
python飞机大战pygame游戏之敌机出场实现方法详解
Dec 17 Python
python使用建议技巧分享(三)
Aug 18 Python
如何通过Python实现RabbitMQ延迟队列
Nov 28 Python
细说NumPy数组的四种乘法的使用
Dec 18 Python
Python编程中Python与GIL互斥锁关系作用分析
Sep 15 Python
python实现websocket的客户端压力测试
Jun 25 #Python
python中metaclass原理与用法详解
Jun 25 #Python
python实现接口并发测试脚本
Jun 25 #Python
Python实现EXCEL表格的排序功能示例
Jun 25 #Python
python实现动态创建类的方法分析
Jun 25 #Python
python pandas写入excel文件的方法示例
Jun 25 #Python
python多线程http压力测试脚本
Jun 25 #Python
You might like
PHP5.0正式发布 不完全兼容PHP4 新增多项功能
2006/10/09 PHP
Trying to clone an uncloneable object of class Imagic的解决方法
2012/01/11 PHP
PHP与MongoDB简介|安全|M+PHP应用实例详解
2013/06/17 PHP
PHP 字符串长度判断效率更高的方法
2014/03/02 PHP
ThinkPHP使用UTFWry地址库进行IP定位实例
2014/04/01 PHP
用PHP生成excel文件到指定目录
2015/06/22 PHP
PHP 7.4 新语法之箭头函数实例详解
2019/05/09 PHP
jQuery使用removeClass方法删除元素指定Class的方法
2015/03/26 Javascript
Jquery幻灯片特效代码分享--打开页面随机选择切换方式(3)
2015/08/15 Javascript
基于JavaScript判断浏览器到底是关闭还是刷新(超准确)
2016/02/01 Javascript
详解Node.js包的工程目录与NPM包管理器的使用
2016/02/16 Javascript
Backbone.js框架中Model与Collection的使用实例
2016/05/07 Javascript
浅谈javascript中new操作符的原理
2016/06/07 Javascript
解决eclipse中没有js代码提示的问题
2018/10/10 Javascript
Node.js使用supervisor进行开发中调试的方法
2019/03/26 Javascript
小程序如何支持使用 async/await详解
2019/09/12 Javascript
Nodejs监控事件循环异常示例详解
2019/09/22 NodeJs
Python中列表、字典、元组数据结构的简单学习笔记
2016/03/20 Python
python Pygame的具体使用讲解
2017/11/03 Python
Python3实现的简单三级菜单功能示例
2019/03/12 Python
基于python3 pyQt5 QtDesignner实现窗口化猜数字游戏功能
2019/07/15 Python
CSS3 Columns分列式布局方法简介
2014/05/03 HTML / CSS
boostrap modal 闪现问题的解决方法
2020/09/01 HTML / CSS
Pretty Little Thing爱尔兰:时尚女性服饰
2017/03/27 全球购物
倩碧香港官方网站:Clinique香港
2017/11/13 全球购物
飞利浦法国官网:Philips法国
2019/07/10 全球购物
Love, Bonito国际官网:新加坡女装品牌
2021/03/13 全球购物
Strathberry苏贝瑞中国官网:西班牙高级工匠手工打造
2020/10/19 全球购物
怎么写好自荐信
2013/10/30 职场文书
大学生如何写自荐信
2014/01/08 职场文书
鼋头渚导游词
2015/02/05 职场文书
大学生敬老院活动总结
2015/05/07 职场文书
辩论赛开场白大全(主持人+辩手)
2015/05/29 职场文书
JavaScript与JQuery框架基础入门教程
2021/07/15 Javascript
javascript的setTimeout()使用方法总结
2021/11/20 Javascript
基于Redis zSet实现滑动窗口对短信进行防刷限流的问题
2022/02/12 Redis