编程 Python

Pandas 缺失数据处理的实现

Posted in Python onNovember 04, 2019

数据丢失(缺失)在现实生活中总是一个问题。机器学习和数据挖掘等领域由于数据缺失导致的数据质量差，在模型预测的准确性上面临着严重的问题。在这些领域，缺失值处理是使模型更加准确和有效的重点。

使用重构索引(reindexing)，创建了一个缺少值的DataFrame。在输出中，NaN表示不是数字的值。

一、检查缺失值

为了更容易地检测缺失值(以及跨越不同的数组dtype)，Pandas提供了isnull()和notnull()函数，它们也是Series和DataFrame对象的方法

示例1

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3),
         index=['a', 'c', 'e', 'f','h'],
         columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

print(df)
print('\n')

print (df['one'].isnull())

输出结果：

        one       two     three
a 0.036297 -0.615260 -1.341327
b       NaN       NaN       NaN
c -1.908168 -0.779304 0.212467
d       NaN       NaN       NaN
e 0.527409 -2.432343 0.190436
f 1.428975 -0.364970 1.084148
g       NaN       NaN       NaN
h 0.763328 -0.818729 0.240498

a    False
b     True
c    False
d     True
e    False
f    False
g     True
h    False
Name: one, dtype: bool

示例2

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

print (df['one'].notnull())

输出结果：
a     True
b    False
c     True
d    False
e     True
f     True
g    False
h     True
Name: one, dtype: bool

二、缺少数据的计算

在求和数据时，NA将被视为0
如果数据全部是NA，那么结果将是NA

实例1

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

print(df)
print('\n')

print (df['one'].sum())

输出结果：

        one       two     three
a -1.191036 0.945107 -0.806292
b       NaN       NaN       NaN
c 0.127794 -1.812588 -0.466076
d       NaN       NaN       NaN
e 2.358568 0.559081 1.486490
f -0.242589 0.574916 -0.831853
g       NaN       NaN       NaN
h -0.328030 1.815404 -1.706736

0.7247067964060545

示例2

import pandas as pd

df = pd.DataFrame(index=[0,1,2,3,4,5],columns=['one','two'])

print(df)
print('\n')

print (df['one'].sum())

输出结果：

one two
0 NaN NaN
1 NaN NaN
2 NaN NaN
3 NaN NaN
4 NaN NaN
5 NaN NaN

0

三、填充缺少数据

Pandas提供了各种方法来清除缺失的值。fillna()函数可以通过几种方法用非空数据“填充”NA值。

用标量值替换NaN

以下程序显示如何用0替换NaN。

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(3, 3), index=['a', 'c', 'e'],columns=['one','two', 'three'])

df = df.reindex(['a', 'b', 'c'])

print (df)
print('\n')

print ("NaN replaced with '0':")
print (df.fillna(0))

输出结果：

        one       two     three
a -0.479425 -1.711840 -1.453384
b       NaN       NaN       NaN
c -0.733606 -0.813315 0.476788

NaN replaced with '0':
        one       two     three
a -0.479425 -1.711840 -1.453384
b 0.000000 0.000000 0.000000
c -0.733606 -0.813315 0.476788

在这里填充零值; 当然，也可以填写任何其他的值。

替换丢失(或)通用值

很多时候，必须用一些具体的值取代一个通用的值。可以通过应用替换方法来实现这一点。用标量值替换NA是fillna()函数的等效行为。

示例

import pandas as pd

df = pd.DataFrame({'one':[10,20,30,40,50,2000],'two':[1000,0,30,40,50,60]})

print(df)
print('\n')

print (df.replace({1000:10,2000:60}))

输出结果：

    one   two
0    10 1000
1    20     0
2    30    30
3    40    40
4    50    50
5 2000    60

   one two
0   10   10
1   20    0
2   30   30
3   40   40
4   50   50
5   60   60

填写NA前进和后退

使用重构索引章节讨论的填充概念，来填补缺失的值。

方法	动作
pad/fill	填充方法向前
bfill/backfill	填充方法向后

示例1

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

print(df)
print('\n')

print (df.fillna(method='pad'))

输出结果：

        one       two     three
a -0.023243 1.671621 -1.687063
b       NaN       NaN       NaN
c -0.933355 0.609602 -0.620189
d       NaN       NaN       NaN
e 0.151455 -1.324563 -0.598897
f 0.605670 -0.924828 -1.050643
g       NaN       NaN       NaN
h 0.892414 -0.137194 -1.101791

        one       two     three
a -0.023243 1.671621 -1.687063
b -0.023243 1.671621 -1.687063
c -0.933355 0.609602 -0.620189
d -0.933355 0.609602 -0.620189
e 0.151455 -1.324563 -0.598897
f 0.605670 -0.924828 -1.050643
g 0.605670 -0.924828 -1.050643
h 0.892414 -0.137194 -1.101791

示例2

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

print (df.fillna(method='backfill'))

输出结果：

one two three
a 2.278454 1.550483 -2.103731
b -0.779530 0.408493 1.247796
c -0.779530 0.408493 1.247796
d 0.262713 -1.073215 0.129808
e 0.262713 -1.073215 0.129808
f -0.600729 1.310515 -0.877586
g 0.395212 0.219146 -0.175024
h 0.395212 0.219146 -0.175024

四、丢失缺少的值

使用dropna函数和axis参数。默认情况下，axis = 0，即在行上应用，这意味着如果行内的任何值是NA，那么整个行被排除。

实例1

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f','h'],columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

print (df.dropna())

输出结果：

one two three
a -0.719623 0.028103 -1.093178
c 0.040312 1.729596 0.451805
e -1.029418 1.920933 1.289485
f 1.217967 1.368064 0.527406
h 0.667855 0.147989 -1.035978

示例2

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

print (df.dropna(axis=1))

输出结果：

Empty DataFrame
Columns: []
Index: [a, b, c, d, e, f, g, h]

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Pandas 缺失数据处理的实现

- Author -

PythonGirl

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

简单使用Python自动生成文章

Dec 25 Python

Python调用命令行进度条的方法

May 05 Python

python自定义解析简单xml格式文件的方法

May 11 Python

Python探索之URL Dispatcher实例详解

Oct 28 Python

Python cookbook(数据结构与算法)实现对不原生支持比较操作的对象排序算法示例

Mar 15 Python

python 阶乘累加和的实例

Feb 01 Python

Django项目使用CircleCI的方法示例

Jul 14 Python

python 爬取古诗文存入mysql数据库的方法

Jan 08 Python

python 实现PIL模块在图片画线写字

May 16 Python

Django 用户认证Auth组件的使用

Nov 30 Python

Python 多线程处理任务实例

Nov 07 Python

使用opencv-python如何打开USB或者笔记本前置摄像头

Jun 21 Python

python tkinter canvas使用实例

Nov 04 #Python

python matplotlib饼状图参数及用法解析

Nov 04 #Python

python制作朋友圈九宫格图片

Nov 03 #Python

python使用yield压平嵌套字典的超简单方法

Nov 02 #Python

基于python实现从尾到头打印链表

Nov 02 #Python

pandas 空数据处理方法详解

Nov 02 #Python

python pyinstaller打包exe报错的解决方法

Nov 02 #Python

You might like

造势之举？韩国总统候选人发布《星际争霸》地图

2017/04/22 星际争霸

PHP实现微信提现（企业付款到零钱）

2019/08/01 PHP

javascript 写类方式之八

2009/07/05 Javascript

超级酷和最实用的jQuery实例收集(20个)

2010/04/21 Javascript

js创建元素（节点）示例

2014/01/02 Javascript

qq悬浮代码(兼容各个浏览器)

2014/01/29 Javascript

Javascript 按位取反运算符 (~)

2014/02/04 Javascript

JavaScript实现的购物车效果可以运用在好多地方

2014/05/09 Javascript

Javascript监视变量变化的方法

2015/06/09 Javascript

JavaScript学习笔记之检测客户端类型是（引擎、浏览器、平台、操作系统、移动设备）

2015/12/03 Javascript

浅析javascript函数表达式

2016/02/10 Javascript

vue-cli+webpack记事本项目创建

2017/04/01 Javascript

使用 Javascript 实现浏览器推送提醒功能的示例

2017/11/03 Javascript

Angular 作用域scope的具体使用

2017/12/11 Javascript

vue-router路由懒加载和权限控制详解

2017/12/13 Javascript

如何从零开始利用js手写一个Promise库详解

2018/04/19 Javascript

Vue项目添加动态浏览器头部title的方法

2018/07/11 Javascript

webpack打包非模块化js的方法

2018/10/24 Javascript

通过JS运行机制的角度说说作用域

2019/03/12 Javascript

jQuery动态生成的元素绑定事件操作实例分析

2019/05/04 jQuery

javascript sort()对数组中的元素进行排序详解

2019/10/13 Javascript

python 文件和路径操作函数小结

2009/11/23 Python

Python 专题五列表基础知识（二维list排序、获取下标和处理txt文本实例）

2017/03/20 Python

django从请求到响应的过程深入讲解

2018/08/01 Python

对python中不同模块(函数、类、变量)的调用详解

2019/07/16 Python

Python列表删除元素del、pop()和remove()的区别小结

2019/09/11 Python

css3使网页、图片变成灰色兼容大多数浏览器

2014/07/02 HTML / CSS

新西兰领先的内衣店：Bendon Lingerie新西兰

2018/07/11 全球购物

护理专业毕业生推荐信

2013/10/31 职场文书

丑小鸭教学反思

2014/02/03 职场文书

主管会计岗位职责

2014/03/13 职场文书

护士上岗前培训自我鉴定

2014/04/20 职场文书

思想政治表现评语

2015/01/04 职场文书

2015年度质量工作总结报告

2015/04/27 职场文书

婚宴父母致辞

2015/07/27 职场文书

php微信小程序解包过程实例详解

2021/03/31 PHP