python缺失值的解决方法总结


Posted in Python onJune 09, 2021

1、解决方法

(1)忽视元组。

缺少类别标签时,通常这样做(假设挖掘任务与分类有关),除非元组有多个属性缺失值,否则该方法不太有效。当个属性缺值的百分比变化很大时,其性能特别差。

(2)人工填写缺失值。

一般来说,这种方法需要很长时间,当数据集大且缺少很多值时,这种方法可能无法实现。

(3)使用全局常量填充缺失值。

将缺失的属性值用同一常数(如Unknown或负无限)替换。如果缺失值都是用unknown替换的话,挖掘程序可能会认为形成有趣的概念。因为有同样的价值unknown。因此,这种方法很简单,但不可靠。

(4)使用与给定元组相同类型的所有样本的属性平均值。

(5)使用最可能的值填充缺失值。

可以通过回归、使用贝叶斯形式化的基于推理的工具和决策树的总结来决定。

2、实例

import numpy as np
 
from sklearn.preprocessing import Imputer
 
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
 
import numpy as np
from sklearn.preprocessing import Imputer
 
###1.使用均值填充缺失值
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
imp.fit([[1, 2], [np.nan, 3], [7, 6]])
 
X = [[np.nan, 2], [6, np.nan], [7, 6]]
print(imp.transform(X))  
[[4.         2.        ]
 [6.         3.66666667]
 [7.         6.        ]]

知识点扩充:

缺失值的处理方法

由于各种各样的原因,真实世界中的许多数据集都包含缺失数据,这些数据经常被编码成空格、nans或者是其他的占位符。但是这样的数据集并不能被scikit - learn算法兼容,因为大多数的学习算法都会默认数组中的元素都是数值,因此素偶有的元素都有自己的代表意义。

使用不完整的数据集的一个基本策略就是舍弃掉整行或者整列包含缺失值的数值,但是这样处理会浪费大量有价值的数据。下面是处理缺失值的常用方法:

1.忽略元组

当缺少类别标签时通常这样做(假定挖掘任务涉及分类时),除非元组有多个属性缺失值,否则该方法不是很有效。当每个属性缺少值的百分比变化很大时,它的性能特别差。

2.人工填写缺失值

一般该方法很费时,并且当数据集很大,缺少很多值时,该方法可能行不通。

3.使用一个全局常量填充缺失值

将缺失的属性值用同一个常数(如“Unknown”或 负无穷)替换。如果缺失值都用“unknown”替换,则挖掘程序可能会认为它们形成一个有趣的概念,因为它们都具有相同的值“unknown”。因此,虽然该方法很简单,但是它十分不可靠。

4.使用与给定元组属同一类的所有样本的属性均值

例如:将顾客按照credit_risk分类,则使用具有相同信用度的给定元组的顾客的平均收入替换income中的缺失值。

Python客栈送红包、纸质书

5.使用最可能的值填充缺失值

可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。例如,利用数据集中其他顾客的属性,可以构造一颗决策树来预测income的缺失值。

到此这篇关于python缺失值的解决方法总结的文章就介绍到这了,更多相关如何解决python缺失值内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python操作CouchDB的方法
Oct 08 Python
Python脚本在Appium库上对移动应用实现自动化测试
Apr 17 Python
Python用模块pytz来转换时区
Aug 19 Python
python在ubuntu中的几种安装方法(小结)
Dec 08 Python
Python基于csv模块实现读取与写入csv数据的方法
Jan 18 Python
基于随机梯度下降的矩阵分解推荐算法(python)
Aug 31 Python
python将处理好的图像保存到指定目录下的方法
Jan 10 Python
使用Python轻松完成垃圾分类(基于图像识别)
Jul 09 Python
python 使用plt画图,去除图片四周的白边方法
Jul 09 Python
如何基于Python实现数字类型转换
Feb 07 Python
教你用python控制安卓手机
May 13 Python
PYTHON基于Pyecharts绘制常见的直角坐标系图表
Apr 28 Python
Python提取PDF指定内容并生成新文件
Python激活Anaconda环境变量的详细步骤
Jun 08 #Python
Python序列化与反序列化相关知识总结
Jun 08 #Python
浅谈怎么给Python添加类型标注
Python如何导出导入所有依赖包详解
Jun 08 #Python
OpenCV-Python实现油画效果的实例
OpenCV-Python实现图像平滑处理操作
You might like
yii,CI,yaf框架+smarty模板使用方法
2015/12/29 PHP
PHP中如何判断exec函数执行成功?
2016/08/04 PHP
PHP7新特性
2021/03/09 PHP
B/S开发中常用javaScript技术与代码
2007/03/09 Javascript
js加解密 脚本解密
2008/02/22 Javascript
JavaScript实现定时隐藏与显示图片的方法
2015/08/06 Javascript
使用JQuery实现的分页插件分享
2015/11/05 Javascript
js检测iframe是否加载完成的方法
2015/11/26 Javascript
基于jquery实现全屏滚动效果
2015/11/26 Javascript
jquery弹出框插件jquery.ui.dialog用法分析
2016/08/20 Javascript
详解Angular的双向数据绑定(MV-VM)
2016/12/26 Javascript
通过 JS 判断页面是否有滚动条的实现方法
2018/04/05 Javascript
浅谈Webpack 是如何加载模块的
2018/05/24 Javascript
NodeJS 实现多语言的示例代码
2018/09/11 NodeJs
解决v-for中使用v-if或者v-bind:class失效的问题
2018/09/25 Javascript
Vue Prop属性功能与用法实例详解
2019/02/23 Javascript
ES6新增的数组知识实例小结
2020/05/23 Javascript
[04:45]DOTA2上海特级锦标赛主赛事第四日RECAP
2016/03/06 DOTA
Python采集腾讯新闻实例
2014/07/10 Python
Python压缩和解压缩zip文件
2015/02/14 Python
python实现随机调用一个浏览器打开网页
2018/04/21 Python
深入了解和应用Python 装饰器 @decorator
2019/04/02 Python
python获取Pandas列名的几种方法
2019/08/07 Python
4行Python代码生成图像验证码(2种)
2020/04/07 Python
学会python自动收发邮件 代替你问候女友
2020/05/20 Python
Python 实现PS滤镜的旋涡特效
2020/12/03 Python
专门经营化妆刷的美国彩妆品牌:Sigma Beauty
2017/09/11 全球购物
专科毕业生求职简历的自我评价
2013/10/12 职场文书
初一学生期末评语
2014/04/24 职场文书
大学新闻系自荐书
2014/05/31 职场文书
比赛口号大全
2014/06/10 职场文书
2014年结对帮扶工作总结
2014/12/17 职场文书
会计工作能力自我评价
2015/03/05 职场文书
2015年骨干教师工作总结
2015/05/26 职场文书
Win11安装受阻怎么办? Windows11安装问题与解决方案汇总
2021/11/21 数码科技
nginx容器方式反向代理实战
2022/04/18 Servers