python缺失值的解决方法总结


Posted in Python onJune 09, 2021

1、解决方法

(1)忽视元组。

缺少类别标签时,通常这样做(假设挖掘任务与分类有关),除非元组有多个属性缺失值,否则该方法不太有效。当个属性缺值的百分比变化很大时,其性能特别差。

(2)人工填写缺失值。

一般来说,这种方法需要很长时间,当数据集大且缺少很多值时,这种方法可能无法实现。

(3)使用全局常量填充缺失值。

将缺失的属性值用同一常数(如Unknown或负无限)替换。如果缺失值都是用unknown替换的话,挖掘程序可能会认为形成有趣的概念。因为有同样的价值unknown。因此,这种方法很简单,但不可靠。

(4)使用与给定元组相同类型的所有样本的属性平均值。

(5)使用最可能的值填充缺失值。

可以通过回归、使用贝叶斯形式化的基于推理的工具和决策树的总结来决定。

2、实例

import numpy as np
 
from sklearn.preprocessing import Imputer
 
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
 
import numpy as np
from sklearn.preprocessing import Imputer
 
###1.使用均值填充缺失值
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
imp.fit([[1, 2], [np.nan, 3], [7, 6]])
 
X = [[np.nan, 2], [6, np.nan], [7, 6]]
print(imp.transform(X))  
[[4.         2.        ]
 [6.         3.66666667]
 [7.         6.        ]]

知识点扩充:

缺失值的处理方法

由于各种各样的原因,真实世界中的许多数据集都包含缺失数据,这些数据经常被编码成空格、nans或者是其他的占位符。但是这样的数据集并不能被scikit - learn算法兼容,因为大多数的学习算法都会默认数组中的元素都是数值,因此素偶有的元素都有自己的代表意义。

使用不完整的数据集的一个基本策略就是舍弃掉整行或者整列包含缺失值的数值,但是这样处理会浪费大量有价值的数据。下面是处理缺失值的常用方法:

1.忽略元组

当缺少类别标签时通常这样做(假定挖掘任务涉及分类时),除非元组有多个属性缺失值,否则该方法不是很有效。当每个属性缺少值的百分比变化很大时,它的性能特别差。

2.人工填写缺失值

一般该方法很费时,并且当数据集很大,缺少很多值时,该方法可能行不通。

3.使用一个全局常量填充缺失值

将缺失的属性值用同一个常数(如“Unknown”或 负无穷)替换。如果缺失值都用“unknown”替换,则挖掘程序可能会认为它们形成一个有趣的概念,因为它们都具有相同的值“unknown”。因此,虽然该方法很简单,但是它十分不可靠。

4.使用与给定元组属同一类的所有样本的属性均值

例如:将顾客按照credit_risk分类,则使用具有相同信用度的给定元组的顾客的平均收入替换income中的缺失值。

Python客栈送红包、纸质书

5.使用最可能的值填充缺失值

可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。例如,利用数据集中其他顾客的属性,可以构造一颗决策树来预测income的缺失值。

到此这篇关于python缺失值的解决方法总结的文章就介绍到这了,更多相关如何解决python缺失值内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
用Python编写简单的定时器的方法
May 02 Python
浅谈Python由__dict__和dir()引发的一些思考
Oct 30 Python
Python3实现发送QQ邮件功能(html)
Dec 15 Python
今天 平安夜 Python 送你一顶圣诞帽 @微信官方
Dec 25 Python
python链接oracle数据库以及数据库的增删改查实例
Jan 30 Python
python3.4.3下逐行读入txt文本并去重的方法
Apr 29 Python
python调用百度语音识别实现大音频文件语音识别功能
Aug 30 Python
Python3.6实现带有简单界面的有道翻译小程序
Apr 16 Python
通过python检测字符串的字母
Feb 18 Python
Pycharm激活码激活两种快速方式(附最新激活码和插件)
Mar 12 Python
Python函数默认参数常见问题及解决方案
Mar 26 Python
利用django创建一个简易的博客网站的示例
Sep 29 Python
Python提取PDF指定内容并生成新文件
Python激活Anaconda环境变量的详细步骤
Jun 08 #Python
Python序列化与反序列化相关知识总结
Jun 08 #Python
浅谈怎么给Python添加类型标注
Python如何导出导入所有依赖包详解
Jun 08 #Python
OpenCV-Python实现油画效果的实例
OpenCV-Python实现图像平滑处理操作
You might like
中国广播史趣谈 — 几个历史第一次
2021/03/01 无线电
php面向对象全攻略 (十七) 自动加载类
2009/09/30 PHP
PHP 命令行工具 shell_exec, exec, passthru, system详细使用介绍
2011/09/11 PHP
PHP入门经历和学习过程分享
2014/04/11 PHP
使用PHP uniqid函数生成唯一ID
2015/11/18 PHP
Laravel5.1数据库连接、创建数据库、创建model及创建控制器的方法
2016/03/29 PHP
Yii2中Restful API原理实例分析
2016/07/25 PHP
thinkphp5修改view到根目录实例方法
2019/07/02 PHP
Yii Framework框架开发微信公众平台示例
2020/04/26 PHP
jQueryUI写一个调整分类的拖放效果实现代码
2012/05/10 Javascript
javascript实现动态侧边栏代码
2014/02/19 Javascript
javascript正则表达式定义(语法)总结
2016/01/08 Javascript
Node.js实用代码段之正确拼接Buffer
2016/03/17 Javascript
基于JavaScript实现无限加载瀑布流
2017/07/21 Javascript
vue.js组件vue-waterfall-easy实现瀑布流效果
2017/08/22 Javascript
jQuery 实现鼠标画框并对框内数据选中的实例代码
2017/08/29 jQuery
JS处理数据四舍五入(tofixed与round的区别详解)
2017/10/26 Javascript
vue指令只能输入正数并且只能输入一个小数点的方法
2018/06/08 Javascript
js中let能否完全替代IIFE
2019/06/15 Javascript
VUE.CLI4.0配置多页面入口的实现
2019/11/25 Javascript
Python实现的微信公众号群发图片与文本消息功能实例详解
2017/06/30 Python
Django框架视图函数设计示例
2019/07/29 Python
jupyter notebook 恢复误删单元格或者历史代码的实现
2020/04/17 Python
智能电子秤、手表和健康监测仪:Withings(之前为诺基亚健康)
2018/10/30 全球购物
Dogeared官网:在美国手工制作的珠宝
2019/08/24 全球购物
汽车维修专业毕业生的求职信分享
2013/12/04 职场文书
心理健康心得体会
2014/01/02 职场文书
黄金酒广告词
2014/03/21 职场文书
六一儿童节主持词
2014/03/21 职场文书
中学教师师德师风演讲稿
2014/08/22 职场文书
标准大学生职业生涯规划书写作指南
2014/09/18 职场文书
网络工程专业大学生求职信
2014/10/01 职场文书
2015年乡镇卫生院妇幼保健工作总结
2015/05/19 职场文书
公司团队口号霸气押韵
2015/12/24 职场文书
导游词之四川熊猫基地
2020/01/13 职场文书
Java基础-封装和继承
2021/07/02 Java/Android