python缺失值的解决方法总结


Posted in Python onJune 09, 2021

1、解决方法

(1)忽视元组。

缺少类别标签时,通常这样做(假设挖掘任务与分类有关),除非元组有多个属性缺失值,否则该方法不太有效。当个属性缺值的百分比变化很大时,其性能特别差。

(2)人工填写缺失值。

一般来说,这种方法需要很长时间,当数据集大且缺少很多值时,这种方法可能无法实现。

(3)使用全局常量填充缺失值。

将缺失的属性值用同一常数(如Unknown或负无限)替换。如果缺失值都是用unknown替换的话,挖掘程序可能会认为形成有趣的概念。因为有同样的价值unknown。因此,这种方法很简单,但不可靠。

(4)使用与给定元组相同类型的所有样本的属性平均值。

(5)使用最可能的值填充缺失值。

可以通过回归、使用贝叶斯形式化的基于推理的工具和决策树的总结来决定。

2、实例

import numpy as np
 
from sklearn.preprocessing import Imputer
 
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
 
import numpy as np
from sklearn.preprocessing import Imputer
 
###1.使用均值填充缺失值
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
imp.fit([[1, 2], [np.nan, 3], [7, 6]])
 
X = [[np.nan, 2], [6, np.nan], [7, 6]]
print(imp.transform(X))  
[[4.         2.        ]
 [6.         3.66666667]
 [7.         6.        ]]

知识点扩充:

缺失值的处理方法

由于各种各样的原因,真实世界中的许多数据集都包含缺失数据,这些数据经常被编码成空格、nans或者是其他的占位符。但是这样的数据集并不能被scikit - learn算法兼容,因为大多数的学习算法都会默认数组中的元素都是数值,因此素偶有的元素都有自己的代表意义。

使用不完整的数据集的一个基本策略就是舍弃掉整行或者整列包含缺失值的数值,但是这样处理会浪费大量有价值的数据。下面是处理缺失值的常用方法:

1.忽略元组

当缺少类别标签时通常这样做(假定挖掘任务涉及分类时),除非元组有多个属性缺失值,否则该方法不是很有效。当每个属性缺少值的百分比变化很大时,它的性能特别差。

2.人工填写缺失值

一般该方法很费时,并且当数据集很大,缺少很多值时,该方法可能行不通。

3.使用一个全局常量填充缺失值

将缺失的属性值用同一个常数(如“Unknown”或 负无穷)替换。如果缺失值都用“unknown”替换,则挖掘程序可能会认为它们形成一个有趣的概念,因为它们都具有相同的值“unknown”。因此,虽然该方法很简单,但是它十分不可靠。

4.使用与给定元组属同一类的所有样本的属性均值

例如:将顾客按照credit_risk分类,则使用具有相同信用度的给定元组的顾客的平均收入替换income中的缺失值。

Python客栈送红包、纸质书

5.使用最可能的值填充缺失值

可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。例如,利用数据集中其他顾客的属性,可以构造一颗决策树来预测income的缺失值。

到此这篇关于python缺失值的解决方法总结的文章就介绍到这了,更多相关如何解决python缺失值内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Pyhton中防止SQL注入的方法
Feb 05 Python
Python中一些自然语言工具的使用的入门教程
Apr 13 Python
Python模糊查询本地文件夹去除文件后缀的实例(7行代码)
Nov 09 Python
python DataFrame 修改列的顺序实例
Apr 10 Python
Anaconda2下实现Python2.7和Python3.5的共存方法
Jun 11 Python
Python实现的远程登录windows系统功能示例
Jun 21 Python
Python Web编程之WSGI协议简介
Jul 18 Python
python使用Matplotlib画条形图
Mar 25 Python
使用 PyTorch 实现 MLP 并在 MNIST 数据集上验证方式
Jan 08 Python
解决python父线程关闭后子线程不关闭问题
Apr 25 Python
python实现mask矩阵示例(根据列表所给元素)
Jul 30 Python
python爬取微博评论的实例讲解
Jan 15 Python
Python提取PDF指定内容并生成新文件
Python激活Anaconda环境变量的详细步骤
Jun 08 #Python
Python序列化与反序列化相关知识总结
Jun 08 #Python
浅谈怎么给Python添加类型标注
Python如何导出导入所有依赖包详解
Jun 08 #Python
OpenCV-Python实现油画效果的实例
OpenCV-Python实现图像平滑处理操作
You might like
php,ajax实现分页
2008/03/27 PHP
PHP几个数学计算的内部函数学习整理
2011/08/06 PHP
php防注入,表单提交值转义的实现详解
2013/06/10 PHP
Thinkphp搜索时首页分页和搜索页保持条件分页的方法
2014/12/05 PHP
thinkphp跨库操作的简单代码实例
2016/09/22 PHP
PHP实现git部署的方法教程
2017/12/19 PHP
php快速导入大量数据的实例方法
2019/09/23 PHP
js实现目录定位正文示例
2013/11/14 Javascript
thinkphp中常用的系统常量和系统变量
2014/03/05 Javascript
使用Jquery获取带特殊符号的ID 标签的方法
2014/04/30 Javascript
JavaScript DOM操作表格及样式
2015/04/13 Javascript
jquery实现手风琴效果
2015/11/20 Javascript
浅谈jQuery添加的HTML,JS失效的问题
2016/10/05 Javascript
jQuery仿写百度百科的目录树
2017/01/03 Javascript
mpvue 如何使用腾讯视频插件的方法
2018/07/16 Javascript
vue根据条件不同显示不同按钮的操作
2020/08/04 Javascript
[02:28]DOTA2英雄基础教程 狼人
2013/12/23 DOTA
Python压缩和解压缩zip文件
2015/02/14 Python
python调用java模块SmartXLS和jpype修改excel文件的方法
2015/04/28 Python
python django事务transaction源码分析详解
2017/03/17 Python
Python3 requests文件下载 期间显示文件信息和下载进度代码实例
2019/08/16 Python
python自动化UI工具发送QQ消息的实例
2019/08/27 Python
PyTorch和Keras计算模型参数的例子
2020/01/02 Python
django修改models重建数据库的操作
2020/03/31 Python
python能否java成为主流语言吗
2020/06/22 Python
彻底弄明白CSS3的Media Queries(跨平台设计)
2010/07/27 HTML / CSS
详解淘宝H5 sign加密算法
2020/08/25 HTML / CSS
工业学校毕业生自荐书
2014/01/03 职场文书
自我介绍演讲稿
2014/01/15 职场文书
酒店副总经理岗位职责范本
2014/02/04 职场文书
绿色环保演讲稿
2014/05/10 职场文书
新闻发布会策划方案
2014/06/12 职场文书
2014年档案室工作总结
2014/12/01 职场文书
聋哑人盗窃罪辩护词
2015/05/21 职场文书
Java 数组内置函数toArray详解
2021/06/28 Java/Android
通过feDisplacementMap和feImage实现水波特效
2022/04/24 HTML / CSS