编程 Python

python缺失值的解决方法总结

Posted in Python onJune 09, 2021

1、解决方法

（1）忽视元组。

缺少类别标签时，通常这样做(假设挖掘任务与分类有关)，除非元组有多个属性缺失值，否则该方法不太有效。当个属性缺值的百分比变化很大时，其性能特别差。

（2）人工填写缺失值。

一般来说，这种方法需要很长时间，当数据集大且缺少很多值时，这种方法可能无法实现。

（3）使用全局常量填充缺失值。

将缺失的属性值用同一常数(如Unknown或负无限)替换。如果缺失值都是用unknown替换的话，挖掘程序可能会认为形成有趣的概念。因为有同样的价值unknown。因此，这种方法很简单，但不可靠。

（4）使用与给定元组相同类型的所有样本的属性平均值。

（5）使用最可能的值填充缺失值。

可以通过回归、使用贝叶斯形式化的基于推理的工具和决策树的总结来决定。

2、实例

import numpy as np
 
from sklearn.preprocessing import Imputer
 
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
 
import numpy as np
from sklearn.preprocessing import Imputer
 
###1.使用均值填充缺失值
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
imp.fit([[1, 2], [np.nan, 3], [7, 6]])
 
X = [[np.nan, 2], [6, np.nan], [7, 6]]
print(imp.transform(X))  
[[4.         2.        ]
 [6.         3.66666667]
 [7.         6.        ]]

知识点扩充：

缺失值的处理方法

由于各种各样的原因，真实世界中的许多数据集都包含缺失数据，这些数据经常被编码成空格、nans或者是其他的占位符。但是这样的数据集并不能被scikit - learn算法兼容，因为大多数的学习算法都会默认数组中的元素都是数值，因此素偶有的元素都有自己的代表意义。

使用不完整的数据集的一个基本策略就是舍弃掉整行或者整列包含缺失值的数值，但是这样处理会浪费大量有价值的数据。下面是处理缺失值的常用方法：

1.忽略元组

当缺少类别标签时通常这样做（假定挖掘任务涉及分类时），除非元组有多个属性缺失值，否则该方法不是很有效。当每个属性缺少值的百分比变化很大时，它的性能特别差。

2.人工填写缺失值

一般该方法很费时，并且当数据集很大，缺少很多值时，该方法可能行不通。

3.使用一个全局常量填充缺失值

将缺失的属性值用同一个常数(如“Unknown”或负无穷)替换。如果缺失值都用“unknown”替换，则挖掘程序可能会认为它们形成一个有趣的概念，因为它们都具有相同的值“unknown”。因此，虽然该方法很简单，但是它十分不可靠。

4.使用与给定元组属同一类的所有样本的属性均值

例如：将顾客按照credit_risk分类，则使用具有相同信用度的给定元组的顾客的平均收入替换income中的缺失值。

Python客栈送红包、纸质书

5.使用最可能的值填充缺失值

可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。例如，利用数据集中其他顾客的属性，可以构造一颗决策树来预测income的缺失值。

到此这篇关于python缺失值的解决方法总结的文章就介绍到这了,更多相关如何解决python缺失值内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python缺失值的解决方法总结

- Author -

小妮浅浅

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python collections模块实例讲解

Apr 07 Python

python自动格式化json文件的方法

Mar 11 Python

python3实现随机数

Jun 25 Python

Python简单过滤字母和数字的方法小结

Jan 09 Python

python如何将多个PDF进行合并

Aug 13 Python

Python爬取爱奇艺电影信息代码实例

Nov 26 Python

python实现视频读取和转化图片

Dec 10 Python

python装饰器原理与用法深入详解

Dec 19 Python

keras和tensorflow使用fit_generator 批次训练操作

Jul 03 Python

Python requests及aiohttp速度对比代码实例

Jul 16 Python

如何实现一个python函数装饰器(Decorator)

Oct 12 Python

python脚本使用阿里云slb对恶意攻击进行封堵的实现

Feb 04 Python

Python提取PDF指定内容并生成新文件

Python激活Anaconda环境变量的详细步骤

Jun 08 #Python

Python序列化与反序列化相关知识总结

Jun 08 #Python

浅谈怎么给Python添加类型标注

Python如何导出导入所有依赖包详解

Jun 08 #Python

OpenCV-Python实现油画效果的实例

OpenCV-Python实现图像平滑处理操作

You might like

浅析php学习的路线图

2013/07/10 PHP

php is_executable判断给定文件名是否可执行实例

2016/09/26 PHP

Javascript匿名函数的一种应用代码封装

2010/06/27 Javascript

模拟用户点击弹出新页面不会被浏览器拦截

2014/04/08 Javascript

AngularJS实现表单验证

2015/01/28 Javascript

JavaScript Sort 的一个错误用法示例

2015/03/20 Javascript

js实现页面跳转的五种方法推荐

2016/03/10 Javascript

Bootstrap CSS布局之表单

2016/12/17 Javascript

微信小程序技巧之show内容展示，上传文件编码问题

2017/01/23 Javascript

vue select二级联动第二级默认选中第一个option值的实例

2018/01/10 Javascript

es6数值的扩展方法

2019/03/11 Javascript

vue中使用props传值的方法

2019/05/08 Javascript

原生js+canvas实现验证码

2020/11/29 Javascript

vue实现简易计算器功能

2021/01/20 Vue.js

python使用标准库根据进程名如何获取进程的pid详解

2017/10/31 Python

Python使用pickle模块存储数据报错解决示例代码

2018/01/26 Python

Python 堆叠柱状图绘制方法

2019/07/29 Python

Python+unittest+requests 接口自动化测试框架搭建教程

2020/10/09 Python

Python实现LR1文法的完整实例代码

2020/10/25 Python

Python中return函数返回值实例用法

2020/11/19 Python

python对输出的奇数偶数排序实例代码

2020/12/04 Python

HTML5新增加的功能详解

2016/09/05 HTML / CSS

美国餐厅用品和厨房设备批发网站：KaTom Restaurant Supply

2018/01/27 全球购物

极度干燥澳大利亚官方网站：Superdry澳大利亚

2019/03/28 全球购物

台湾演唱会订票网站：StubHub台湾

2019/06/11 全球购物

会计学个人自荐信模板

2013/12/13 职场文书

大学自我鉴定

2013/12/20 职场文书

违反校纪校规检讨书

2014/02/15 职场文书

古汉语文学求职信范文

2014/03/16 职场文书

公休请假条

2014/04/11 职场文书

素质教育标语

2014/06/27 职场文书

优秀教师先进个人事迹材料

2014/08/31 职场文书

加强作风建设演讲稿

2014/10/24 职场文书

客房部经理岗位职责

2015/02/02 职场文书

离职信范文

2015/06/23 职场文书

用python画城市轮播地图

2021/05/28 Python