python常用数据重复项处理方法


Posted in Python onNovember 22, 2019

在数据的处理过程中,一般都需要进行数据清洗工作,如数据集是否存在重复,是否存在缺失,数据是否具有完整性和一致性,数据中是否存在异常值等.发现诸如此类的问题都需要针对性地处理,下面我们一起学习常用的数据清洗方法.

重复观测处理

重复观测:指观测行存在重复的现象,重复观测的存在会影响数据分析和挖掘结果的准确性,所以在数据分析和建模之前需要进行观测的重复性检验,如果存在重复观测,

还需要进行重复项的删除

在数据的收集过程中,可能会存在重复观测的出现,例如通过网络爬虫,就比较容易产生重复数据.如下表,是通过爬虫获得某APP市场中电商类APP的下载量数据(部分)

python常用数据重复项处理方法

通过观测可以看出唯品会和当当出现了三次.如果收集上来的不是10行,而是10万行,甚至更多是,就无法通过肉眼的方式检测数据是否存在重复项了.

下面我们看用python怎么来处理重复项的检查,以及如何删除数据项中的重复项

代码:

import pandas as pd
df = pd.read_excel(r'D:\data_test04.xlsx')
print('数据集是否存在重复观测: \n',any(df.duplicated()))

out:

数据集是否存在重复观测:

True

代码就是简单的两行就处理好了

可以看出检测数据集的记录是否存在重复,使用duplicated (英文单词的意思就是重复,复制的意思)方法,但是该方法返回的是数据集每一行的检验结果,为了能够得到最直接的结果,可以使用any函数,该函数表示的是在多个条件判断中,只有一个条件为True,则any函数的结果就为True.正如结果所示,any函数的运用返回True值,说明

该数据集是存在重复观测的.

删除数据集中的重复观测:

df.drop_duplicates(inplace = True)
df

python常用数据重复项处理方法

得出的结果如上图所示,原先的10行在派出重复项后得到7行,被删除的行号为:3,8和9.该方法中又有inplace参数,设置为True就表示直接在原始数据集上做操作

以上就是本次介绍的全部知识点,感谢大家对三水点靠木的支持。

Python 相关文章推荐
Python中的pprint折腾记
Jan 21 Python
Python抓取淘宝下拉框关键词的方法
Jul 08 Python
Python实现求两个csv文件交集的方法
Sep 06 Python
python的paramiko模块实现远程控制和传输示例
Oct 13 Python
浅谈python配置与使用OpenCV踩的一些坑
Apr 02 Python
Python 网络爬虫--关于简单的模拟登录实例讲解
Jun 01 Python
对python数据切割归并算法的实例讲解
Dec 12 Python
python 使用poster模块进行http方式的文件传输到服务器的方法
Jan 15 Python
django框架中ajax的使用及避开CSRF 验证的方式详解
Dec 11 Python
如何在 Django 模板中输出 "{{"
Jan 24 Python
已安装tensorflow-gpu,但keras无法使用GPU加速的解决
Feb 07 Python
如何利用python 读取配置文件
Jan 06 Python
Python pickle模块实现对象序列化
Nov 22 #Python
python绘制无向图度分布曲线示例
Nov 22 #Python
Python如何实现强制数据类型转换
Nov 22 #Python
python实现宿舍管理系统
Nov 22 #Python
python实现简易淘宝购物
Nov 22 #Python
Python调用graphviz绘制结构化图形网络示例
Nov 22 #Python
python实现简单图书管理系统
Nov 22 #Python
You might like
PHP用GD库生成高质量的缩略图片
2011/03/09 PHP
php生成txt文件标题及内容的方法
2014/01/16 PHP
yii的CURD操作实例详解
2014/12/04 PHP
表单提交错误后返回内容消失问题的解决方法(PHP网站)
2015/10/20 PHP
最新最全PHP生成制作验证码代码详解(推荐)
2016/06/12 PHP
PHP以json或xml格式返回请求数据的方法
2018/05/31 PHP
基于laravel Request的所有方法详解
2019/09/29 PHP
jQuery版仿Path菜单效果
2011/12/15 Javascript
如何用ajax来创建一个XMLHttpRequest对象
2012/12/10 Javascript
Bootstrap树形控件使用方法详解
2016/01/27 Javascript
5个最顶级jQuery图表类库插件【jquery插件库】
2016/05/05 Javascript
关于验证码在IE中不刷新的快速解决方法
2016/09/23 Javascript
jQuery+正则+文本框只能输入数字的实现方法
2016/10/07 Javascript
移动端点击态处理的三种实现方式
2017/01/12 Javascript
Vue0.1的过滤代码如何添加到Vue2.0直接使用
2017/08/23 Javascript
JavaScript实现HTML5游戏断线自动重连的方法
2017/09/18 Javascript
javascript+css3开发打气球小游戏完整代码
2017/11/28 Javascript
vue ssr 指南详读
2018/06/29 Javascript
解决vue中修改了数据但视图无法更新的情况
2018/08/27 Javascript
Intellij IDEA搭建vue-cli项目的方法步骤
2018/10/20 Javascript
详解如何理解vue的key属性
2019/04/14 Javascript
基于Node.js搭建hexo博客过程详解
2019/06/25 Javascript
layui当点击文本框时弹出选择框,显示选择内容的例子
2019/09/02 Javascript
微信小程序swiper左右扩展各显示一半代码实例
2019/12/05 Javascript
基于JavaScript实现随机点名器
2021/02/25 Javascript
[02:05]DOTA2完美大师赛趣味视频之看我表演
2017/11/18 DOTA
python遍历数组的方法小结
2015/04/30 Python
说一说Python logging
2016/04/15 Python
Python对列表去重的多种方法(四种方法)
2017/12/05 Python
OPENCV去除小连通区域,去除孔洞的实例讲解
2018/06/21 Python
Python实现根据日期获取当天凌晨时间戳的方法示例
2019/04/09 Python
基于pycharm实现批量修改变量名
2020/06/02 Python
基于Python快速处理PDF表格数据
2020/06/03 Python
汇科协同Java笔试题
2012/03/31 面试题
地道战观后感2000字
2015/06/04 职场文书
《废话连篇——致新手》——chinapizza
2022/04/05 无线电