python常用数据重复项处理方法


Posted in Python onNovember 22, 2019

在数据的处理过程中,一般都需要进行数据清洗工作,如数据集是否存在重复,是否存在缺失,数据是否具有完整性和一致性,数据中是否存在异常值等.发现诸如此类的问题都需要针对性地处理,下面我们一起学习常用的数据清洗方法.

重复观测处理

重复观测:指观测行存在重复的现象,重复观测的存在会影响数据分析和挖掘结果的准确性,所以在数据分析和建模之前需要进行观测的重复性检验,如果存在重复观测,

还需要进行重复项的删除

在数据的收集过程中,可能会存在重复观测的出现,例如通过网络爬虫,就比较容易产生重复数据.如下表,是通过爬虫获得某APP市场中电商类APP的下载量数据(部分)

python常用数据重复项处理方法

通过观测可以看出唯品会和当当出现了三次.如果收集上来的不是10行,而是10万行,甚至更多是,就无法通过肉眼的方式检测数据是否存在重复项了.

下面我们看用python怎么来处理重复项的检查,以及如何删除数据项中的重复项

代码:

import pandas as pd
df = pd.read_excel(r'D:\data_test04.xlsx')
print('数据集是否存在重复观测: \n',any(df.duplicated()))

out:

数据集是否存在重复观测:

True

代码就是简单的两行就处理好了

可以看出检测数据集的记录是否存在重复,使用duplicated (英文单词的意思就是重复,复制的意思)方法,但是该方法返回的是数据集每一行的检验结果,为了能够得到最直接的结果,可以使用any函数,该函数表示的是在多个条件判断中,只有一个条件为True,则any函数的结果就为True.正如结果所示,any函数的运用返回True值,说明

该数据集是存在重复观测的.

删除数据集中的重复观测:

df.drop_duplicates(inplace = True)
df

python常用数据重复项处理方法

得出的结果如上图所示,原先的10行在派出重复项后得到7行,被删除的行号为:3,8和9.该方法中又有inplace参数,设置为True就表示直接在原始数据集上做操作

以上就是本次介绍的全部知识点,感谢大家对三水点靠木的支持。

Python 相关文章推荐
python抓取豆瓣图片并自动保存示例学习
Jan 10 Python
python控制台英汉汉英电子词典
Apr 23 Python
Python中的rjust()方法使用详解
May 19 Python
Python中的Descriptor描述符学习教程
Jun 02 Python
Python cookbook(数据结构与算法)找到最大或最小的N个元素实现方法示例
Feb 13 Python
python通过paramiko复制远程文件及文件目录到本地
Apr 30 Python
Django的Modelforms用法简介
Jul 27 Python
django使用F方法更新一个对象多个对象字段的实现
Mar 28 Python
python中for in的用法详解
Apr 17 Python
pytorch判断是否cuda 判断变量类型方式
Jun 23 Python
python如何快速拼接字符串
Oct 28 Python
Python基于argparse与ConfigParser库进行入参解析与ini parser
Feb 02 Python
Python pickle模块实现对象序列化
Nov 22 #Python
python绘制无向图度分布曲线示例
Nov 22 #Python
Python如何实现强制数据类型转换
Nov 22 #Python
python实现宿舍管理系统
Nov 22 #Python
python实现简易淘宝购物
Nov 22 #Python
Python调用graphviz绘制结构化图形网络示例
Nov 22 #Python
python实现简单图书管理系统
Nov 22 #Python
You might like
了解咖啡雨林联盟认证 什么是雨林认证 雨林认证是什么意思
2021/03/05 新手入门
php 数学运算验证码实现代码
2009/10/11 PHP
利用PHP_XLSXWriter代替PHPExcel的方法示例
2017/07/16 PHP
ThinkPHP框架下微信支付功能总结踩坑笔记
2019/04/10 PHP
PHP pthreads v3使用中的一些坑和注意点分析
2020/02/21 PHP
基于Jquery的动态添加控件并取值的实现代码
2010/09/24 Javascript
Javascript中封装window.open解决不兼容问题
2014/09/28 Javascript
调试JavaScript中正则表达式中遇到的问题
2015/01/27 Javascript
Jquery 全选反选实例代码
2015/11/19 Javascript
Angularjs自定义指令实现三级联动 选择地理位置
2017/02/13 Javascript
自适应布局meta标签中viewport、content、width、initial-scale、minimum-scale、maximum-scale总结
2017/08/18 Javascript
解决js ajax同步请求造成浏览器假死的问题
2018/01/18 Javascript
webpack中的热刷新与热加载的区别
2018/04/09 Javascript
支付宝小程序自定义弹窗dialog插件的实现代码
2018/11/30 Javascript
Vue跨域请求问题解决方案过程解析
2020/08/07 Javascript
[42:04]DOTA2上海特级锦标赛主赛事日 - 2 胜者组第一轮#3Secret VS OG第一局
2016/03/03 DOTA
Python HTTP客户端自定义Cookie实现实例
2017/04/28 Python
Python面向对象编程之继承与多态详解
2018/01/16 Python
修复CentOS7升级Python到3.6版本后yum不能正确使用的解决方法
2018/01/26 Python
Django中间件实现拦截器的方法
2018/06/01 Python
python爬虫超时的处理的实例
2018/12/19 Python
关于Python中定制类的比较运算实例
2019/12/19 Python
python用TensorFlow做图像识别的实现
2020/04/21 Python
CSS3中的content属性使用示例
2015/07/20 HTML / CSS
科茨沃尔德家居商店:Scotts of Stow
2018/06/29 全球购物
求高于平均分的学生学号及成绩
2016/09/01 面试题
中学实习教师自我鉴定
2013/12/12 职场文书
建筑总经理岗位职责
2014/02/02 职场文书
农村党员对照检查材料
2014/09/24 职场文书
2015年元旦主持词开场白
2014/12/14 职场文书
小学工作总结2015
2015/05/04 职场文书
优化经济发展环境工作总结
2015/08/11 职场文书
复制别人的成功真的会成功吗?
2019/10/17 职场文书
jquery插件实现悬浮的菜单
2021/04/24 jQuery
PC版《死亡搁浅导剪版》现已发售 展开全新的探险
2022/04/03 其他游戏
Python何绘制带有背景色块的折线图
2022/04/23 Python