python常用数据重复项处理方法


Posted in Python onNovember 22, 2019

在数据的处理过程中,一般都需要进行数据清洗工作,如数据集是否存在重复,是否存在缺失,数据是否具有完整性和一致性,数据中是否存在异常值等.发现诸如此类的问题都需要针对性地处理,下面我们一起学习常用的数据清洗方法.

重复观测处理

重复观测:指观测行存在重复的现象,重复观测的存在会影响数据分析和挖掘结果的准确性,所以在数据分析和建模之前需要进行观测的重复性检验,如果存在重复观测,

还需要进行重复项的删除

在数据的收集过程中,可能会存在重复观测的出现,例如通过网络爬虫,就比较容易产生重复数据.如下表,是通过爬虫获得某APP市场中电商类APP的下载量数据(部分)

python常用数据重复项处理方法

通过观测可以看出唯品会和当当出现了三次.如果收集上来的不是10行,而是10万行,甚至更多是,就无法通过肉眼的方式检测数据是否存在重复项了.

下面我们看用python怎么来处理重复项的检查,以及如何删除数据项中的重复项

代码:

import pandas as pd
df = pd.read_excel(r'D:\data_test04.xlsx')
print('数据集是否存在重复观测: \n',any(df.duplicated()))

out:

数据集是否存在重复观测:

True

代码就是简单的两行就处理好了

可以看出检测数据集的记录是否存在重复,使用duplicated (英文单词的意思就是重复,复制的意思)方法,但是该方法返回的是数据集每一行的检验结果,为了能够得到最直接的结果,可以使用any函数,该函数表示的是在多个条件判断中,只有一个条件为True,则any函数的结果就为True.正如结果所示,any函数的运用返回True值,说明

该数据集是存在重复观测的.

删除数据集中的重复观测:

df.drop_duplicates(inplace = True)
df

python常用数据重复项处理方法

得出的结果如上图所示,原先的10行在派出重复项后得到7行,被删除的行号为:3,8和9.该方法中又有inplace参数,设置为True就表示直接在原始数据集上做操作

以上就是本次介绍的全部知识点,感谢大家对三水点靠木的支持。

Python 相关文章推荐
ssh批量登录并执行命令的python实现代码
May 25 Python
python中lambda与def用法对比实例分析
Apr 30 Python
python使用wmi模块获取windows下的系统信息 监控系统
Oct 27 Python
python基础入门学习笔记(Python环境搭建)
Jan 13 Python
pyhton列表转换为数组的实例
Apr 04 Python
python3.6 如何将list存入txt后再读出list的方法
Jul 02 Python
深入浅析python3中的unicode和bytes问题
Jul 03 Python
Python 通过微信控制实现app定位发送到个人服务器再转发微信服务器接收位置信息
Aug 05 Python
PYcharm 激活方法(推荐)
Mar 23 Python
Python3标准库之threading进程中管理并发操作方法
Mar 30 Python
浅谈Python协程
Jun 17 Python
python字典的元素访问实例详解
Jul 21 Python
Python pickle模块实现对象序列化
Nov 22 #Python
python绘制无向图度分布曲线示例
Nov 22 #Python
Python如何实现强制数据类型转换
Nov 22 #Python
python实现宿舍管理系统
Nov 22 #Python
python实现简易淘宝购物
Nov 22 #Python
Python调用graphviz绘制结构化图形网络示例
Nov 22 #Python
python实现简单图书管理系统
Nov 22 #Python
You might like
php初始化对象和析构函数的简单实例
2014/03/11 PHP
PHP网页游戏学习之Xnova(ogame)源码解读(十二)
2014/06/25 PHP
10个实用的PHP正则表达式汇总
2014/10/23 PHP
利用PHP获取汉字首字母并且分组排序详解
2017/10/22 PHP
PHP快速导出百万级数据到CSV或者EXCEL文件
2020/11/27 PHP
表单(FORM)的一些实用效果代码
2007/03/25 Javascript
让textarea自动调整大小的js代码
2011/04/12 Javascript
一个JQuery写的点击上下滚动的小例子
2011/08/27 Javascript
javascript学习笔记(二) js一些基本概念
2012/06/18 Javascript
Bootstrap 粘页脚效果
2016/03/28 Javascript
老生常谈 关于JavaScript的类的继承
2016/06/24 Javascript
在一个页面重复使用一个js函数的方法详解
2016/12/26 Javascript
vue cli2.0单页面title修改方法
2018/06/07 Javascript
vue.js绑定事件监听器示例【基于v-on事件绑定】
2018/07/07 Javascript
原生JavaScript实现remove()和recover()功能示例
2018/07/24 Javascript
javascript数组去重方法总结(推荐)
2019/03/20 Javascript
vue项目打包后怎样优雅的解决跨域
2019/05/26 Javascript
解决Vue中 父子传值 数据丢失问题
2019/08/27 Javascript
小程序怎样让wx.navigateBack更好用的方法实现
2019/11/01 Javascript
关于vue属性使用和不使用冒号的区别说明
2020/10/22 Javascript
Python命名空间详解
2014/08/18 Python
python过滤字符串中不属于指定集合中字符的类实例
2015/06/30 Python
python虚拟环境virtualenv的使用教程
2017/10/20 Python
Python实现生成随机数据插入mysql数据库的方法
2017/12/25 Python
Python MySQLdb 使用utf-8 编码插入中文数据问题
2018/03/13 Python
python pandas 时间日期的处理实现
2019/07/30 Python
详解Django CAS 解决方案
2019/10/30 Python
在python3中使用shuffle函数要注意的地方
2020/02/28 Python
纯CSS3实现滚动的齿轮动画效果
2014/06/05 HTML / CSS
怎样有效的进行自我评价
2013/10/06 职场文书
自我评价的写作规则
2014/01/06 职场文书
主题酒店策划书
2014/01/28 职场文书
2014年法院工作总结
2014/11/24 职场文书
班干部学习委员竞选稿
2015/11/20 职场文书
Win11局域网共享权限在哪里设置? Win11高级共享的设置技巧
2022/04/05 数码科技
不负正版帝国之名 《重返帝国》引领SLG手游制作新的标杆
2022/04/07 其他游戏