python常用数据重复项处理方法


Posted in Python onNovember 22, 2019

在数据的处理过程中,一般都需要进行数据清洗工作,如数据集是否存在重复,是否存在缺失,数据是否具有完整性和一致性,数据中是否存在异常值等.发现诸如此类的问题都需要针对性地处理,下面我们一起学习常用的数据清洗方法.

重复观测处理

重复观测:指观测行存在重复的现象,重复观测的存在会影响数据分析和挖掘结果的准确性,所以在数据分析和建模之前需要进行观测的重复性检验,如果存在重复观测,

还需要进行重复项的删除

在数据的收集过程中,可能会存在重复观测的出现,例如通过网络爬虫,就比较容易产生重复数据.如下表,是通过爬虫获得某APP市场中电商类APP的下载量数据(部分)

python常用数据重复项处理方法

通过观测可以看出唯品会和当当出现了三次.如果收集上来的不是10行,而是10万行,甚至更多是,就无法通过肉眼的方式检测数据是否存在重复项了.

下面我们看用python怎么来处理重复项的检查,以及如何删除数据项中的重复项

代码:

import pandas as pd
df = pd.read_excel(r'D:\data_test04.xlsx')
print('数据集是否存在重复观测: \n',any(df.duplicated()))

out:

数据集是否存在重复观测:

True

代码就是简单的两行就处理好了

可以看出检测数据集的记录是否存在重复,使用duplicated (英文单词的意思就是重复,复制的意思)方法,但是该方法返回的是数据集每一行的检验结果,为了能够得到最直接的结果,可以使用any函数,该函数表示的是在多个条件判断中,只有一个条件为True,则any函数的结果就为True.正如结果所示,any函数的运用返回True值,说明

该数据集是存在重复观测的.

删除数据集中的重复观测:

df.drop_duplicates(inplace = True)
df

python常用数据重复项处理方法

得出的结果如上图所示,原先的10行在派出重复项后得到7行,被删除的行号为:3,8和9.该方法中又有inplace参数,设置为True就表示直接在原始数据集上做操作

以上就是本次介绍的全部知识点,感谢大家对三水点靠木的支持。

Python 相关文章推荐
Python functools模块学习总结
May 09 Python
python实现红包裂变算法
Feb 16 Python
python 把数据 json格式输出的实例代码
Oct 31 Python
windows10系统中安装python3.x+scrapy教程
Nov 08 Python
python计算auc指标实例
Jul 13 Python
python爱心表白 每天都是浪漫七夕!
Aug 18 Python
Python3中bytes类型转换为str类型
Sep 27 Python
Python+pyplot绘制带文本标注的柱状图方法
Jul 08 Python
pytorch之添加BN的实现
Jan 06 Python
pyinstaller 3.6版本通过pip安装失败的解决办法(推荐)
Jan 18 Python
Python字典dict常用方法函数实例
Nov 09 Python
Jupyter安装拓展nbextensions及解决官网下载慢的问题
Mar 03 Python
Python pickle模块实现对象序列化
Nov 22 #Python
python绘制无向图度分布曲线示例
Nov 22 #Python
Python如何实现强制数据类型转换
Nov 22 #Python
python实现宿舍管理系统
Nov 22 #Python
python实现简易淘宝购物
Nov 22 #Python
Python调用graphviz绘制结构化图形网络示例
Nov 22 #Python
python实现简单图书管理系统
Nov 22 #Python
You might like
PHP扩展编写点滴 技巧收集
2010/03/09 PHP
解析dedecms空间迁移步骤详解
2013/05/15 PHP
PHP Cookie的使用教程详解
2013/06/03 PHP
PHP引用符&的用法详细解析
2013/08/22 PHP
php简单解析mysqli查询结果的方法(2种方法)
2016/06/29 PHP
php实现微信模拟登陆、获取用户列表及群发消息功能示例
2017/06/28 PHP
Yii2.0使用阿里云OSS的SDK上传图片、下载、删除图片示例
2017/09/20 PHP
PHPCrawl爬虫库实现抓取酷狗歌单的方法示例
2017/12/21 PHP
windows系统php环境安装swoole具体步骤
2021/03/04 PHP
jquery 简单导航实现代码
2009/09/11 Javascript
clientX,pageX,offsetX,x,layerX,screenX,offsetLeft区别分析
2010/03/12 Javascript
JS中把字符转成ASCII值的函数示例代码
2013/11/21 Javascript
js操作模态窗口及父子窗口间相互传值示例
2014/06/09 Javascript
深入理解js数组的sort排序
2016/05/28 Javascript
JavaScript程序中实现继承特性的方式总结
2016/06/24 Javascript
Bootstrap 源代码分析(未完待续)
2016/08/17 Javascript
利用JS判断字符串是否含有数字与特殊字符的方法小结
2016/11/25 Javascript
Three.js利用dat.GUI如何简化试验流程详解
2017/09/26 Javascript
利用原生js实现html5小游戏之打砖块(附源码)
2018/01/03 Javascript
微信小程序自定义tab实现多层tab嵌套功能
2018/06/15 Javascript
JS 自执行函数原理及用法
2019/08/05 Javascript
[05:02]2014DOTA2 TI中国区预选赛精彩TOPPLAY第三弹
2014/06/25 DOTA
[00:36]DOTA2上海特级锦标赛 LGD战队宣传片
2016/03/04 DOTA
python Django模板的使用方法(图文)
2013/11/04 Python
Python之pandas读写文件乱码的解决方法
2018/04/20 Python
Python中存取文件的4种不同操作
2018/07/02 Python
python+selenium 鼠标事件操作方法
2019/08/24 Python
python3 requests库实现多图片爬取教程
2019/12/18 Python
Centos7下源码安装Python3 及shell 脚本自动安装Python3的教程
2020/03/07 Python
Python3中对json格式数据的分析处理
2021/01/28 Python
家居饰品店创业计划书
2014/01/31 职场文书
竞选体育委员演讲稿
2014/04/26 职场文书
专科生就业求职信
2014/06/22 职场文书
500字作文之周记
2019/12/13 职场文书
python实现简单的三子棋游戏
2022/04/28 Python
Windows Server 2012配置DNS服务器的方法
2022/04/29 Servers