python常用数据重复项处理方法


Posted in Python onNovember 22, 2019

在数据的处理过程中,一般都需要进行数据清洗工作,如数据集是否存在重复,是否存在缺失,数据是否具有完整性和一致性,数据中是否存在异常值等.发现诸如此类的问题都需要针对性地处理,下面我们一起学习常用的数据清洗方法.

重复观测处理

重复观测:指观测行存在重复的现象,重复观测的存在会影响数据分析和挖掘结果的准确性,所以在数据分析和建模之前需要进行观测的重复性检验,如果存在重复观测,

还需要进行重复项的删除

在数据的收集过程中,可能会存在重复观测的出现,例如通过网络爬虫,就比较容易产生重复数据.如下表,是通过爬虫获得某APP市场中电商类APP的下载量数据(部分)

python常用数据重复项处理方法

通过观测可以看出唯品会和当当出现了三次.如果收集上来的不是10行,而是10万行,甚至更多是,就无法通过肉眼的方式检测数据是否存在重复项了.

下面我们看用python怎么来处理重复项的检查,以及如何删除数据项中的重复项

代码:

import pandas as pd
df = pd.read_excel(r'D:\data_test04.xlsx')
print('数据集是否存在重复观测: \n',any(df.duplicated()))

out:

数据集是否存在重复观测:

True

代码就是简单的两行就处理好了

可以看出检测数据集的记录是否存在重复,使用duplicated (英文单词的意思就是重复,复制的意思)方法,但是该方法返回的是数据集每一行的检验结果,为了能够得到最直接的结果,可以使用any函数,该函数表示的是在多个条件判断中,只有一个条件为True,则any函数的结果就为True.正如结果所示,any函数的运用返回True值,说明

该数据集是存在重复观测的.

删除数据集中的重复观测:

df.drop_duplicates(inplace = True)
df

python常用数据重复项处理方法

得出的结果如上图所示,原先的10行在派出重复项后得到7行,被删除的行号为:3,8和9.该方法中又有inplace参数,设置为True就表示直接在原始数据集上做操作

以上就是本次介绍的全部知识点,感谢大家对三水点靠木的支持。

Python 相关文章推荐
使用Python生成url短链接的方法
May 04 Python
编写Python脚本把sqlAlchemy对象转换成dict的教程
May 29 Python
Python数据类型详解(一)字符串
May 08 Python
python email smtplib模块发送邮件代码实例
Apr 26 Python
Python使用pylab库实现绘制直方图功能示例
Jun 01 Python
mac安装scrapy并创建项目的实例讲解
Jun 13 Python
值得收藏的10道python 面试题
Apr 15 Python
Python Excel处理库openpyxl使用详解
May 09 Python
全面了解django的缓存机制及使用方法
Jul 22 Python
python 实现单例模式的5种方法
Sep 23 Python
Python绘制K线图之可视化神器pyecharts的使用
Mar 02 Python
python自然语言处理之字典树知识总结
Apr 25 Python
Python pickle模块实现对象序列化
Nov 22 #Python
python绘制无向图度分布曲线示例
Nov 22 #Python
Python如何实现强制数据类型转换
Nov 22 #Python
python实现宿舍管理系统
Nov 22 #Python
python实现简易淘宝购物
Nov 22 #Python
Python调用graphviz绘制结构化图形网络示例
Nov 22 #Python
python实现简单图书管理系统
Nov 22 #Python
You might like
基于jquery的固定表头和列头的代码
2012/05/03 Javascript
js实现防止被iframe的方法
2015/07/03 Javascript
四种参数传递的形式——URL,超链接,js,form表单
2015/07/24 Javascript
javascript的 {} 语句块详解
2016/02/27 Javascript
jQ处理xml文件和xml字符串的方法(详解)
2016/11/22 Javascript
常用的javascript设计模式
2017/01/11 Javascript
在vue-cli脚手架中配置一个vue-router前端路由
2017/07/03 Javascript
web前端vue之CSS过渡效果示例
2018/01/10 Javascript
angular2路由之routerLinkActive指令【推荐】
2018/05/30 Javascript
微信小程序入门之广告条实现方法示例
2018/12/05 Javascript
layui实现三级联动效果
2019/07/26 Javascript
bootstrap+spring boot实现面包屑导航功能(前端代码)
2019/10/09 Javascript
Jquery让form表单异步提交代码实现
2019/11/14 jQuery
javascript实现点击小图显示大图
2020/11/29 Javascript
[52:02]完美世界DOTA2联赛PWL S2 FTD.C vs SZ 第一场 11.27
2020/11/30 DOTA
Python调用C语言的方法【基于ctypes模块】
2018/01/22 Python
Python之pandas读写文件乱码的解决方法
2018/04/20 Python
Python 在字符串中加入变量的实例讲解
2018/05/02 Python
Python使用try except处理程序异常的三种常用方法分析
2018/09/05 Python
django框架之cookie/session的使用示例(小结)
2018/10/15 Python
pandas 把数据写入txt文件每行固定写入一定数量的值方法
2018/12/28 Python
用Python PIL实现几个简单的图片特效
2019/01/18 Python
python实现小球弹跳效果
2019/05/10 Python
react+django清除浏览器缓存的几种方法小结
2019/07/17 Python
python绘制彩虹图
2019/12/16 Python
在django中form的label和verbose name的区别说明
2020/05/20 Python
python interpolate插值实例
2020/07/06 Python
详解Open Folder as PyCharm Project怎么添加的方法
2020/12/29 Python
美国马匹用品和骑马配件购物网站:Horse.com
2018/01/08 全球购物
酒店管理毕业生自荐信
2013/10/24 职场文书
医院总经理岗位职责
2014/02/04 职场文书
留学经费担保书
2014/05/12 职场文书
法定授权委托证明书
2014/09/27 职场文书
嘉宾邀请函
2015/01/31 职场文书
2015年高二班主任工作总结
2015/05/25 职场文书
代理词怎么写
2015/05/25 职场文书