python常用数据重复项处理方法


Posted in Python onNovember 22, 2019

在数据的处理过程中,一般都需要进行数据清洗工作,如数据集是否存在重复,是否存在缺失,数据是否具有完整性和一致性,数据中是否存在异常值等.发现诸如此类的问题都需要针对性地处理,下面我们一起学习常用的数据清洗方法.

重复观测处理

重复观测:指观测行存在重复的现象,重复观测的存在会影响数据分析和挖掘结果的准确性,所以在数据分析和建模之前需要进行观测的重复性检验,如果存在重复观测,

还需要进行重复项的删除

在数据的收集过程中,可能会存在重复观测的出现,例如通过网络爬虫,就比较容易产生重复数据.如下表,是通过爬虫获得某APP市场中电商类APP的下载量数据(部分)

python常用数据重复项处理方法

通过观测可以看出唯品会和当当出现了三次.如果收集上来的不是10行,而是10万行,甚至更多是,就无法通过肉眼的方式检测数据是否存在重复项了.

下面我们看用python怎么来处理重复项的检查,以及如何删除数据项中的重复项

代码:

import pandas as pd
df = pd.read_excel(r'D:\data_test04.xlsx')
print('数据集是否存在重复观测: \n',any(df.duplicated()))

out:

数据集是否存在重复观测:

True

代码就是简单的两行就处理好了

可以看出检测数据集的记录是否存在重复,使用duplicated (英文单词的意思就是重复,复制的意思)方法,但是该方法返回的是数据集每一行的检验结果,为了能够得到最直接的结果,可以使用any函数,该函数表示的是在多个条件判断中,只有一个条件为True,则any函数的结果就为True.正如结果所示,any函数的运用返回True值,说明

该数据集是存在重复观测的.

删除数据集中的重复观测:

df.drop_duplicates(inplace = True)
df

python常用数据重复项处理方法

得出的结果如上图所示,原先的10行在派出重复项后得到7行,被删除的行号为:3,8和9.该方法中又有inplace参数,设置为True就表示直接在原始数据集上做操作

以上就是本次介绍的全部知识点,感谢大家对三水点靠木的支持。

Python 相关文章推荐
讲解Python中for循环下的索引变量的作用域
Apr 15 Python
python使用wxpython开发简单记事本的方法
May 20 Python
详解详解Python中writelines()方法的使用
May 25 Python
浅谈Python 对象内存占用
Jul 15 Python
实践Vim配置python开发环境
Jul 02 Python
简单了解django缓存方式及配置
Jul 19 Python
Django结合ajax进行页面实时更新的例子
Aug 12 Python
Python从入门到精通之环境搭建教程图解
Sep 26 Python
对pytorch的函数中的group参数的作用介绍
Feb 18 Python
python如何提取英语pdf内容并翻译
Mar 03 Python
基于Python实现下载网易音乐代码实例
Aug 10 Python
Sentry错误日志监控使用方法解析
Nov 12 Python
Python pickle模块实现对象序列化
Nov 22 #Python
python绘制无向图度分布曲线示例
Nov 22 #Python
Python如何实现强制数据类型转换
Nov 22 #Python
python实现宿舍管理系统
Nov 22 #Python
python实现简易淘宝购物
Nov 22 #Python
Python调用graphviz绘制结构化图形网络示例
Nov 22 #Python
python实现简单图书管理系统
Nov 22 #Python
You might like
php5.3 注意事项说明
2013/07/01 PHP
改写函数实现PHP二维/三维数组转字符串
2013/09/13 PHP
PHP使用strtotime获取上个月、下个月、本月的日期
2015/12/30 PHP
php mailer类调用远程SMTP服务器发送邮件实现方法
2016/03/04 PHP
DEFER怎么用?
2006/07/01 Javascript
关于jquery动态增减控件的一些想法和小插件
2010/08/01 Javascript
新手常遇到的一些jquery问题整理
2010/08/16 Javascript
jquery ajax例子返回值详解
2012/09/11 Javascript
javascript游戏开发之《三国志曹操传》零部件开发(三)情景对话中仿打字机输出文字
2013/01/23 Javascript
node在两个div之间移动,用ztree实现
2013/03/06 Javascript
使用CSS和jQuery模拟select并附提交后取得数据的代码
2013/10/18 Javascript
JCrop+ajaxUpload 图像切割上传的实例代码
2016/07/20 Javascript
jQuery利用sort对DOM元素进行排序操作
2016/11/07 Javascript
jquery实现图片跟随鼠标的实例
2017/10/17 jQuery
高效jQuery选择器的5个技巧实例分析
2019/11/26 jQuery
vue 使用 canvas 实现手写电子签名
2020/03/06 Javascript
[00:32]2018DOTA2亚洲邀请赛VGJ.T出场
2018/04/03 DOTA
[43:24]VG vs Serenity 2018国际邀请赛小组赛BO2 第二场 8.17
2018/08/20 DOTA
老生常谈进程线程协程那些事儿
2017/07/24 Python
TensorFlow加载模型时出错的解决方式
2020/02/06 Python
关于win10在tensorflow的安装及在pycharm中运行步骤详解
2020/03/16 Python
JupyterNotebook 输出窗口的显示效果调整实现
2020/09/22 Python
HTML5 embed标签定义和用法详解
2014/05/09 HTML / CSS
Room Mate Hotels美国:西班牙酒店品牌
2018/04/10 全球购物
广州一家公司的.NET面试题
2016/06/11 面试题
店长岗位职责
2013/11/21 职场文书
学生打架检讨书大全
2014/01/23 职场文书
求职简历的自我评价
2014/01/31 职场文书
数控专业个人求职信范文
2014/02/05 职场文书
学校班班通实施方案
2014/06/11 职场文书
教师年度考核个人总结
2015/02/12 职场文书
2015年青年教师工作总结
2015/05/25 职场文书
党员读书活动心得体会
2016/01/14 职场文书
详细分析PHP7与PHP5区别
2021/06/26 PHP
总结高并发下Nginx性能如何优化
2021/11/01 Servers
36个正则表达式(开发效率提高80%)
2021/11/17 Javascript