python常用数据重复项处理方法


Posted in Python onNovember 22, 2019

在数据的处理过程中,一般都需要进行数据清洗工作,如数据集是否存在重复,是否存在缺失,数据是否具有完整性和一致性,数据中是否存在异常值等.发现诸如此类的问题都需要针对性地处理,下面我们一起学习常用的数据清洗方法.

重复观测处理

重复观测:指观测行存在重复的现象,重复观测的存在会影响数据分析和挖掘结果的准确性,所以在数据分析和建模之前需要进行观测的重复性检验,如果存在重复观测,

还需要进行重复项的删除

在数据的收集过程中,可能会存在重复观测的出现,例如通过网络爬虫,就比较容易产生重复数据.如下表,是通过爬虫获得某APP市场中电商类APP的下载量数据(部分)

python常用数据重复项处理方法

通过观测可以看出唯品会和当当出现了三次.如果收集上来的不是10行,而是10万行,甚至更多是,就无法通过肉眼的方式检测数据是否存在重复项了.

下面我们看用python怎么来处理重复项的检查,以及如何删除数据项中的重复项

代码:

import pandas as pd
df = pd.read_excel(r'D:\data_test04.xlsx')
print('数据集是否存在重复观测: \n',any(df.duplicated()))

out:

数据集是否存在重复观测:

True

代码就是简单的两行就处理好了

可以看出检测数据集的记录是否存在重复,使用duplicated (英文单词的意思就是重复,复制的意思)方法,但是该方法返回的是数据集每一行的检验结果,为了能够得到最直接的结果,可以使用any函数,该函数表示的是在多个条件判断中,只有一个条件为True,则any函数的结果就为True.正如结果所示,any函数的运用返回True值,说明

该数据集是存在重复观测的.

删除数据集中的重复观测:

df.drop_duplicates(inplace = True)
df

python常用数据重复项处理方法

得出的结果如上图所示,原先的10行在派出重复项后得到7行,被删除的行号为:3,8和9.该方法中又有inplace参数,设置为True就表示直接在原始数据集上做操作

以上就是本次介绍的全部知识点,感谢大家对三水点靠木的支持。

Python 相关文章推荐
解决pyqt中ui编译成窗体.py中文乱码的问题
Dec 23 Python
Python使用getpass库读取密码的示例
Oct 10 Python
python实现淘宝秒杀聚划算抢购自动提醒源码
Jun 23 Python
Tesserocr库的正确安装方式
Oct 19 Python
使用Python计算玩彩票赢钱概率
Jun 26 Python
在SQLite-Python中实现返回、查询中文字段的方法
Jul 17 Python
django迁移数据库错误问题解决
Jul 29 Python
Python中的wordcloud库安装问题及解决方法
May 27 Python
pyMySQL SQL语句传参问题,单个参数或多个参数说明
Jun 06 Python
Selenium获取登录Cookies并添加Cookies自动登录的方法
Dec 04 Python
python制作抽奖程序代码详解
Jan 15 Python
Python爬虫进阶之Beautiful Soup库详解
Apr 29 Python
Python pickle模块实现对象序列化
Nov 22 #Python
python绘制无向图度分布曲线示例
Nov 22 #Python
Python如何实现强制数据类型转换
Nov 22 #Python
python实现宿舍管理系统
Nov 22 #Python
python实现简易淘宝购物
Nov 22 #Python
Python调用graphviz绘制结构化图形网络示例
Nov 22 #Python
python实现简单图书管理系统
Nov 22 #Python
You might like
php获取一定范围内取N个不重复的随机数
2016/05/28 PHP
thinkphp隐藏index.php/home并允许访问其他模块的实现方法
2016/10/13 PHP
PHP命名空间namespace及use的简单用法分析
2018/08/03 PHP
php提供实现反射的方法和实例代码
2019/09/17 PHP
JS对img进行操作(换图片/切图/轮换/停止)
2013/04/17 Javascript
Javascript倒计时页面跳转实例小结
2013/09/11 Javascript
jq实现酷炫的鼠标经过图片翻滚效果
2014/03/12 Javascript
加载列表时jquery获取ul中第一个li的属性
2014/11/02 Javascript
Jquery attr()方法 属性赋值和属性获取详解
2016/04/15 Javascript
javascript js 操作数组 增删改查的简单实现
2016/06/20 Javascript
JS实现复制内容到剪贴板功能
2017/02/05 Javascript
JavaScript函数柯里化原理与用法分析
2017/03/31 Javascript
原生js添加一个或多个类名的方法分析
2019/07/30 Javascript
JS实现动态星空背景效果
2019/11/01 Javascript
[01:01:52]完美世界DOTA2联赛PWL S2 GXR vs Magma 第二场 11.25
2020/11/26 DOTA
python实现定制交互式命令行的方法
2014/07/03 Python
python处理csv数据动态显示曲线实例代码
2018/01/23 Python
基于Python pip用国内镜像下载的方法
2018/06/12 Python
Python运维开发之psutil库的使用详解
2018/10/18 Python
tensorflow没有output结点,存储成pb文件的例子
2020/01/04 Python
Python 批量读取文件中指定字符的实现
2020/03/06 Python
通过代码实例了解Python sys模块
2020/09/14 Python
Python读写csv文件流程及异常解决
2020/10/20 Python
Skyscanner澳大利亚:全球领先的旅游搜索网站
2018/03/24 全球购物
皇家阿尔伯特瓷器美国官网:Royal Albert美国
2020/02/16 全球购物
学院领导推荐信
2013/10/30 职场文书
应届毕业生应聘自荐信
2013/12/07 职场文书
毕业生如何写自荐信
2014/03/26 职场文书
国庆节演讲稿
2014/05/27 职场文书
社区灵活就业证明
2014/11/03 职场文书
2015年大学班级工作总结
2015/04/28 职场文书
2015年公司保安年终工作总结
2015/05/14 职场文书
自愿离婚协议书范本2016
2016/03/18 职场文书
SpringBoot整合RabbitMQ的5种模式实战
2021/08/02 Java/Android
SpringBoot实现quartz定时任务可视化管理功能
2021/08/30 Java/Android
《艾尔登法环》发布最新「战技」宣传片
2022/04/03 其他游戏