python常用数据重复项处理方法


Posted in Python onNovember 22, 2019

在数据的处理过程中,一般都需要进行数据清洗工作,如数据集是否存在重复,是否存在缺失,数据是否具有完整性和一致性,数据中是否存在异常值等.发现诸如此类的问题都需要针对性地处理,下面我们一起学习常用的数据清洗方法.

重复观测处理

重复观测:指观测行存在重复的现象,重复观测的存在会影响数据分析和挖掘结果的准确性,所以在数据分析和建模之前需要进行观测的重复性检验,如果存在重复观测,

还需要进行重复项的删除

在数据的收集过程中,可能会存在重复观测的出现,例如通过网络爬虫,就比较容易产生重复数据.如下表,是通过爬虫获得某APP市场中电商类APP的下载量数据(部分)

python常用数据重复项处理方法

通过观测可以看出唯品会和当当出现了三次.如果收集上来的不是10行,而是10万行,甚至更多是,就无法通过肉眼的方式检测数据是否存在重复项了.

下面我们看用python怎么来处理重复项的检查,以及如何删除数据项中的重复项

代码:

import pandas as pd
df = pd.read_excel(r'D:\data_test04.xlsx')
print('数据集是否存在重复观测: \n',any(df.duplicated()))

out:

数据集是否存在重复观测:

True

代码就是简单的两行就处理好了

可以看出检测数据集的记录是否存在重复,使用duplicated (英文单词的意思就是重复,复制的意思)方法,但是该方法返回的是数据集每一行的检验结果,为了能够得到最直接的结果,可以使用any函数,该函数表示的是在多个条件判断中,只有一个条件为True,则any函数的结果就为True.正如结果所示,any函数的运用返回True值,说明

该数据集是存在重复观测的.

删除数据集中的重复观测:

df.drop_duplicates(inplace = True)
df

python常用数据重复项处理方法

得出的结果如上图所示,原先的10行在派出重复项后得到7行,被删除的行号为:3,8和9.该方法中又有inplace参数,设置为True就表示直接在原始数据集上做操作

以上就是本次介绍的全部知识点,感谢大家对三水点靠木的支持。

Python 相关文章推荐
一个检测OpenSSL心脏出血漏洞的Python脚本分享
Apr 10 Python
python自动zip压缩目录的方法
Jun 28 Python
Python 高级专用类方法的实例详解
Sep 11 Python
简单了解什么是神经网络
Dec 23 Python
Linux-ubuntu16.04 Python3.5配置OpenCV3.2的方法
Apr 02 Python
Python打包方法Pyinstaller的使用
Oct 09 Python
python对于requests的封装方法详解
Jan 03 Python
使用Python的Turtle绘制哆啦A梦实例
Nov 21 Python
PyQt5+python3+pycharm开发环境配置教程
Mar 24 Python
python自动化测试三部曲之unittest框架的实现
Oct 07 Python
pycharm使用技巧之自动调整代码格式总结
Nov 04 Python
浅谈tf.train.Saver()与tf.train.import_meta_graph的要点
May 26 Python
Python pickle模块实现对象序列化
Nov 22 #Python
python绘制无向图度分布曲线示例
Nov 22 #Python
Python如何实现强制数据类型转换
Nov 22 #Python
python实现宿舍管理系统
Nov 22 #Python
python实现简易淘宝购物
Nov 22 #Python
Python调用graphviz绘制结构化图形网络示例
Nov 22 #Python
python实现简单图书管理系统
Nov 22 #Python
You might like
星际争霸秘籍
2020/03/04 星际争霸
新版PHP极大的增强功能和性能
2006/10/09 PHP
php中的filesystem文件系统函数介绍及使用示例
2014/02/13 PHP
PHP自动生成表单代码分享
2015/06/19 PHP
Zend Framework教程之模型Model基本规则和使用方法
2016/03/04 PHP
PHP中Laravel 关联查询返回错误id的解决方法
2017/04/01 PHP
解决Laravel 不能创建 migration 的问题
2019/10/09 PHP
js将json格式内容转换成对象的方法
2013/11/01 Javascript
Jquery如何实现点击时高亮显示代码
2014/01/22 Javascript
javascript不同类型数据之间的运算的转换方法
2014/02/13 Javascript
javascript实现延时显示提示框特效代码
2016/04/27 Javascript
jQuery基于扩展实现的倒计时效果
2016/05/14 Javascript
JavaScript DOM节点操作实例小结(新建,删除HTML元素)
2017/01/19 Javascript
Vue.js基础学习之class与样式绑定
2017/03/20 Javascript
深入理解Node module模块
2018/03/26 Javascript
原生JS实现动态加载js文件并在加载成功后执行回调函数的方法
2020/12/30 Javascript
node.js学习笔记之koa框架和简单爬虫练习
2018/12/13 Javascript
jQuery实现的点击图片居中放大缩小功能示例
2019/01/16 jQuery
JavaScript使用Math.random()生成简单的验证码
2019/01/21 Javascript
JS document对象简单用法完整示例
2020/01/14 Javascript
python使用paramiko实现远程拷贝文件的方法
2016/04/18 Python
Python爬虫辅助利器PyQuery模块的安装使用攻略
2016/04/24 Python
python操作字典类型的常用方法(推荐)
2016/05/16 Python
Python实现进程同步和通信的方法
2018/01/02 Python
CSS3使用多列制作瀑布流
2016/05/10 HTML / CSS
纯css3实现鼠标经过图片显示描述的动画效果
2014/09/01 HTML / CSS
英国在线定做百叶窗网站:Make My Blinds
2020/08/17 全球购物
外包公司软件测试工程师
2014/11/01 面试题
学院书画协会部门岗位职责
2013/12/01 职场文书
家长评语和期望
2014/02/10 职场文书
幼儿园优秀班主任事迹材料
2014/05/14 职场文书
小区门卫岗位职责范本
2014/08/24 职场文书
小学生安全教育主题班会
2015/08/12 职场文书
62句有关感恩节文案(推荐收藏)
2019/11/28 职场文书
MySQL的join buffer原理
2021/04/29 MySQL
Docker与K8s关系介绍不会Docker也可以使用K8s
2022/06/25 Servers