pandas中DataFrame检测重复值的实现


Posted in Python onMay 26, 2021

本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重

DataFrame.duplicated(subset=None, keep='first')

subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

  • 默认为'first' ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
  • 如果为'last',也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
  • 如果为False,则所有重复的为True

下面举例

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

pandas中DataFrame检测重复值的实现

# 默认为keep="first",第一条重复的为False,后面重复的为True
# 一般不会设置keep,保持keep为默认值。
df.duplicated()

结果
0    False
1     True
2    False
3    False
4    False
dtype: bool

# keep="last",,最后一条重复的为False,后面重复的为True
df.duplicated(keep="last")

结果
0     True
1    False
2    False
3    False
4    False
dtype: bool

# keep=False,,所有重复的为True
df.duplicated(keep=False)

结果
0     True
1     True
2    False
3    False
4    False
dtype: bool

# sub是子,subset是子集
# 标记只要brand重复为重复值。
df.duplicated(subset='brand')

结果

0    False
1     True
2    False
3     True
4     True
dtype: bool


# 只要brand重复brand和style重复的为重复值。
df.duplicated(subset=['brand','style'])

结果

0    False
1     True
2    False
3    False
4     True
dtype: bool


# 显示重复记录,通过布尔索引
df[df.duplicated()]

pandas中DataFrame检测重复值的实现

# 查询重复值的个数。
df.duplicated().sum()

结果
1

到此这篇关于pandas中DataFrame检测重复值的实现的文章就介绍到这了,更多相关pandas DataFrame检测重复值内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python 异常处理实例详解
Mar 12 Python
python复制与引用用法分析
Apr 08 Python
Python Cookie 读取和保存方法
Dec 28 Python
pycharm修改界面主题颜色的方法
Jan 17 Python
python接口调用已训练好的caffe模型测试分类方法
Aug 26 Python
Python中base64与xml取值结合问题
Dec 22 Python
python实现异常信息堆栈输出到日志文件
Dec 26 Python
在Tensorflow中实现梯度下降法更新参数值
Jan 23 Python
python数据类型可变不可变知识点总结
Mar 06 Python
Python代码一键转Jar包及Java调用Python新姿势
Mar 10 Python
python 5个实用的技巧
Sep 27 Python
Python多线程实用方法以及共享变量资源竞争问题
Apr 12 Python
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
Python selenium模拟网页点击爬虫交管12123违章数据
python scipy 稀疏矩阵的使用说明
You might like
Ajax+PHP边学边练 之五 图片处理
2009/12/03 PHP
小文件php+SQLite存储方案
2010/09/04 PHP
慎用preg_replace危险的/e修饰符(一句话后门常用)
2013/06/19 PHP
Laravel 4 初级教程之安装及入门
2014/10/30 PHP
PHP获取当前日期和时间及格式化方法参数
2015/05/11 PHP
记录一次排查PHP脚本执行卡住的问题
2016/12/27 PHP
Javascript的匿名函数小结
2009/12/31 Javascript
数组Array进行原型prototype扩展后带来的for in遍历问题
2010/02/07 Javascript
如何使用jquery控制CSS样式,并且取消Css样式(如背景色,有实例)
2013/07/09 Javascript
jQuery实现对象转为url参数的方法
2017/01/11 Javascript
javascript完美实现给定日期返回上月日期的方法
2017/06/15 Javascript
javascript 玩转Date对象(实例讲解)
2017/07/11 Javascript
Angular4学习教程之HTML属性绑定的方法
2018/01/04 Javascript
详解AngularJS 过滤器的使用
2018/06/02 Javascript
js 将线性数据转为树形的示例代码
2019/05/28 Javascript
Python3 能振兴 Python的原因分析
2014/11/28 Python
Python中装饰器的一个妙用
2015/02/08 Python
Python计算一个点到所有点的欧式距离实现方法
2019/07/04 Python
Python实现性能自动化测试竟然如此简单
2019/07/30 Python
Python Django 命名空间模式的实现
2019/08/09 Python
python opencv鼠标事件实现画框圈定目标获取坐标信息
2020/04/18 Python
tensorflow如何批量读取图片
2019/08/29 Python
python字典排序的方法
2019/10/12 Python
python设置代理和添加镜像源的方法
2020/02/14 Python
Python格式化输出--%s,%d,%f的代码解析
2020/04/29 Python
浅谈keras保存模型中的save()和save_weights()区别
2020/05/21 Python
Python threading模块condition原理及运行流程详解
2020/10/05 Python
最新远光软件笔试题面试题内容
2013/11/08 面试题
客服实习的个人自我鉴定
2013/10/20 职场文书
求职毕业生自荐书
2014/02/08 职场文书
数控机床专业自荐信
2014/05/19 职场文书
交通事故委托书范本(2篇)
2014/09/21 职场文书
教师作风整改措施思想汇报
2014/10/12 职场文书
2015年库房工作总结
2015/04/30 职场文书
Java 死锁解决方案
2022/05/11 Java/Android
Li list-style-image 图片垂直居中实现方法
2023/05/21 HTML / CSS