pandas中DataFrame检测重复值的实现


Posted in Python onMay 26, 2021

本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重

DataFrame.duplicated(subset=None, keep='first')

subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

  • 默认为'first' ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
  • 如果为'last',也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
  • 如果为False,则所有重复的为True

下面举例

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

pandas中DataFrame检测重复值的实现

# 默认为keep="first",第一条重复的为False,后面重复的为True
# 一般不会设置keep,保持keep为默认值。
df.duplicated()

结果
0    False
1     True
2    False
3    False
4    False
dtype: bool

# keep="last",,最后一条重复的为False,后面重复的为True
df.duplicated(keep="last")

结果
0     True
1    False
2    False
3    False
4    False
dtype: bool

# keep=False,,所有重复的为True
df.duplicated(keep=False)

结果
0     True
1     True
2    False
3    False
4    False
dtype: bool

# sub是子,subset是子集
# 标记只要brand重复为重复值。
df.duplicated(subset='brand')

结果

0    False
1     True
2    False
3     True
4     True
dtype: bool


# 只要brand重复brand和style重复的为重复值。
df.duplicated(subset=['brand','style'])

结果

0    False
1     True
2    False
3    False
4     True
dtype: bool


# 显示重复记录,通过布尔索引
df[df.duplicated()]

pandas中DataFrame检测重复值的实现

# 查询重复值的个数。
df.duplicated().sum()

结果
1

到此这篇关于pandas中DataFrame检测重复值的实现的文章就介绍到这了,更多相关pandas DataFrame检测重复值内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python3基础之基本数据类型概述
Aug 13 Python
Python中tell()方法的使用详解
May 24 Python
Python语言的变量认识及操作方法
Feb 11 Python
python 3.6.4 安装配置方法图文教程
Sep 18 Python
对json字符串与python字符串的不同之处详解
Dec 19 Python
python 实现读取一个excel多个sheet表并合并的方法
Feb 12 Python
Python for循环通过序列索引迭代过程解析
Feb 07 Python
wxpython自定义下拉列表框过程图解
Feb 14 Python
Python xlrd excel文件操作代码实例
Mar 10 Python
详解django使用include无法跳转的解决方法
Mar 19 Python
基于打开pycharm有带图片md文件卡死问题的解决
Apr 24 Python
python Matplotlib模块的使用
Sep 16 Python
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
Python selenium模拟网页点击爬虫交管12123违章数据
python scipy 稀疏矩阵的使用说明
You might like
php静态文件返回304技巧分享
2015/01/06 PHP
Zend Framework教程之Zend_Db_Table用法详解
2016/03/21 PHP
thinkPHP5.1框架使用SemanticUI实现分页功能示例
2019/08/03 PHP
JavaScript下通过的XMLHttpRequest发送请求的代码
2011/06/28 Javascript
js正则表达式的使用详解
2013/07/09 Javascript
JS连连看源码完美注释版(推荐)
2013/12/09 Javascript
动态加载jquery库的方法
2014/02/12 Javascript
JQuery EasyUI 加载两次url的原因分析及解决方案
2014/08/18 Javascript
js实现鼠标滑过文字链接色彩变化的效果
2015/05/06 Javascript
基于jQuery实现淡入淡出效果轮播图
2020/07/31 Javascript
微信小程序  生命周期详解
2016/10/27 Javascript
详解vue 中使用 AJAX获取数据的方法
2017/01/18 Javascript
JS实现数组按升序及降序排列的方法
2017/04/26 Javascript
微信小程序使用for循环动态渲染页面操作示例
2018/12/25 Javascript
vue自定义键盘信息、监听数据变化的方法示例【基于vm.$watch】
2019/03/16 Javascript
Ubuntu 14.04+Django 1.7.1+Nginx+uwsgi部署教程
2014/11/18 Python
python实现TCP服务器端与客户端的方法详解
2015/04/30 Python
python 提取tuple类型值中json格式的key值方法
2018/12/31 Python
pandas ix &iloc &loc的区别
2019/01/10 Python
pyinstaller打包多个py文件和去除cmd黑框的方法
2019/06/21 Python
python实现静态服务器
2019/09/05 Python
Python callable内置函数原理解析
2020/03/05 Python
安装Anaconda3及使用Jupyter的方法
2020/10/27 Python
CSS3 清除浮动的方法示例
2018/06/01 HTML / CSS
澳大利亚领先的运动鞋商店:Hype DC
2018/03/31 全球购物
2013年入党人员的自我鉴定
2013/10/25 职场文书
大学生校园创业计划书
2014/02/08 职场文书
事业单位绩效考核实施方案
2014/03/27 职场文书
遗嘱继承公证书
2014/04/09 职场文书
2014党员学习《反腐倡廉警示教育读本》思想汇报
2014/09/13 职场文书
2014小学教师年度考核工作总结
2014/12/03 职场文书
幸福家庭事迹材料
2014/12/20 职场文书
母亲节寄语大全
2015/02/27 职场文书
酒店财务部岗位职责
2015/04/14 职场文书
行政介绍信范文
2015/05/04 职场文书
MySQL七种JOIN类型小结
2021/10/24 MySQL