pandas中DataFrame检测重复值的实现


Posted in Python onMay 26, 2021

本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重

DataFrame.duplicated(subset=None, keep='first')

subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

  • 默认为'first' ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
  • 如果为'last',也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
  • 如果为False,则所有重复的为True

下面举例

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

pandas中DataFrame检测重复值的实现

# 默认为keep="first",第一条重复的为False,后面重复的为True
# 一般不会设置keep,保持keep为默认值。
df.duplicated()

结果
0    False
1     True
2    False
3    False
4    False
dtype: bool

# keep="last",,最后一条重复的为False,后面重复的为True
df.duplicated(keep="last")

结果
0     True
1    False
2    False
3    False
4    False
dtype: bool

# keep=False,,所有重复的为True
df.duplicated(keep=False)

结果
0     True
1     True
2    False
3    False
4    False
dtype: bool

# sub是子,subset是子集
# 标记只要brand重复为重复值。
df.duplicated(subset='brand')

结果

0    False
1     True
2    False
3     True
4     True
dtype: bool


# 只要brand重复brand和style重复的为重复值。
df.duplicated(subset=['brand','style'])

结果

0    False
1     True
2    False
3    False
4     True
dtype: bool


# 显示重复记录,通过布尔索引
df[df.duplicated()]

pandas中DataFrame检测重复值的实现

# 查询重复值的个数。
df.duplicated().sum()

结果
1

到此这篇关于pandas中DataFrame检测重复值的实现的文章就介绍到这了,更多相关pandas DataFrame检测重复值内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python实现读取目录所有文件的文件名并保存到txt文件代码
Nov 22 Python
python通过字典dict判断指定键值是否存在的方法
Mar 21 Python
python使用multiprocessing模块实现带回调函数的异步调用方法
Apr 18 Python
Python中collections模块的基本使用教程
Dec 07 Python
Python计算两个矩形重合面积代码实例
Sep 16 Python
python用quad、dblquad实现一维二维积分的实例详解
Nov 20 Python
Tensorflow:转置函数 transpose的使用详解
Feb 11 Python
Python栈的实现方法示例【列表、单链表】
Feb 22 Python
PyCharm GUI界面开发和exe文件生成的实现
Mar 04 Python
Python基于pillow库实现生成图片水印
Sep 14 Python
matplotlib 三维图表绘制方法简介
Sep 20 Python
Python读写csv文件流程及异常解决
Oct 20 Python
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
Python selenium模拟网页点击爬虫交管12123违章数据
python scipy 稀疏矩阵的使用说明
You might like
ThinkPHP自动填充实现无限级分类的方法
2014/08/22 PHP
学习php设计模式 php实现策略模式(strategy)
2015/12/07 PHP
Symfony2学习笔记之插件格式分析
2016/03/17 PHP
php生成二维码不保存服务器还有下载功能的实现代码
2018/08/09 PHP
PHP crypt()函数的用法讲解
2019/02/15 PHP
让你的网站可编辑的实现js代码
2009/10/19 Javascript
JS文本框追加多个下拉框的值的简单实例
2013/07/12 Javascript
Iframe实现跨浏览器自适应高度解决方法
2014/09/02 Javascript
JavaScript字符串对象toUpperCase方法入门实例(用于把字母转换为大写)
2014/10/17 Javascript
NodeJS学习笔记之Connect中间件应用实例
2015/01/27 NodeJs
简介JavaScript中fixed()方法的使用
2015/06/08 Javascript
Angular外部使用js调用Angular控制器中的函数方法或变量用法示例
2016/08/05 Javascript
javascript动画之模拟拖拽效果篇
2016/09/26 Javascript
深入理解nodejs中Express的中间件
2017/05/19 NodeJs
js 提取某()特殊字符串长度的实例
2017/12/06 Javascript
python模拟新浪微博登陆功能(新浪微博爬虫)
2013/12/24 Python
Python正则替换字符串函数re.sub用法示例
2017/01/19 Python
Python实现矩阵加法和乘法的方法分析
2017/12/19 Python
django如何连接已存在数据的数据库
2018/08/14 Python
详解关于Django中ORM数据库迁移的配置
2018/10/08 Python
详解用python写网络爬虫-爬取新浪微博评论
2019/05/10 Python
python中函数返回多个结果的实例方法
2020/12/16 Python
html5 利用canvas手写签名并保存的实现方法
2018/07/12 HTML / CSS
在HTML5 canvas里用卷积核进行图像处理的方法
2018/05/02 HTML / CSS
Crocs美国官方网站:卡骆驰洞洞鞋
2017/08/04 全球购物
Kappa英国官方在线商店:服装和运动器材
2020/11/22 全球购物
大学生军训广播稿
2014/01/24 职场文书
文艺晚会主持词
2014/03/24 职场文书
保护环境建议书100字
2014/05/13 职场文书
远程培训的心得体会
2014/09/01 职场文书
公司周年庆典标语
2014/10/07 职场文书
关于销售人员的年终工作总结要点
2019/08/15 职场文书
小学秋季运动会加油口号及加油稿
2019/08/19 职场文书
Python Flask搭建yolov3目标检测系统详解流程
2021/11/07 Python
Java如何实现通过键盘输入一个数组
2022/02/15 Java/Android
使用Python开发贪吃蛇游戏 SnakeGame
2022/04/30 Python