编程 Python

pandas中DataFrame检测重复值的实现

Posted in Python onMay 26, 2021

本文详解如何使用pandas查看dataframe的重复数据，判断是否重复，以及如何去重

DataFrame.duplicated(subset=None, keep='first')

subset：如果你认为几个字段重复，则数据重复，就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

默认为'first' ,也就是如果有重复数据，则第一条出现的定义为False，后面的重复数据为True。
如果为'last'，也就是如果有重复数据，则最后一条出现的定义为False，后面的重复数据为True。
如果为False，则所有重复的为True

下面举例

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

pandas中DataFrame检测重复值的实现

# 默认为keep="first",第一条重复的为False,后面重复的为True
# 一般不会设置keep，保持keep为默认值。
df.duplicated()

结果
0    False
1     True
2    False
3    False
4    False
dtype: bool

# keep="last",,最后一条重复的为False,后面重复的为True
df.duplicated(keep="last")

结果
0     True
1    False
2    False
3    False
4    False
dtype: bool

# keep=False,,所有重复的为True
df.duplicated(keep=False)

结果
0     True
1     True
2    False
3    False
4    False
dtype: bool

# sub是子，subset是子集
# 标记只要brand重复为重复值。
df.duplicated(subset='brand')

结果

0    False
1     True
2    False
3     True
4     True
dtype: bool


# 只要brand重复brand和style重复的为重复值。
df.duplicated(subset=['brand','style'])

结果

0    False
1     True
2    False
3    False
4     True
dtype: bool


# 显示重复记录，通过布尔索引
df[df.duplicated()]

pandas中DataFrame检测重复值的实现

# 查询重复值的个数。
df.duplicated().sum()

结果
1

到此这篇关于pandas中DataFrame检测重复值的实现的文章就介绍到这了,更多相关pandas DataFrame检测重复值内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

pandas中DataFrame检测重复值的实现

- Author -

乘风破浪的熊爸

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python使用xmlrpc实例讲解

Dec 17 Python

python调用Moxa PCOMM Lite通过串口Ymodem协议实现发送文件

Aug 15 Python

Python操作SQLite数据库的方法详解

Jun 16 Python

Linux CentOS7下安装python3 的方法

Jan 21 Python

python3+PyQt5实现自定义分数滑块部件

Apr 24 Python

利用Python如何生成便签图片详解

Jul 09 Python

Python列表list常用内建函数实例小结

Oct 22 Python

python每5分钟从kafka中提取数据的例子

Dec 23 Python

python 获取当前目录下的文件目录和文件名实例代码详解

Mar 10 Python

解决pycharm安装第三方库失败的问题

May 09 Python

matplotlib绘制正余弦曲线图的实现

Feb 22 Python

Python机器学习实战之k-近邻算法的实现

Nov 27 Python

python 中的@运算符使用

May 26 #Python

Python 实现定积分与二重定积分的操作

May 26 #Python

python 解决微分方程的操作(数值解法)

python 实现体质指数BMI计算

May 26 #Python

Python 如何解决稀疏矩阵运算

Python selenium模拟网页点击爬虫交管12123违章数据

python scipy 稀疏矩阵的使用说明

You might like

详解php魔术方法(Magic methods)的使用方法

2016/02/14 PHP

php基于自定义函数记录log日志方法

2017/07/21 PHP

PHP使用正则表达式实现过滤非法字符串功能示例

2018/06/04 PHP

CSS中简写属性要注意TRouBLe的顺序问题(避免踩坑)

2021/03/09 HTML / CSS

window.location.href中url中数据量太大时的解决方法

2013/12/23 Javascript

js调用打印机打印网页字体总是缩小一号的解决方法

2014/01/24 Javascript

显示今天的日期js代码(阳历和农历)

2014/09/30 Javascript

详解jquery中$.ajax方法提交表单

2014/11/03 Javascript

jQuery实现带动画效果的二级下拉导航方法

2015/03/11 Javascript

详解JavaScript中的every()方法

2015/06/08 Javascript

jquery实现简单的表单验证

2015/11/17 Javascript

js和jquery实现监听键盘事件示例代码

2020/06/24 Javascript

JS实现放大、缩小及拖拽图片的方法【可兼容IE、火狐】

2016/08/23 Javascript

如何开发出更好的JavaScript模块

2017/12/22 Javascript

javascript实现最长公共子序列实例代码

2018/02/05 Javascript

jquery实现下载图片功能

2019/07/18 jQuery

express中static中间件的具体使用方法

2019/10/17 Javascript

Python脚本实现集群检测和管理功能

2015/03/06 Python

剖析Django中模版标签的解析与参数传递

2015/07/21 Python

详解Python的Lambda函数与排序

2016/10/25 Python

基于Python代码编辑器的选用(详解)

2017/09/13 Python

高效使用Python字典的清单

2018/04/04 Python

pytorch 转换矩阵的维数位置方法

2018/12/08 Python

python实现批量处理将图片粘贴到另一张图片上并保存

2019/12/12 Python

Django视图类型总结

2021/02/17 Python

CSS3盒子模型详解

2013/04/24 HTML / CSS

美国旅游网站：Tours4Fun

2017/02/17 全球购物

波兰数码相机及配件网上商店： Cyfrowe.pl

2017/06/19 全球购物

10条PHP编程习惯

2014/05/26 面试题

汽车专业毕业生自荐信

2013/11/03 职场文书

深入开展党的群众路线教育实践活动方案

2014/02/04 职场文书

初中班主任寄语

2014/04/04 职场文书

党员“四风”方面存在问题及整改措施

2014/09/24 职场文书

幼儿园小班个人总结

2015/02/12 职场文书

使用MybatisPlus打印sql语句

2022/04/22 SQL Server

python 使用pandas读取csv文件的方法

2022/12/24 Python