pandas中DataFrame检测重复值的实现


Posted in Python onMay 26, 2021

本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重

DataFrame.duplicated(subset=None, keep='first')

subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

  • 默认为'first' ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
  • 如果为'last',也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
  • 如果为False,则所有重复的为True

下面举例

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

pandas中DataFrame检测重复值的实现

# 默认为keep="first",第一条重复的为False,后面重复的为True
# 一般不会设置keep,保持keep为默认值。
df.duplicated()

结果
0    False
1     True
2    False
3    False
4    False
dtype: bool

# keep="last",,最后一条重复的为False,后面重复的为True
df.duplicated(keep="last")

结果
0     True
1    False
2    False
3    False
4    False
dtype: bool

# keep=False,,所有重复的为True
df.duplicated(keep=False)

结果
0     True
1     True
2    False
3    False
4    False
dtype: bool

# sub是子,subset是子集
# 标记只要brand重复为重复值。
df.duplicated(subset='brand')

结果

0    False
1     True
2    False
3     True
4     True
dtype: bool


# 只要brand重复brand和style重复的为重复值。
df.duplicated(subset=['brand','style'])

结果

0    False
1     True
2    False
3    False
4     True
dtype: bool


# 显示重复记录,通过布尔索引
df[df.duplicated()]

pandas中DataFrame检测重复值的实现

# 查询重复值的个数。
df.duplicated().sum()

结果
1

到此这篇关于pandas中DataFrame检测重复值的实现的文章就介绍到这了,更多相关pandas DataFrame检测重复值内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python使用xmlrpc实例讲解
Dec 17 Python
python调用Moxa PCOMM Lite通过串口Ymodem协议实现发送文件
Aug 15 Python
Python操作SQLite数据库的方法详解
Jun 16 Python
Linux CentOS7下安装python3 的方法
Jan 21 Python
python3+PyQt5实现自定义分数滑块部件
Apr 24 Python
利用Python如何生成便签图片详解
Jul 09 Python
Python列表list常用内建函数实例小结
Oct 22 Python
python每5分钟从kafka中提取数据的例子
Dec 23 Python
python 获取当前目录下的文件目录和文件名实例代码详解
Mar 10 Python
解决pycharm安装第三方库失败的问题
May 09 Python
matplotlib绘制正余弦曲线图的实现
Feb 22 Python
Python机器学习实战之k-近邻算法的实现
Nov 27 Python
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
Python selenium模拟网页点击爬虫交管12123违章数据
python scipy 稀疏矩阵的使用说明
You might like
详解php魔术方法(Magic methods)的使用方法
2016/02/14 PHP
php基于自定义函数记录log日志方法
2017/07/21 PHP
PHP使用正则表达式实现过滤非法字符串功能示例
2018/06/04 PHP
CSS中简写属性要注意TRouBLe的顺序问题(避免踩坑)
2021/03/09 HTML / CSS
window.location.href中url中数据量太大时的解决方法
2013/12/23 Javascript
js调用打印机打印网页字体总是缩小一号的解决方法
2014/01/24 Javascript
显示今天的日期js代码(阳历和农历)
2014/09/30 Javascript
详解jquery中$.ajax方法提交表单
2014/11/03 Javascript
jQuery实现带动画效果的二级下拉导航方法
2015/03/11 Javascript
详解JavaScript中的every()方法
2015/06/08 Javascript
jquery实现简单的表单验证
2015/11/17 Javascript
js和jquery实现监听键盘事件示例代码
2020/06/24 Javascript
JS实现放大、缩小及拖拽图片的方法【可兼容IE、火狐】
2016/08/23 Javascript
如何开发出更好的JavaScript模块
2017/12/22 Javascript
javascript实现最长公共子序列实例代码
2018/02/05 Javascript
jquery实现下载图片功能
2019/07/18 jQuery
express中static中间件的具体使用方法
2019/10/17 Javascript
Python脚本实现集群检测和管理功能
2015/03/06 Python
剖析Django中模版标签的解析与参数传递
2015/07/21 Python
详解Python的Lambda函数与排序
2016/10/25 Python
基于Python代码编辑器的选用(详解)
2017/09/13 Python
高效使用Python字典的清单
2018/04/04 Python
pytorch 转换矩阵的维数位置方法
2018/12/08 Python
python实现批量处理将图片粘贴到另一张图片上并保存
2019/12/12 Python
Django视图类型总结
2021/02/17 Python
CSS3盒子模型详解
2013/04/24 HTML / CSS
美国旅游网站:Tours4Fun
2017/02/17 全球购物
波兰数码相机及配件网上商店: Cyfrowe.pl
2017/06/19 全球购物
10条PHP编程习惯
2014/05/26 面试题
汽车专业毕业生自荐信
2013/11/03 职场文书
深入开展党的群众路线教育实践活动方案
2014/02/04 职场文书
初中班主任寄语
2014/04/04 职场文书
党员“四风”方面存在问题及整改措施
2014/09/24 职场文书
幼儿园小班个人总结
2015/02/12 职场文书
使用MybatisPlus打印sql语句
2022/04/22 SQL Server
python 使用pandas读取csv文件的方法
2022/12/24 Python