pandas中DataFrame检测重复值的实现


Posted in Python onMay 26, 2021

本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重

DataFrame.duplicated(subset=None, keep='first')

subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

  • 默认为'first' ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
  • 如果为'last',也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
  • 如果为False,则所有重复的为True

下面举例

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

pandas中DataFrame检测重复值的实现

# 默认为keep="first",第一条重复的为False,后面重复的为True
# 一般不会设置keep,保持keep为默认值。
df.duplicated()

结果
0    False
1     True
2    False
3    False
4    False
dtype: bool

# keep="last",,最后一条重复的为False,后面重复的为True
df.duplicated(keep="last")

结果
0     True
1    False
2    False
3    False
4    False
dtype: bool

# keep=False,,所有重复的为True
df.duplicated(keep=False)

结果
0     True
1     True
2    False
3    False
4    False
dtype: bool

# sub是子,subset是子集
# 标记只要brand重复为重复值。
df.duplicated(subset='brand')

结果

0    False
1     True
2    False
3     True
4     True
dtype: bool


# 只要brand重复brand和style重复的为重复值。
df.duplicated(subset=['brand','style'])

结果

0    False
1     True
2    False
3    False
4     True
dtype: bool


# 显示重复记录,通过布尔索引
df[df.duplicated()]

pandas中DataFrame检测重复值的实现

# 查询重复值的个数。
df.duplicated().sum()

结果
1

到此这篇关于pandas中DataFrame检测重复值的实现的文章就介绍到这了,更多相关pandas DataFrame检测重复值内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python ORM框架SQLAlchemy学习笔记之映射类使用实例和Session会话介绍
Jun 10 Python
详解Python中__str__和__repr__方法的区别
Apr 17 Python
Python OS模块常用函数说明
May 23 Python
Python如何生成树形图案
Jan 03 Python
tensorflow输出权重值和偏差的方法
Feb 10 Python
Python多进程入门、分布式进程数据共享实例详解
Jun 03 Python
pyqt5 获取显示器的分辨率的方法
Jun 18 Python
Pandas聚合运算和分组运算的实现示例
Oct 17 Python
python-sys.stdout作为默认函数参数的实现
Feb 21 Python
Python3标准库之functools管理函数的工具详解
Feb 27 Python
Python装饰器的应用场景代码总结
Apr 10 Python
Python根据指定文件生成XML的方法
Jun 29 Python
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
Python selenium模拟网页点击爬虫交管12123违章数据
python scipy 稀疏矩阵的使用说明
You might like
php学习之数据类型之间的转换代码
2011/05/29 PHP
PHP新手用的Insert和Update语句构造类
2012/03/31 PHP
PHP读取xml方法介绍
2013/01/12 PHP
使用Apache的htaccess防止图片被盗链的解决方法
2013/04/27 PHP
带密匙的php加密解密示例分享
2014/01/29 PHP
基于jquery实现的一个选择中国大学的弹框 (数据、步骤、代码)
2012/07/26 Javascript
主页面中的两个iframe实现鼠标拖动改变其大小
2013/04/16 Javascript
上传的js验证(图片/文件的扩展名)
2013/04/25 Javascript
当鼠标滑过文本框自动选中输入框内容的JS代码分享
2013/11/26 Javascript
node.js+Ajax实现获取HTTP服务器返回数据
2014/11/26 Javascript
jQuery处理json数据返回数组和输出的方法
2015/03/11 Javascript
举例讲解jQuery中可见性过滤选择器的使用
2016/04/18 Javascript
Ztree新增角色和编辑角色回显问题的解决
2016/10/25 Javascript
基于node.js制作简单爬虫教程
2017/06/29 Javascript
Webpack常见静态资源处理-模块加载器(Loaders)+ExtractTextPlugin插件
2017/06/29 Javascript
ionic 3.0+ 项目搭建运行环境的教程
2017/08/09 Javascript
angularJs-$http实现百度搜索时的动态下拉框示例
2018/02/27 Javascript
vue中v-for加载本地静态图片方法
2018/03/03 Javascript
从零开始在NPM上发布一个Vue组件的方法步骤
2018/12/20 Javascript
vue生命周期的探索
2019/04/03 Javascript
基于mpvue小程序使用echarts画折线图的方法示例
2019/04/24 Javascript
Webpack中loader打包各种文件的方法实例
2019/09/03 Javascript
vue 中使用print.js导出pdf操作
2020/11/13 Javascript
利用 JavaScript 实现并发控制的示例代码
2020/12/31 Javascript
python使用Qt界面以及逻辑实现方法
2019/07/10 Python
Python实现字符串中某个字母的替代功能
2019/10/21 Python
Pytorch对Himmelblau函数的优化详解
2020/02/29 Python
Python数据正态性检验实现过程
2020/04/18 Python
最新PyCharm 2020.2.3永久激活码(亲测有效)
2020/11/26 Python
html5 localStorage本地存储_动力节点Java学院整理
2017/07/06 HTML / CSS
意大利和国际最佳时尚品牌:Drestige
2019/12/28 全球购物
Bandier官网:奢侈、时尚前卫的健身服装首选目的地
2020/07/05 全球购物
中国梦团日活动总结
2014/07/07 职场文书
在宿舍喝酒的检讨书
2014/09/28 职场文书
教师评职称工作总结2015
2015/04/20 职场文书
PHP 时间处理类Carbon
2022/05/20 PHP