pandas中DataFrame检测重复值的实现


Posted in Python onMay 26, 2021

本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重

DataFrame.duplicated(subset=None, keep='first')

subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

  • 默认为'first' ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
  • 如果为'last',也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
  • 如果为False,则所有重复的为True

下面举例

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

pandas中DataFrame检测重复值的实现

# 默认为keep="first",第一条重复的为False,后面重复的为True
# 一般不会设置keep,保持keep为默认值。
df.duplicated()

结果
0    False
1     True
2    False
3    False
4    False
dtype: bool

# keep="last",,最后一条重复的为False,后面重复的为True
df.duplicated(keep="last")

结果
0     True
1    False
2    False
3    False
4    False
dtype: bool

# keep=False,,所有重复的为True
df.duplicated(keep=False)

结果
0     True
1     True
2    False
3    False
4    False
dtype: bool

# sub是子,subset是子集
# 标记只要brand重复为重复值。
df.duplicated(subset='brand')

结果

0    False
1     True
2    False
3     True
4     True
dtype: bool


# 只要brand重复brand和style重复的为重复值。
df.duplicated(subset=['brand','style'])

结果

0    False
1     True
2    False
3    False
4     True
dtype: bool


# 显示重复记录,通过布尔索引
df[df.duplicated()]

pandas中DataFrame检测重复值的实现

# 查询重复值的个数。
df.duplicated().sum()

结果
1

到此这篇关于pandas中DataFrame检测重复值的实现的文章就介绍到这了,更多相关pandas DataFrame检测重复值内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
在Python中操作字符串之replace()方法的使用
May 19 Python
详解Python中的__getitem__方法与slice对象的切片操作
Jun 27 Python
详细介绍Python的鸭子类型
Sep 12 Python
Python常见异常分类与处理方法
Jun 04 Python
Python3编程实现获取阿里云ECS实例及监控的方法
Aug 18 Python
python3.6使用urllib完成下载的实例
Dec 19 Python
Python+pyplot绘制带文本标注的柱状图方法
Jul 08 Python
python 设置xlabel,ylabel 坐标轴字体大小,字体类型
Jul 23 Python
解决python ThreadPoolExecutor 线程池中的异常捕获问题
Apr 08 Python
Python unittest单元测试openpyxl实现过程解析
May 27 Python
python绘制趋势图的示例
Sep 17 Python
详解Python中openpyxl模块基本用法
Feb 23 Python
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
Python selenium模拟网页点击爬虫交管12123违章数据
python scipy 稀疏矩阵的使用说明
You might like
PHP5 的对象赋值机制介绍
2011/08/02 PHP
解析mysql left( right ) join使用on与where筛选的差异
2013/06/18 PHP
PHP关于IE下的iframe跨域导致session丢失问题解决方法
2013/10/10 PHP
php根据操作系统转换文件名大小写的方法
2014/02/24 PHP
php保存任意网络图片到服务器的方法
2015/04/14 PHP
PHP中的命名空间详细介绍
2015/07/02 PHP
yii2中dropDownList实现二级和三级联动写法
2017/04/26 PHP
PHP设计模式之原型模式定义与用法详解
2018/04/03 PHP
PHP 计算两个时间段之间交集的天数示例
2019/10/24 PHP
ExtJs中简单的登录界面制作方法
2010/08/19 Javascript
web的各种前端打印方法之jquery打印插件PrintArea实现网页打印
2013/01/09 Javascript
js中复制行和删除行的操作实例
2013/06/25 Javascript
jquery插件开发之实现md5插件
2014/03/17 Javascript
使用js dom和jquery分别实现简单增删改
2014/09/11 Javascript
jQuery异步提交表单的两种方式
2016/09/13 Javascript
Js动态设置rem来实现移动端字体的自适应代码
2016/10/14 Javascript
基于Angularjs+mybatis实现二级评论系统(仿简书)
2017/02/13 Javascript
详解Node.js 命令行程序开发教程
2017/06/07 Javascript
JS判断非空至少输入两个字符的简单实现方法
2017/06/23 Javascript
详解让sublime text3支持Vue语法高亮显示的示例
2017/09/29 Javascript
解决vue的 v-for 循环中图片加载路径问题
2018/09/03 Javascript
9102年webpack4搭建vue项目的方法步骤
2019/02/20 Javascript
Python利用ansible分发处理任务
2015/08/04 Python
Python获取某一天是星期几的方法示例
2017/01/17 Python
python+mysql实现教务管理系统
2019/02/20 Python
PyCharm无法引用自身项目解决方式
2020/02/12 Python
python生成大写32位uuid代码
2020/03/03 Python
python实现ftp文件传输功能
2020/03/20 Python
解决Python 函数声明先后顺序出现的问题
2020/09/02 Python
CSS3 text shadow字体阴影效果
2016/01/08 HTML / CSS
Groupon法国官方网站:特卖和网上购物高达-70%
2019/09/02 全球购物
乌克兰第一的珠宝网上商店:Gold.ua
2019/11/29 全球购物
单位介绍信范文
2014/01/18 职场文书
小学生自我评价范文
2014/01/25 职场文书
党员评议表自我评价范文
2014/10/20 职场文书
2015教师节通讯稿
2015/07/20 职场文书