pandas中DataFrame检测重复值的实现


Posted in Python onMay 26, 2021

本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重

DataFrame.duplicated(subset=None, keep='first')

subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

  • 默认为'first' ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
  • 如果为'last',也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
  • 如果为False,则所有重复的为True

下面举例

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

pandas中DataFrame检测重复值的实现

# 默认为keep="first",第一条重复的为False,后面重复的为True
# 一般不会设置keep,保持keep为默认值。
df.duplicated()

结果
0    False
1     True
2    False
3    False
4    False
dtype: bool

# keep="last",,最后一条重复的为False,后面重复的为True
df.duplicated(keep="last")

结果
0     True
1    False
2    False
3    False
4    False
dtype: bool

# keep=False,,所有重复的为True
df.duplicated(keep=False)

结果
0     True
1     True
2    False
3    False
4    False
dtype: bool

# sub是子,subset是子集
# 标记只要brand重复为重复值。
df.duplicated(subset='brand')

结果

0    False
1     True
2    False
3     True
4     True
dtype: bool


# 只要brand重复brand和style重复的为重复值。
df.duplicated(subset=['brand','style'])

结果

0    False
1     True
2    False
3    False
4     True
dtype: bool


# 显示重复记录,通过布尔索引
df[df.duplicated()]

pandas中DataFrame检测重复值的实现

# 查询重复值的个数。
df.duplicated().sum()

结果
1

到此这篇关于pandas中DataFrame检测重复值的实现的文章就介绍到这了,更多相关pandas DataFrame检测重复值内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python中遍历文件的3个方法
Sep 02 Python
Python爬取附近餐馆信息代码示例
Dec 09 Python
快速了解Python相对导入
Jan 12 Python
python时间日期函数与利用pandas进行时间序列处理详解
Mar 13 Python
Python 十六进制整数与ASCii编码字符串相互转换方法
Jul 09 Python
python reverse反转部分数组的实例
Dec 13 Python
Python3视频转字符动画的实例代码
Aug 29 Python
Python中的相关分析correlation analysis的实现
Aug 29 Python
在notepad++中实现直接运行python代码
Dec 18 Python
python实现双色球随机选号
Jan 01 Python
PyTorch安装与基本使用详解
Aug 31 Python
Django cookie和session的应用场景及如何使用
Apr 29 Python
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
Python selenium模拟网页点击爬虫交管12123违章数据
python scipy 稀疏矩阵的使用说明
You might like
第九节 绑定 [9]
2006/10/09 PHP
浅析PHP中的UNICODE 编码与解码
2013/06/29 PHP
使用YUI+Ant 实现JS CSS压缩
2014/09/02 PHP
PHP去掉json字符串中的反斜杠\及去掉双引号前的反斜杠
2015/09/30 PHP
PHP简单获取及判断提交来源的方法
2016/04/22 PHP
JavaScript高级程序设计 阅读笔记(七) ECMAScript中的语句
2012/02/27 Javascript
js获取浏览器基本信息大全
2014/11/27 Javascript
探讨JavaScript语句的执行过程
2016/01/28 Javascript
jQuery+php实时获取及响应文本框输入内容的方法
2016/05/24 Javascript
jQuery基于ID调用指定iframe页面内的方法
2016/07/06 Javascript
JS触发服务器控件的单击事件(详解)
2016/08/06 Javascript
基于百度地图实现产品销售的单位位置查看功能设计与实现
2016/10/21 Javascript
利用CSS、JavaScript及Ajax实现图片预加载的方法
2016/11/29 Javascript
详解jQuery简单的表格应用
2016/12/16 Javascript
使用vue官方提供的模板vue-cli搭建一个helloWorld案例分析
2018/01/16 Javascript
Vue开发之封装上传文件组件与用法示例
2019/04/25 Javascript
vue柱状进度条图像的完美实现方案
2019/08/26 Javascript
vant-ui AddressEdit地址编辑和van-area的用法说明
2020/11/03 Javascript
手动实现把python项目发布为exe可执行程序过程分享
2014/10/23 Python
Python中使用asyncio 封装文件读写
2016/09/11 Python
浅谈Python类里的__init__方法函数,Python类的构造函数
2016/12/10 Python
python numpy函数中的linspace创建等差数列详解
2017/10/13 Python
浅谈python中requests模块导入的问题
2018/05/18 Python
python3.6.3转化为win-exe文件发布的方法
2018/10/31 Python
详谈tensorflow gfile文件的用法
2020/02/05 Python
详解Python中import机制
2020/09/11 Python
英国在线购买轮胎、预订汽车、汽车维修和装配网站:Protyre
2020/04/12 全球购物
PHP如何自定义函数
2016/09/16 面试题
护理学应聘自荐书范文
2014/02/05 职场文书
加多宝凉茶广告词
2014/03/18 职场文书
房屋公证委托书
2014/04/03 职场文书
娱乐节目策划方案
2014/06/10 职场文书
博士生导师推荐信
2014/07/08 职场文书
2015年大学团支部工作总结
2015/05/13 职场文书
2016年“世界环境日”校园广播稿
2015/12/18 职场文书
2019员工保密协议书(3篇)
2019/09/23 职场文书