pandas中DataFrame检测重复值的实现


Posted in Python onMay 26, 2021

本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重

DataFrame.duplicated(subset=None, keep='first')

subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

  • 默认为'first' ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
  • 如果为'last',也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
  • 如果为False,则所有重复的为True

下面举例

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

pandas中DataFrame检测重复值的实现

# 默认为keep="first",第一条重复的为False,后面重复的为True
# 一般不会设置keep,保持keep为默认值。
df.duplicated()

结果
0    False
1     True
2    False
3    False
4    False
dtype: bool

# keep="last",,最后一条重复的为False,后面重复的为True
df.duplicated(keep="last")

结果
0     True
1    False
2    False
3    False
4    False
dtype: bool

# keep=False,,所有重复的为True
df.duplicated(keep=False)

结果
0     True
1     True
2    False
3    False
4    False
dtype: bool

# sub是子,subset是子集
# 标记只要brand重复为重复值。
df.duplicated(subset='brand')

结果

0    False
1     True
2    False
3     True
4     True
dtype: bool


# 只要brand重复brand和style重复的为重复值。
df.duplicated(subset=['brand','style'])

结果

0    False
1     True
2    False
3    False
4     True
dtype: bool


# 显示重复记录,通过布尔索引
df[df.duplicated()]

pandas中DataFrame检测重复值的实现

# 查询重复值的个数。
df.duplicated().sum()

结果
1

到此这篇关于pandas中DataFrame检测重复值的实现的文章就介绍到这了,更多相关pandas DataFrame检测重复值内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python程序中用csv模块来操作csv文件的基本使用教程
Mar 03 Python
Django Admin 实现外键过滤的方法
Sep 29 Python
解决python读取几千万行的大表内存问题
Jun 26 Python
Pandas读写CSV文件的方法示例
Mar 27 Python
解决python flask中config配置管理的问题
Jul 26 Python
Macbook安装Python最新版本、GUI开发环境、图像处理、视频处理环境详解
Feb 17 Python
python实现音乐播放和下载小程序功能
Apr 26 Python
python openCV实现摄像头获取人脸图片
Aug 20 Python
浅析Python中字符串的intern机制
Oct 03 Python
python实现图片转字符画的完整代码
Feb 21 Python
Python 调用C++封装的进一步探索交流
Mar 04 Python
python 下划线的多种应用场景总结
May 12 Python
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
Python selenium模拟网页点击爬虫交管12123违章数据
python scipy 稀疏矩阵的使用说明
You might like
基于laravel-admin 后台 列表标签背景的使用方法
2019/10/03 PHP
再次更新!MSClass (Class Of Marquee Scroll通用不间断滚动JS封装类 Ver 1.6)
2007/02/05 Javascript
JavaScript 脚本将当地时间转换成其它时区
2009/03/19 Javascript
javascript动态添加表格数据行(ASP后台数据库保存例子)
2010/05/08 Javascript
js禁止小键盘输入数字功能代码
2011/08/01 Javascript
JavaScript对数字的判断与处理实例分析
2015/02/02 Javascript
JS拖拽插件实现步骤
2015/08/03 Javascript
jQuery height()、innerHeight()、outerHeight()函数的区别详解
2016/05/23 Javascript
JS简单实现无缝滚动效果实例
2016/08/24 Javascript
清空元素html("") innerHTML="" 与 empty()的区别和应用(推荐)
2017/08/14 Javascript
使用electron制作满屏心特效的示例代码
2018/11/27 Javascript
React Native中Mobx的使用方法详解
2018/12/04 Javascript
vue+web端仿微信网页版聊天室功能
2019/04/30 Javascript
javascript头像上传代码实例
2019/09/28 Javascript
用Javascript实现发送短信验证码间隔功能
2021/02/08 Javascript
使用Python3编写抓取网页和只抓网页图片的脚本
2015/08/20 Python
浅析Python 中整型对象存储的位置
2016/05/16 Python
基于python时间处理方法(详解)
2017/08/14 Python
python数据封装json格式数据
2018/03/04 Python
python3监控CentOS磁盘空间脚本
2018/06/21 Python
Python日志模块logging基本用法分析
2018/08/23 Python
python opencv读mp4视频的实例
2018/12/07 Python
python读取xlsx的方法
2018/12/25 Python
Python Opencv提取图片中某种颜色组成的图形的方法
2019/09/19 Python
python hashlib加密实现代码
2019/10/17 Python
python hash每次调用结果不同的原因
2019/11/21 Python
浅谈python已知元素,获取元素索引(numpy,pandas)
2019/11/26 Python
python函数声明和调用定义及原理详解
2019/12/02 Python
Scrapy框架实现的登录网站操作示例
2020/02/06 Python
django-利用session机制实现唯一登录的例子
2020/03/16 Python
英国复古和经典球衣网站:Vintage Football Shirts
2018/10/05 全球购物
lookfantastic荷兰:在线购买奢华护肤、护发和化妆品
2018/11/27 全球购物
教育孩子心得体会
2014/01/01 职场文书
节约用水标语
2014/06/11 职场文书
遗嘱继承权公证书
2015/01/26 职场文书
于丹论语心得观后感
2015/06/15 职场文书