pandas中DataFrame检测重复值的实现


Posted in Python onMay 26, 2021

本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重

DataFrame.duplicated(subset=None, keep='first')

subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

  • 默认为'first' ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
  • 如果为'last',也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
  • 如果为False,则所有重复的为True

下面举例

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

pandas中DataFrame检测重复值的实现

# 默认为keep="first",第一条重复的为False,后面重复的为True
# 一般不会设置keep,保持keep为默认值。
df.duplicated()

结果
0    False
1     True
2    False
3    False
4    False
dtype: bool

# keep="last",,最后一条重复的为False,后面重复的为True
df.duplicated(keep="last")

结果
0     True
1    False
2    False
3    False
4    False
dtype: bool

# keep=False,,所有重复的为True
df.duplicated(keep=False)

结果
0     True
1     True
2    False
3    False
4    False
dtype: bool

# sub是子,subset是子集
# 标记只要brand重复为重复值。
df.duplicated(subset='brand')

结果

0    False
1     True
2    False
3     True
4     True
dtype: bool


# 只要brand重复brand和style重复的为重复值。
df.duplicated(subset=['brand','style'])

结果

0    False
1     True
2    False
3    False
4     True
dtype: bool


# 显示重复记录,通过布尔索引
df[df.duplicated()]

pandas中DataFrame检测重复值的实现

# 查询重复值的个数。
df.duplicated().sum()

结果
1

到此这篇关于pandas中DataFrame检测重复值的实现的文章就介绍到这了,更多相关pandas DataFrame检测重复值内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python中cPickle用法例子分享
Jan 03 Python
python中常用的各种数据库操作模块和连接实例
May 29 Python
10款最好的Web开发的 Python 框架
Mar 18 Python
python3.X 抓取火车票信息【修正版】
Jun 19 Python
对sklearn的使用之数据集的拆分与训练详解(python3.6)
Dec 14 Python
python学生管理系统开发
Jan 30 Python
Python 进程之间共享数据(全局变量)的方法
Jul 16 Python
在pycharm中配置Anaconda以及pip源配置详解
Sep 09 Python
Xadmin+rules实现多选行权限方式(级联效果)
Apr 07 Python
keras 获取某层输出 获取复用层的多次输出实例
May 23 Python
python字符串常规操作大全
May 02 Python
Python音乐爬虫完美绕过反爬
Aug 30 Python
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
Python selenium模拟网页点击爬虫交管12123违章数据
python scipy 稀疏矩阵的使用说明
You might like
来自phpguru得Php Cache类源码
2010/04/15 PHP
Zend Framework框架Smarty扩展实现方法
2016/03/22 PHP
js滚动条多种样式,推荐
2007/02/05 Javascript
JQuery select标签操作代码段
2010/05/16 Javascript
子页向父页传值示例
2013/11/27 Javascript
JavaScript—window对象使用示例
2013/12/09 Javascript
jquery解析XML字符串和XML文件的方法说明
2014/02/21 Javascript
js实现浏览器窗口大小被改变时触发事件的方法
2015/02/02 Javascript
jQuery插件windowScroll实现单屏滚动特效
2015/07/14 Javascript
分步解析JavaScript实现tab选项卡自动切换功能
2016/01/25 Javascript
基于javascript实现动态时钟效果
2020/08/18 Javascript
探索Javascript中this的奥秘
2016/12/11 Javascript
详解前端自动化工具gulp自动添加版本号
2016/12/20 Javascript
javascript基础知识之html5轮播图实例讲解(44)
2017/02/17 Javascript
JavaScript实现分页效果
2017/03/28 Javascript
EasyUI Tree树组件无限循环的解决方法
2017/09/27 Javascript
JavaScript登录验证基础教程
2017/11/01 Javascript
JavaScript重复元素处理方法分析【统计个数、计算、去重复等】
2017/12/14 Javascript
Vue实现图片与文字混输效果
2019/12/04 Javascript
JS异步宏队列与微队列原理区别详解
2020/07/02 Javascript
解决PyCharm中光标变粗的问题
2017/08/05 Python
Python之——生成动态路由轨迹图的实例
2019/11/22 Python
django 中使用DateTime常用的时间查询方式
2019/12/03 Python
python实现最速下降法
2020/03/24 Python
CSS3 box-sizing属性详解
2016/11/15 HTML / CSS
巴西家用小家电购物网站:Polishop
2016/08/07 全球购物
Vilebrequin欧洲官网:法国豪华泳装品牌(男士沙滩裤)
2018/04/14 全球购物
业务主管岗位职责
2013/11/20 职场文书
医院护士的求职信范文
2013/12/26 职场文书
班级文化建设标语
2014/06/23 职场文书
2015年妇幼卫生工作总结
2015/05/23 职场文书
小学中队委竞选稿
2015/11/20 职场文书
九年级英语教学反思
2016/02/15 职场文书
小学四年级作文之写景
2019/08/23 职场文书
手把手教你导入Go语言第三方库
2021/08/04 Golang
【海涛教你打DOTA】虚空假面第一视角骨弓3房29杀
2022/04/01 DOTA