pandas中DataFrame检测重复值的实现


Posted in Python onMay 26, 2021

本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重

DataFrame.duplicated(subset=None, keep='first')

subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

  • 默认为'first' ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
  • 如果为'last',也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
  • 如果为False,则所有重复的为True

下面举例

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

pandas中DataFrame检测重复值的实现

# 默认为keep="first",第一条重复的为False,后面重复的为True
# 一般不会设置keep,保持keep为默认值。
df.duplicated()

结果
0    False
1     True
2    False
3    False
4    False
dtype: bool

# keep="last",,最后一条重复的为False,后面重复的为True
df.duplicated(keep="last")

结果
0     True
1    False
2    False
3    False
4    False
dtype: bool

# keep=False,,所有重复的为True
df.duplicated(keep=False)

结果
0     True
1     True
2    False
3    False
4    False
dtype: bool

# sub是子,subset是子集
# 标记只要brand重复为重复值。
df.duplicated(subset='brand')

结果

0    False
1     True
2    False
3     True
4     True
dtype: bool


# 只要brand重复brand和style重复的为重复值。
df.duplicated(subset=['brand','style'])

结果

0    False
1     True
2    False
3    False
4     True
dtype: bool


# 显示重复记录,通过布尔索引
df[df.duplicated()]

pandas中DataFrame检测重复值的实现

# 查询重复值的个数。
df.duplicated().sum()

结果
1

到此这篇关于pandas中DataFrame检测重复值的实现的文章就介绍到这了,更多相关pandas DataFrame检测重复值内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python实现截屏的函数
Jul 26 Python
利用python模拟sql语句对员工表格进行增删改查
Jul 05 Python
python中ASCII码字符与int之间的转换方法
Jul 09 Python
Python Tkinter模块实现时钟功能应用示例
Jul 23 Python
python批量修改图片后缀的方法(png到jpg)
Oct 25 Python
pandas通过索引进行排序的示例
Nov 16 Python
pandas中的series数据类型详解
Jul 06 Python
python实现批量文件重命名
Oct 31 Python
PYcharm 激活方法(推荐)
Mar 23 Python
python 决策树算法的实现
Oct 09 Python
如何让PyQt5中QWebEngineView与JavaScript交互
Oct 21 Python
python os.rename实例用法详解
Dec 06 Python
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
Python selenium模拟网页点击爬虫交管12123违章数据
python scipy 稀疏矩阵的使用说明
You might like
使用PHP提取视频网站页面中的FLASH地址的代码
2010/04/17 PHP
解析关于wamp启动是80端口被占用的问题
2013/06/21 PHP
JavaScript高级程序设计 阅读笔记(二十一) JavaScript中的XML
2012/09/14 Javascript
jquery的ajax()函数传值中文乱码解决方法介绍
2012/11/08 Javascript
Jquery实现带动画效果的经典二级导航菜单
2013/03/22 Javascript
Javascript控制页面链接在新窗口打开具体方法
2013/08/16 Javascript
js实现简单鼠标跟随效果的方法
2015/04/10 Javascript
javascript实现点击单选按钮链接转向对应网址的方法
2015/08/12 Javascript
JavaScript函数的调用以及参数传递
2015/10/21 Javascript
谈谈AngularJs中的隐藏和显示
2015/12/09 Javascript
简单理解vue中Props属性
2016/10/27 Javascript
angularjs的单选框+ng-repeat的实现方法
2018/09/12 Javascript
vue实现动态列表点击各行换色的方法
2018/09/13 Javascript
在vue中v-bind使用三目运算符绑定class的实例
2018/09/29 Javascript
JS二级菜单不同实现方法分析【4种方法】
2018/12/21 Javascript
js实现登录拖拽窗口
2020/02/10 Javascript
vue+vant使用图片预览功能ImagePreview的问题解决
2020/04/10 Javascript
手把手教你如何编译打包video.js
2020/12/09 Javascript
用Python实现协同过滤的教程
2015/04/08 Python
Linux下使用python自动修改本机网关代码分享
2015/05/21 Python
在Python中通过threading模块定义和调用线程的方法
2016/07/12 Python
python利用不到一百行代码实现一个小siri
2017/03/02 Python
mac下给python3安装requests库和scrapy库的实例
2018/06/13 Python
python处理两种分隔符的数据集方法
2018/12/12 Python
Python正则表达式匹配日期与时间的方法
2019/07/07 Python
Python测试模块doctest使用解析
2019/08/10 Python
HTML5里的placeholder属性使用实例和美化显示效果的方法
2014/04/23 HTML / CSS
Html5 语法与规则简要概述
2014/07/29 HTML / CSS
美体小铺奥地利官方网站:The Body Shop奥地利
2019/04/11 全球购物
Linux中如何设置Java环境变量(Ubuntu)
2016/07/24 面试题
物业管理专业个人的自我评价
2013/11/19 职场文书
烹饪自我鉴定
2014/03/01 职场文书
拓展训练激励口号
2014/06/17 职场文书
2014小学年度工作总结
2014/12/20 职场文书
公司给客户的感谢信
2015/01/23 职场文书
2016年“5.12”护士节慰问信
2015/11/30 职场文书