python pandas dataframe 去重函数的具体使用


Posted in Python onJuly 20, 2020

今天笔者想对pandas中的行进行去重操作,找了好久,才找到相关的函数

先看一个小例子

from pandas import Series, DataFrame
 
data = DataFrame({'k': [1, 1, 2, 2]})
 
print data
 
IsDuplicated = data.duplicated()
 
print IsDuplicated
print type(IsDuplicated)
 
data = data.drop_duplicates()
print data

执行结果是:

   k
0  1
1  1
2  2
3  2

0    False
1     True
2    False
3     True

   k
0  1
2  2

DataFrame的duplicated方法返回一个布尔型Series,表示各行是否重复行。

而 drop_duplicates方法,它用于返回一个移除了重复行的DataFrame

这两个方法会判断全部列,你也可以指定部分列进行重复项判段。

drop_duplicates根据数据的不同情况及处理数据的不同需求,通常会分为两种情况,一种是去除完全重复的行数据,另一种是去除某几列重复的行数据,就这两种情况可用下面的代码进行处理。

1. 去除完全重复的行数据

data.drop_duplicates(inplace=True)

2. 去除某几列重复的行数据

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
  • subset: 列名,可选,默认为None
    • keep: {‘first', ‘last', False}, 默认值 ‘first'
    • first: 保留第一次出现的重复行,删除后面的重复行。
    • last: 删除重复项,除了最后一次出现。
  • False: 删除所有重复项。
  • inplace:布尔值,默认为False,是否直接在原数据上删除重复项或删除重复项后返回副本。(inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。)

例如,希望对名字为k2的列进行去重,

data.drop_duplicates(['k2'])

到此这篇关于python pandas dataframe 去重函数的具体使用的文章就介绍到这了,更多相关python pandas dataframe 去重函数内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python实现颜色rgb和hex相互转换的函数
Mar 19 Python
Python多线程编程(八):使用Event实现线程间通信
Apr 05 Python
举例讲解Python中装饰器的用法
Apr 27 Python
解决phantomjs截图失败,phantom.exit位置的问题
May 17 Python
5分钟 Pipenv 上手指南
Dec 20 Python
Python3模拟登录操作实例分析
Mar 12 Python
python 批量解压压缩文件的实例代码
Jun 27 Python
PyTorch中Tensor的维度变换实现
Aug 18 Python
pygame实现俄罗斯方块游戏(基础篇1)
Oct 29 Python
python实现tail实时查看服务器日志示例
Dec 24 Python
python+adb+monkey实现Rom稳定性测试详解
Apr 23 Python
在python中读取和写入CSV文件详情
Jun 28 Python
Pandas中DataFrame基本函数整理(小结)
Jul 20 #Python
Python实现删除某列中含有空值的行的示例代码
Jul 20 #Python
解决python运行效率不高的问题
Jul 20 #Python
Python生成器generator原理及用法解析
Jul 20 #Python
Win10环境中如何实现python2和python3并存
Jul 20 #Python
python和go语言的区别是什么
Jul 20 #Python
Python基础教程(一)——Windows搭建开发Python开发环境
Jul 20 #Python
You might like
php中的一个中文字符串截取函数
2007/02/14 PHP
php array_merge下进行数组合并的代码
2008/07/22 PHP
php5.5中类级别的常量使用介绍
2013/10/02 PHP
Laravel框架中实现使用阿里云ACE缓存服务
2015/02/10 PHP
PHP判断IP并转跳到相应城市分站的方法
2015/03/25 PHP
快速解决PHP调用Word组件DCOM权限的问题
2017/12/27 PHP
php获取微信openid方法总结
2019/10/10 PHP
js 判断一个元素是否在页面中存在
2012/12/27 Javascript
jQuery基本过滤选择器使用介绍
2013/04/18 Javascript
jquery移动listbox的值原理及代码
2013/05/03 Javascript
flash遮住div问题的正确解决方法
2014/02/27 Javascript
Ajax局部更新导致JS事件重复触发问题的解决方法
2014/10/14 Javascript
JS设置CSS样式的方式汇总
2017/01/21 Javascript
JavaScript数据结构中栈的应用之表达式求值问题详解
2017/04/11 Javascript
基于vue-cli vue-router搭建底部导航栏移动前端项目
2018/02/28 Javascript
js实现for循环跳过undefined值示例
2019/07/02 Javascript
vue中音频wavesurfer.js的使用方法
2020/02/20 Vue.js
解决vue项目input输入框双向绑定数据不实时生效问题
2020/08/05 Javascript
[03:26]《DAC最前线》之EG经理自述DOTA2经历
2015/02/02 DOTA
Python解析json文件相关知识学习
2016/03/01 Python
Python搭建HTTP服务器和FTP服务器
2017/03/09 Python
python实现数据预处理之填充缺失值的示例
2017/12/22 Python
Python包,__init__.py功能与用法分析
2020/01/07 Python
15个应该掌握的Jupyter Notebook使用技巧(小结)
2020/09/23 Python
用ldap作为django后端用户登录验证的实现
2020/12/07 Python
Puccini乌克兰:购买行李箱、女士手袋网上商店
2020/08/06 全球购物
大学本科毕业生的自我鉴定范文
2013/11/19 职场文书
积极分子思想汇报
2014/01/04 职场文书
平民服装店创业计划书
2014/01/17 职场文书
党员干部形式主义个人整改措施
2014/09/17 职场文书
大学生暑期实践报告
2015/07/13 职场文书
2016国庆节活动宣传语
2015/11/25 职场文书
2016年10月份红领巾广播稿
2015/12/21 职场文书
创业计划之特色精品店
2019/08/12 职场文书
导游词之河北滦平金山岭长城
2019/10/16 职场文书
Python游戏开发实例之graphics实现AI五子棋
2021/11/01 Python