python pandas dataframe 去重函数的具体使用


Posted in Python onJuly 20, 2020

今天笔者想对pandas中的行进行去重操作,找了好久,才找到相关的函数

先看一个小例子

from pandas import Series, DataFrame
 
data = DataFrame({'k': [1, 1, 2, 2]})
 
print data
 
IsDuplicated = data.duplicated()
 
print IsDuplicated
print type(IsDuplicated)
 
data = data.drop_duplicates()
print data

执行结果是:

   k
0  1
1  1
2  2
3  2

0    False
1     True
2    False
3     True

   k
0  1
2  2

DataFrame的duplicated方法返回一个布尔型Series,表示各行是否重复行。

而 drop_duplicates方法,它用于返回一个移除了重复行的DataFrame

这两个方法会判断全部列,你也可以指定部分列进行重复项判段。

drop_duplicates根据数据的不同情况及处理数据的不同需求,通常会分为两种情况,一种是去除完全重复的行数据,另一种是去除某几列重复的行数据,就这两种情况可用下面的代码进行处理。

1. 去除完全重复的行数据

data.drop_duplicates(inplace=True)

2. 去除某几列重复的行数据

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
  • subset: 列名,可选,默认为None
    • keep: {‘first', ‘last', False}, 默认值 ‘first'
    • first: 保留第一次出现的重复行,删除后面的重复行。
    • last: 删除重复项,除了最后一次出现。
  • False: 删除所有重复项。
  • inplace:布尔值,默认为False,是否直接在原数据上删除重复项或删除重复项后返回副本。(inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。)

例如,希望对名字为k2的列进行去重,

data.drop_duplicates(['k2'])

到此这篇关于python pandas dataframe 去重函数的具体使用的文章就介绍到这了,更多相关python pandas dataframe 去重函数内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python根据路径导入模块的方法
Sep 30 Python
Python实现CET查分的方法
Mar 10 Python
在Linux中通过Python脚本访问mdb数据库的方法
May 06 Python
Python中Django框架下的staticfiles使用简介
May 30 Python
python实现人脸识别经典算法(一) 特征脸法
Mar 13 Python
在python中用print()输出多个格式化参数的方法
Jul 16 Python
python实现DEM数据的阴影生成的方法
Jul 23 Python
python异常处理和日志处理方式
Dec 24 Python
Python语言异常处理测试过程解析
Jan 08 Python
Python使用文件操作实现一个XX信息管理系统的示例
Jul 02 Python
Python读取xlsx数据生成图标代码实例
Aug 12 Python
Python中的特殊方法以及应用详解
Sep 20 Python
Pandas中DataFrame基本函数整理(小结)
Jul 20 #Python
Python实现删除某列中含有空值的行的示例代码
Jul 20 #Python
解决python运行效率不高的问题
Jul 20 #Python
Python生成器generator原理及用法解析
Jul 20 #Python
Win10环境中如何实现python2和python3并存
Jul 20 #Python
python和go语言的区别是什么
Jul 20 #Python
Python基础教程(一)——Windows搭建开发Python开发环境
Jul 20 #Python
You might like
php合并数组array_merge函数运算符加号与的区别
2008/10/31 PHP
为IP查询添加GOOGLE地图功能的代码
2010/08/08 PHP
php 获取页面中指定内容的实现类
2014/01/23 PHP
PHP接入支付宝接口失效流程详解
2020/11/10 PHP
兼容Mozilla必须知道的知识。
2007/01/09 Javascript
jquery如何把参数列严格转换成数组实现思路
2013/04/01 Javascript
jquery操作下拉列表、文本框、复选框、单选框集合(收藏)
2014/01/08 Javascript
javascript实现分栏显示小技巧附图
2014/10/13 Javascript
EasyUI中combobox默认值注意事项
2015/03/01 Javascript
jQuery制作效果超棒的手风琴折叠菜单
2015/04/03 Javascript
javascript去掉代码里面的注释
2015/07/24 Javascript
详谈js遍历集合(Array,Map,Set)
2017/04/06 Javascript
微信小程序 连续旋转动画(this.animation.rotate)详解
2017/04/07 Javascript
在bootstrap中实现轮播图实例代码
2017/06/11 Javascript
前端图片懒加载(lazyload)的实现方法(提高用户体验)
2017/08/21 Javascript
利用vue+elementUI实现部分引入组件的方法详解
2017/11/22 Javascript
LayUI数据接口返回实体封装的例子
2019/09/12 Javascript
vue 使用 canvas 实现手写电子签名
2020/03/06 Javascript
在react中使用vue的状态管理的方法示例
2020/05/02 Javascript
[01:15:16]DOTA2-DPC中国联赛 正赛 Elephant vs Aster BO3 第一场 1月26日
2021/03/11 DOTA
Python找出list中最常出现元素的方法
2016/06/14 Python
Python创建xml文件示例
2017/03/22 Python
推荐10款最受Python开发者欢迎的Python IDE
2018/09/16 Python
详解Python数据可视化编程 - 词云生成并保存(jieba+WordCloud)
2019/03/26 Python
python对象与json相互转换的方法
2019/05/07 Python
Python 利用邮件系统完成远程控制电脑的实现(关机、重启等)
2019/11/19 Python
Python变量及数据类型用法原理汇总
2020/08/06 Python
英国女性时尚品牌:Apricot
2018/12/04 全球购物
一套.net面试题及答案
2016/11/02 面试题
岗位安全生产责任书
2014/07/28 职场文书
乡镇党的群众路线教育实践活动制度建设计划
2014/11/03 职场文书
银行反洗钱宣传活动总结
2015/05/08 职场文书
寻衅滋事罪辩护词
2015/05/21 职场文书
Python机器学习算法之决策树算法的实现与优缺点
2021/05/13 Python
Centos环境下Postgresql 安装配置及环境变量配置技巧
2021/05/18 PostgreSQL
Linux在两个服务器直接传文件的操作方法
2022/08/05 Servers