python pandas dataframe 去重函数的具体使用


Posted in Python onJuly 20, 2020

今天笔者想对pandas中的行进行去重操作,找了好久,才找到相关的函数

先看一个小例子

from pandas import Series, DataFrame
 
data = DataFrame({'k': [1, 1, 2, 2]})
 
print data
 
IsDuplicated = data.duplicated()
 
print IsDuplicated
print type(IsDuplicated)
 
data = data.drop_duplicates()
print data

执行结果是:

   k
0  1
1  1
2  2
3  2

0    False
1     True
2    False
3     True

   k
0  1
2  2

DataFrame的duplicated方法返回一个布尔型Series,表示各行是否重复行。

而 drop_duplicates方法,它用于返回一个移除了重复行的DataFrame

这两个方法会判断全部列,你也可以指定部分列进行重复项判段。

drop_duplicates根据数据的不同情况及处理数据的不同需求,通常会分为两种情况,一种是去除完全重复的行数据,另一种是去除某几列重复的行数据,就这两种情况可用下面的代码进行处理。

1. 去除完全重复的行数据

data.drop_duplicates(inplace=True)

2. 去除某几列重复的行数据

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
  • subset: 列名,可选,默认为None
    • keep: {‘first', ‘last', False}, 默认值 ‘first'
    • first: 保留第一次出现的重复行,删除后面的重复行。
    • last: 删除重复项,除了最后一次出现。
  • False: 删除所有重复项。
  • inplace:布尔值,默认为False,是否直接在原数据上删除重复项或删除重复项后返回副本。(inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。)

例如,希望对名字为k2的列进行去重,

data.drop_duplicates(['k2'])

到此这篇关于python pandas dataframe 去重函数的具体使用的文章就介绍到这了,更多相关python pandas dataframe 去重函数内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python Web框架Flask下网站开发入门实例
Feb 08 Python
在Django的URLconf中使用命名组的方法
Jul 18 Python
python查看模块安装位置的方法
Oct 16 Python
在Django中URL正则表达式匹配的方法
Dec 20 Python
python3+PyQt5 自定义窗口部件--使用窗口部件样式表的方法
Jun 26 Python
pytorch实现CNN卷积神经网络
Feb 19 Python
简单了解pytest测试框架setup和tearDown
Apr 14 Python
基于python实现数组格式参数加密计算
Apr 21 Python
Python实现密钥密码(加解密)实例详解
Apr 26 Python
python爬虫如何解决图片验证码
Feb 14 Python
利用Python实现最小二乘法与梯度下降算法
Feb 21 Python
Django项目如何正确配置日志(logging)
Apr 29 Python
Pandas中DataFrame基本函数整理(小结)
Jul 20 #Python
Python实现删除某列中含有空值的行的示例代码
Jul 20 #Python
解决python运行效率不高的问题
Jul 20 #Python
Python生成器generator原理及用法解析
Jul 20 #Python
Win10环境中如何实现python2和python3并存
Jul 20 #Python
python和go语言的区别是什么
Jul 20 #Python
Python基础教程(一)——Windows搭建开发Python开发环境
Jul 20 #Python
You might like
《神奇女侠:血脉》神力女超人大战犯罪公司
2020/04/09 欧美动漫
php中常见的sql攻击正则表达式汇总
2014/11/06 PHP
为jquery.ui.dialog 增加“在当前鼠标位置打开”的功能
2009/11/24 Javascript
JavaScript Event学习第十一章 按键的检测
2010/02/10 Javascript
js Event对象的5种坐标
2011/09/12 Javascript
找出字符串中出现次数最多的字母和出现次数精简版
2012/11/07 Javascript
Jquery实现三层遍历删除功能代码
2013/04/23 Javascript
浅析Js中的单引号与双引号问题
2013/11/06 Javascript
JQuery文字列表向上滚动的代码
2013/11/13 Javascript
javascript 闭包详解及简单实例应用
2016/12/31 Javascript
字太多用...代替的方法(两种)
2017/03/15 Javascript
使用JavaScript实现表格编辑器(实例讲解)
2017/08/02 Javascript
vue使用vue-i18n实现国际化的实现代码
2018/04/08 Javascript
vue中vee validate表单校验的几种基本使用
2018/06/25 Javascript
微信小程序动态设置图片大小的方法
2019/11/21 Javascript
javascript实现前端成语点击验证优化
2020/06/24 Javascript
VUE使用axios调用后台API接口的方法
2020/08/03 Javascript
Python脚本实现网卡流量监控
2015/02/14 Python
python中map、any、all函数用法分析
2015/04/21 Python
python中日志logging模块的性能及多进程详解
2017/07/18 Python
python的socket编程入门
2018/01/29 Python
Python操作MySQL数据库的三种方法总结
2018/01/30 Python
pytorch训练imagenet分类的方法
2018/07/27 Python
使用python实现快速搭建简易的FTP服务器
2018/09/12 Python
Python3如何在Windows和Linux上打包
2020/02/25 Python
Python matplotlib读取excel数据并用for循环画多个子图subplot操作
2020/07/14 Python
css3 flex实现div内容水平垂直居中的几种方法
2020/03/27 HTML / CSS
客服文员岗位职责
2013/11/29 职场文书
班组长岗位职责范本
2014/01/05 职场文书
学生会招新策划书
2014/02/14 职场文书
网站美工岗位职责
2014/04/02 职场文书
师德师风建设方案
2014/05/08 职场文书
2014年干部作风建设总结
2014/10/23 职场文书
明确岗位职责
2015/02/14 职场文书
Python加密技术之RSA加密解密的实现
2022/04/08 Python
Golang 入门 之url 包
2022/05/04 Golang