python pandas dataframe 去重函数的具体使用


Posted in Python onJuly 20, 2020

今天笔者想对pandas中的行进行去重操作,找了好久,才找到相关的函数

先看一个小例子

from pandas import Series, DataFrame
 
data = DataFrame({'k': [1, 1, 2, 2]})
 
print data
 
IsDuplicated = data.duplicated()
 
print IsDuplicated
print type(IsDuplicated)
 
data = data.drop_duplicates()
print data

执行结果是:

   k
0  1
1  1
2  2
3  2

0    False
1     True
2    False
3     True

   k
0  1
2  2

DataFrame的duplicated方法返回一个布尔型Series,表示各行是否重复行。

而 drop_duplicates方法,它用于返回一个移除了重复行的DataFrame

这两个方法会判断全部列,你也可以指定部分列进行重复项判段。

drop_duplicates根据数据的不同情况及处理数据的不同需求,通常会分为两种情况,一种是去除完全重复的行数据,另一种是去除某几列重复的行数据,就这两种情况可用下面的代码进行处理。

1. 去除完全重复的行数据

data.drop_duplicates(inplace=True)

2. 去除某几列重复的行数据

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
  • subset: 列名,可选,默认为None
    • keep: {‘first', ‘last', False}, 默认值 ‘first'
    • first: 保留第一次出现的重复行,删除后面的重复行。
    • last: 删除重复项,除了最后一次出现。
  • False: 删除所有重复项。
  • inplace:布尔值,默认为False,是否直接在原数据上删除重复项或删除重复项后返回副本。(inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。)

例如,希望对名字为k2的列进行去重,

data.drop_duplicates(['k2'])

到此这篇关于python pandas dataframe 去重函数的具体使用的文章就介绍到这了,更多相关python pandas dataframe 去重函数内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python学习之asyncore模块用法实例教程
Sep 29 Python
matplotlib绘制符合论文要求的图片实例(必看篇)
Jun 02 Python
利用Python找出序列中出现最多的元素示例代码
Dec 08 Python
python机器学习之神经网络实现
Oct 13 Python
python实现动态数组的示例代码
Jul 15 Python
使用Python完成15位18位身份证的互转功能
Nov 06 Python
pd.DataFrame统计各列数值多少的实例
Dec 05 Python
Python+Django+MySQL实现基于Web版的增删改查的示例代码
May 13 Python
python中线程和进程有何区别
Jun 17 Python
Python configparser模块应用过程解析
Aug 14 Python
Python提取视频中图片的示例(按帧、按秒)
Oct 22 Python
python 多线程中join()的作用
Oct 29 Python
Pandas中DataFrame基本函数整理(小结)
Jul 20 #Python
Python实现删除某列中含有空值的行的示例代码
Jul 20 #Python
解决python运行效率不高的问题
Jul 20 #Python
Python生成器generator原理及用法解析
Jul 20 #Python
Win10环境中如何实现python2和python3并存
Jul 20 #Python
python和go语言的区别是什么
Jul 20 #Python
Python基础教程(一)——Windows搭建开发Python开发环境
Jul 20 #Python
You might like
php feof用来识别文件末尾字符的方法
2010/08/01 PHP
一个简单的网页密码登陆php代码
2012/07/17 PHP
PHP读取汉字的点阵数据
2015/06/22 PHP
CodeIgniter整合Smarty的方法详解
2017/08/25 PHP
javascript语句中的CDATA标签的意义
2007/05/09 Javascript
Add Formatted Data to a Spreadsheet
2007/06/12 Javascript
两个比较有用的Javascript工具函数代码
2010/02/17 Javascript
IE网页js语法错误2行字符1、FF中正常的解决方法
2013/09/09 Javascript
文档对象模型DOM通俗讲解
2013/11/01 Javascript
Javascript基础教程之变量
2015/01/18 Javascript
json对象与数组以及转换成js对象的简单实现方法
2016/06/24 Javascript
Ajax使用原生态JS验证用户名是否存在
2020/05/26 Javascript
如何编写一个完整的Angular4 FormText 组件
2017/11/18 Javascript
javascript闭包的使用之按钮切换功能
2018/08/30 Javascript
Layui 动态禁止select下拉的例子
2019/09/03 Javascript
详解钉钉小程序组件之自定义模态框(弹窗封装实现)
2020/03/07 Javascript
vue绑定class的三种方法
2020/12/24 Vue.js
python装饰器使用方法实例
2013/11/21 Python
python修改字典内key对应值的方法
2015/07/11 Python
Python 专题二 条件语句和循环语句的基础知识
2017/03/19 Python
详解Django中六个常用的自定义装饰器
2018/07/04 Python
利用python循环创建多个文件的方法
2018/10/25 Python
python 执行终端/控制台命令的例子
2019/07/12 Python
在python中用url_for构造URL的方法
2019/07/25 Python
python super函数使用方法详解
2020/02/14 Python
使用Jupyter notebooks上传文件夹或大量数据到服务器
2020/04/14 Python
Django表单提交后实现获取相同name的不同value值
2020/05/14 Python
Python requests模块安装及使用教程图解
2020/06/30 Python
CSS3 创建网页动画实现弹跳球动效果
2018/10/30 HTML / CSS
css3实现六边形边框的实例代码
2019/05/24 HTML / CSS
康帕斯酒店预订:Compass Hospitality(支持中文)
2018/08/23 全球购物
亚马逊海外购:亚马逊美国、英国、日本、德国直邮
2021/03/18 全球购物
什么是岗位职责
2013/11/12 职场文书
意外伤害赔偿协议书
2014/09/16 职场文书
学校趣味运动会开幕词
2016/03/04 职场文书
HTML通过表单实现酒店筛选功能
2021/05/18 HTML / CSS