详解pandas使用drop_duplicates去除DataFrame重复项参数


Posted in Python onAugust 01, 2019

Pandas之drop_duplicates:去除重复项

方法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

参数

这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。

  • subset : column label or sequence of labels, optional 用来指定特定的列,默认所有列
  • keep : {‘first', ‘last', False}, default ‘first' 删除重复项并保留第一次出现的项
  • inplace : boolean, default False 是直接在原来数据上修改还是保留一个副本

DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下:

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。

keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。

inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。

将副本赋值给dataframe:

data=data.drop_duplicates(subset=None,keep='first',inplace=False)

这一行代码与文章开头提到的那行代码效果等效,但是如果在该DataFrame上新增一列:

data['extra']=test_data['item_price_level']

就会报如下错误:

SettingWithCopyWarning:  A value is trying to be set on a copy of a slice from a DataFrame. 

所以如果想对DataFrame去重,最好采用开头提到的那行代码。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现斐波那契递归函数的方法
Sep 08 Python
pygame学习笔记(6):完成一个简单的游戏
Apr 15 Python
python中安装Scrapy模块依赖包汇总
Jul 02 Python
实例讲解python中的序列化知识点
Oct 08 Python
python使用matplotlib画柱状图、散点图
Mar 18 Python
不到20行代码用Python做一个智能聊天机器人
Apr 19 Python
python画蝴蝶曲线图的实例
Nov 21 Python
Python如何将图像音视频等资源文件隐藏在代码中(小技巧)
Feb 16 Python
浅谈python中频繁的print到底能浪费多长时间
Feb 21 Python
Python列表去重复项的N种方法(实例代码)
May 12 Python
Python使用正则表达式实现爬虫数据抽取
Aug 17 Python
Python基于callable函数检测对象是否可被调用
Oct 16 Python
Python使用Pandas对csv文件进行数据处理的方法
Aug 01 #Python
python使用writerows写csv文件产生多余空行的处理方法
Aug 01 #Python
python psutil模块使用方法解析
Aug 01 #Python
python读写csv文件并增加行列的实例代码
Aug 01 #Python
Flask框架重定向,错误显示,Responses响应及Sessions会话操作示例
Aug 01 #Python
python对csv文件追加写入列的方法
Aug 01 #Python
Django Aggregation聚合使用方法解析
Aug 01 #Python
You might like
香妃
2021/03/03 冲泡冲煮
PHP+JS实现大规模数据提交的方法
2015/07/02 PHP
PHP消息队列用法实例分析
2016/02/12 PHP
JQuery操作iframe父页面与子页面的元素与方法(实例讲解)
2013/11/20 Javascript
JavaScript实现的图像模糊算法代码分享
2014/04/22 Javascript
小结Node.js中非阻塞IO和事件循环
2014/09/18 Javascript
jQuery平滑旋转幻灯片特效代码分享
2015/09/07 Javascript
jQuery实现的指纹扫描效果实例(附演示与demo源码下载)
2016/01/26 Javascript
JS阻止事件冒泡行为和闭包的方法
2016/06/16 Javascript
基于vue实现移动端圆形旋钮插件效果
2018/11/28 Javascript
JavaScript类型相关的常用操作总结
2019/02/14 Javascript
RxJS的入门指引和初步应用
2019/06/15 Javascript
ES6 新增的创建数组的方法(小结)
2019/08/01 Javascript
layui实现tab的添加拒绝重复的方法
2019/09/04 Javascript
解决在Vue中使用axios用form表单出现的问题
2019/10/30 Javascript
[20:30]职业巡回赛回顾
2018/08/09 DOTA
Python对小数进行除法运算的正确方法示例
2014/08/25 Python
在Python的Django框架中创建语言文件
2015/07/27 Python
python 将对象设置为可迭代的两种实现方法
2019/01/21 Python
使用python创建生成动态链接库dll的方法
2020/05/09 Python
python中查看.db文件中表格的名字及表格中的字段操作
2020/07/07 Python
有关HTML5 Video对象的ontimeupdate事件(Chrome上无效)的问题
2013/07/19 HTML / CSS
PHP引擎php.ini参数优化深入讲解
2021/03/24 PHP
自动化系在校本科生求职信
2013/10/23 职场文书
采购内勤岗位职责
2013/12/10 职场文书
养殖项目策划书范文
2014/01/13 职场文书
内衣营销方案
2014/03/15 职场文书
2014年群众路线教育实践活动整改措施
2014/09/24 职场文书
庆祝新中国成立65周年“向国旗敬礼”网上签名寄语
2014/09/27 职场文书
夫妻双方自愿离婚协议书怎么写
2014/12/01 职场文书
医护人员继续教育学习心得体会
2016/01/19 职场文书
《游戏公平》教学反思
2016/02/20 职场文书
Golang Gob编码(gob包的使用详解)
2021/05/07 Golang
vue+spring boot实现校验码功能
2021/05/27 Vue.js
《战锤40K:暗潮》跳票至9月 公布新宣传片
2022/04/03 其他游戏
基于CSS制作创意端午节专属加载特效
2022/06/01 HTML / CSS