详解pandas使用drop_duplicates去除DataFrame重复项参数


Posted in Python onAugust 01, 2019

Pandas之drop_duplicates:去除重复项

方法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

参数

这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。

  • subset : column label or sequence of labels, optional 用来指定特定的列,默认所有列
  • keep : {‘first', ‘last', False}, default ‘first' 删除重复项并保留第一次出现的项
  • inplace : boolean, default False 是直接在原来数据上修改还是保留一个副本

DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下:

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。

keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。

inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。

将副本赋值给dataframe:

data=data.drop_duplicates(subset=None,keep='first',inplace=False)

这一行代码与文章开头提到的那行代码效果等效,但是如果在该DataFrame上新增一列:

data['extra']=test_data['item_price_level']

就会报如下错误:

SettingWithCopyWarning:  A value is trying to be set on a copy of a slice from a DataFrame. 

所以如果想对DataFrame去重,最好采用开头提到的那行代码。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中使用中文的方法
Feb 19 Python
python数据结构之二叉树的遍历实例
Apr 29 Python
Python中的lstrip()方法使用简介
May 19 Python
Django 浅谈根据配置生成SQL语句的问题
May 29 Python
pandas 选择某几列的方法
Jul 03 Python
Python图像处理之简单画板实现方法示例
Aug 30 Python
Python类装饰器实现方法详解
Dec 21 Python
对Python 语音识别框架详解
Dec 24 Python
tensorflow 自定义损失函数示例代码
Feb 05 Python
Python requests设置代理的方法步骤
Feb 23 Python
python爬虫使用scrapy注意事项
Nov 23 Python
基于Python采集爬取微信公众号历史数据
Nov 27 Python
Python使用Pandas对csv文件进行数据处理的方法
Aug 01 #Python
python使用writerows写csv文件产生多余空行的处理方法
Aug 01 #Python
python psutil模块使用方法解析
Aug 01 #Python
python读写csv文件并增加行列的实例代码
Aug 01 #Python
Flask框架重定向,错误显示,Responses响应及Sessions会话操作示例
Aug 01 #Python
python对csv文件追加写入列的方法
Aug 01 #Python
Django Aggregation聚合使用方法解析
Aug 01 #Python
You might like
简单的过滤字符串中的HTML标记
2006/12/25 PHP
PHP Socket 编程
2010/04/09 PHP
php中ob_get_length缓冲与获取缓冲长度实例
2014/11/20 PHP
smarty模板引擎中内建函数if、elseif和else的使用方法
2015/01/22 PHP
PHP get_html_translation_table()函数用法讲解
2019/02/16 PHP
浅谈PHP封装CURL
2019/03/06 PHP
PHP使用gearman进行异步的邮件或短信发送操作详解
2020/02/27 PHP
使用Entrust扩展包在laravel 中实现RBAC的功能
2020/03/16 PHP
myEvent.js javascript跨浏览器事件框架
2011/10/24 Javascript
JavaScript获取图片真实大小代码实例
2014/09/24 Javascript
JavaScript错误处理
2015/02/03 Javascript
jQuery菜单插件用法实例
2015/07/25 Javascript
JavaScript 浏览器兼容性总结及常用浏览器兼容性分析
2016/03/30 Javascript
完美解决IE9浏览器出现的对象未定义问题
2016/09/29 Javascript
JS调用打印机功能简单示例
2016/11/28 Javascript
jQuery实现导航回弹效果
2017/02/27 Javascript
Node.js+ES6+dropload.js实现移动端下拉加载实例
2017/06/01 Javascript
解决vue router使用 history 模式刷新后404问题
2017/07/19 Javascript
微信小程序实现长按删除图片的示例
2018/05/18 Javascript
webpack 如何解析代码模块路径的实现
2019/09/04 Javascript
js实现特别简单的钟表效果
2020/09/14 Javascript
vue 根据选择的月份动态展示日期对应的星期几
2021/02/06 Vue.js
[00:32]2018DOTA2亚洲邀请赛OpTic出场
2018/04/03 DOTA
基于python神经卷积网络的人脸识别
2018/05/24 Python
Python 实现一个手机号码获取妹子名字的功能
2019/09/25 Python
python构建指数平滑预测模型示例
2019/11/21 Python
Django 实现图片上传和下载功能
2020/12/31 Python
python中pyqtgraph知识点总结
2021/01/26 Python
CSS3模块的目前的状况分析
2010/02/24 HTML / CSS
工商治理实习生的自我评价
2014/01/15 职场文书
优秀小学生家长评语
2014/01/30 职场文书
法律系毕业生求职信
2014/05/28 职场文书
学习党代会心得体会
2014/09/05 职场文书
房屋租赁协议书(标准版)
2014/10/02 职场文书
2014年党总支工作总结
2014/12/18 职场文书
Java实现斗地主之洗牌发牌
2021/06/14 Java/Android