详解pandas使用drop_duplicates去除DataFrame重复项参数


Posted in Python onAugust 01, 2019

Pandas之drop_duplicates:去除重复项

方法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

参数

这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。

  • subset : column label or sequence of labels, optional 用来指定特定的列,默认所有列
  • keep : {‘first', ‘last', False}, default ‘first' 删除重复项并保留第一次出现的项
  • inplace : boolean, default False 是直接在原来数据上修改还是保留一个副本

DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下:

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。

keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。

inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。

将副本赋值给dataframe:

data=data.drop_duplicates(subset=None,keep='first',inplace=False)

这一行代码与文章开头提到的那行代码效果等效,但是如果在该DataFrame上新增一列:

data['extra']=test_data['item_price_level']

就会报如下错误:

SettingWithCopyWarning:  A value is trying to be set on a copy of a slice from a DataFrame. 

所以如果想对DataFrame去重,最好采用开头提到的那行代码。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
初学Python实用技巧两则
Aug 29 Python
Python标准库urllib2的一些使用细节总结
Mar 16 Python
使用Python构建Hopfield网络的教程
Apr 14 Python
浅谈python中的正则表达式(re模块)
Oct 17 Python
实践Vim配置python开发环境
Jul 02 Python
Python实现注册、登录小程序功能
Sep 21 Python
python爬虫之验证码篇3-滑动验证码识别技术
Apr 11 Python
python编程进阶之类和对象用法实例分析
Feb 21 Python
python高级特性简介
Aug 13 Python
Python 实现绘制子图及子图刻度的变换等问题
May 31 Python
Python实现猜拳与猜数字游戏的方法详解
Apr 06 Python
PyTorch中permute的使用方法
Apr 26 Python
Python使用Pandas对csv文件进行数据处理的方法
Aug 01 #Python
python使用writerows写csv文件产生多余空行的处理方法
Aug 01 #Python
python psutil模块使用方法解析
Aug 01 #Python
python读写csv文件并增加行列的实例代码
Aug 01 #Python
Flask框架重定向,错误显示,Responses响应及Sessions会话操作示例
Aug 01 #Python
python对csv文件追加写入列的方法
Aug 01 #Python
Django Aggregation聚合使用方法解析
Aug 01 #Python
You might like
一个ORACLE分页程序,挺实用的.
2006/10/09 PHP
PHP分多步骤填写发布信息的简单方法实例代码
2012/09/23 PHP
thinkphp实现发送邮件密码找回功能实例
2014/12/01 PHP
PHP去掉json字符串中的反斜杠\及去掉双引号前的反斜杠
2015/09/30 PHP
PHP实现图片不变型裁剪及图片按比例裁剪的方法
2016/01/14 PHP
PHP命名空间和自动加载类
2016/04/03 PHP
Javascript 数组排序详解
2014/10/22 Javascript
js实现兼容性好的微软官网导航下拉菜单效果
2015/09/07 Javascript
用AngularJS来实现监察表单按钮的禁用效果
2016/11/02 Javascript
jQuery中的一些小技巧
2017/01/18 Javascript
Angularjs根据json文件动态生成路由状态的实现方法
2017/04/17 Javascript
随机生成10个不重复的0-100的数字(实例讲解)
2017/08/16 Javascript
Vue SSR 组件加载问题
2018/05/02 Javascript
js实现网页同时进行多个倒计时功能
2019/02/25 Javascript
jquery登录的异步验证操作示例
2019/05/09 jQuery
在layui框架中select下拉框监听更改事件的例子
2019/09/20 Javascript
如何搭建一个完整的Vue3.0+ts的项目步骤
2020/10/18 Javascript
Python中for循环控制语句用法实例
2015/06/02 Python
python中import学习备忘笔记
2017/01/24 Python
在windows下Python打印彩色字体的方法
2018/05/15 Python
Python判断telnet通不通的实例
2019/01/26 Python
Django项目后台不挂断运行的方法
2019/08/31 Python
python tkinter组件使用详解
2019/09/16 Python
解决keras模型保存h5文件提示无此目录问题
2020/07/01 Python
基于ccs3的timeline时间线实现方法
2020/04/30 HTML / CSS
HTML5的结构和语义(5):交互
2008/10/17 HTML / CSS
用你熟悉的语言写一个连接ORACLE数据库的程序,能够完成修改和查询工作
2012/06/11 面试题
2014年应届大学生毕业自我鉴定
2014/01/31 职场文书
班委竞选演讲稿
2014/04/28 职场文书
社区服务标语
2014/07/01 职场文书
公司总经理岗位职责范本
2014/08/15 职场文书
上课随便讲话检讨书
2014/09/12 职场文书
党的群众路线教育实践活动个人整改方案
2014/10/25 职场文书
小人国观后感
2015/06/11 职场文书
大学生各类奖学金申请书
2019/06/24 职场文书
餐厅营销的秘密:为什么老顾客会流水?
2019/08/08 职场文书