详解pandas使用drop_duplicates去除DataFrame重复项参数


Posted in Python onAugust 01, 2019

Pandas之drop_duplicates:去除重复项

方法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

参数

这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。

  • subset : column label or sequence of labels, optional 用来指定特定的列,默认所有列
  • keep : {‘first', ‘last', False}, default ‘first' 删除重复项并保留第一次出现的项
  • inplace : boolean, default False 是直接在原来数据上修改还是保留一个副本

DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下:

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。

keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。

inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。

将副本赋值给dataframe:

data=data.drop_duplicates(subset=None,keep='first',inplace=False)

这一行代码与文章开头提到的那行代码效果等效,但是如果在该DataFrame上新增一列:

data['extra']=test_data['item_price_level']

就会报如下错误:

SettingWithCopyWarning:  A value is trying to be set on a copy of a slice from a DataFrame. 

所以如果想对DataFrame去重,最好采用开头提到的那行代码。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python paramiko实现ssh远程访问的方法
Dec 03 Python
python获取Linux下文件版本信息、公司名和产品名的方法
Oct 05 Python
python利用装饰器进行运算的实例分析
Aug 04 Python
Python中的模块导入和读取键盘输入的方法
Oct 16 Python
python 遍历字符串(含汉字)实例详解
Apr 04 Python
Python错误: SyntaxError: Non-ASCII character解决办法
Jun 08 Python
TensorFlow saver指定变量的存取
Mar 10 Python
python2与python3中关于对NaN类型数据的判断和转换方法
Oct 30 Python
Python基本socket通信控制操作示例
Jan 30 Python
简单了解Python3里的一些新特性
Jul 13 Python
使用Python进行中文繁简转换的实现代码
Oct 18 Python
Python+Selenium随机生成手机验证码并检查页面上是否弹出重复手机号码提示框
Sep 21 Python
Python使用Pandas对csv文件进行数据处理的方法
Aug 01 #Python
python使用writerows写csv文件产生多余空行的处理方法
Aug 01 #Python
python psutil模块使用方法解析
Aug 01 #Python
python读写csv文件并增加行列的实例代码
Aug 01 #Python
Flask框架重定向,错误显示,Responses响应及Sessions会话操作示例
Aug 01 #Python
python对csv文件追加写入列的方法
Aug 01 #Python
Django Aggregation聚合使用方法解析
Aug 01 #Python
You might like
DC漫画《蝙蝠侠和猫女》图透 猫女怀孕老爷当爹
2020/04/09 欧美动漫
PHP学习之字符串比较和查找
2011/04/17 PHP
Php中用PDO查询Mysql来避免SQL注入风险的方法
2013/04/25 PHP
2017年最新PHP经典面试题目汇总(上篇)
2017/03/17 PHP
PHP PDOStatement::debugDumpParams讲解
2019/01/30 PHP
DOM 脚本编程中的兄弟节点
2009/10/31 Javascript
JavaScript 选中文字并响应获取的实现代码
2011/08/28 Javascript
jQuery 写的简单打字游戏可以提示正确和错误的次数
2014/07/01 Javascript
jQuery实现冻结表头的方法
2015/03/09 Javascript
学习JavaScript设计模式(封装)
2015/11/26 Javascript
深入理解JQuery中的事件与动画
2016/05/18 Javascript
JavaScript判断数组重复内容的两种方法(推荐)
2016/06/06 Javascript
简单的js表格操作
2016/09/24 Javascript
js统计页面上每个标签的数量实例代码
2018/05/29 Javascript
javascript实现简易聊天室
2019/07/12 Javascript
浅谈Vue3.0之前你必须知道的TypeScript实战技巧
2019/09/11 Javascript
简单了解微信小程序 e.target与e.currentTarget的不同
2019/09/27 Javascript
vue自定义指令实现仅支持输入数字和浮点型的示例
2019/10/30 Javascript
解决VUE-Router 同一页面第二次进入不刷新的问题
2020/07/22 Javascript
springboot+vue+对接支付宝接口+二维码扫描支付功能(沙箱环境)
2020/10/15 Javascript
Python列表生成器的循环技巧分享
2015/03/06 Python
python实现在每个独立进程中运行一个函数的方法
2015/04/23 Python
Python中文竖排显示的方法
2015/07/28 Python
Python设计模式编程中解释器模式的简单程序示例分享
2016/03/02 Python
Python2.X/Python3.X中urllib库区别讲解
2017/12/19 Python
Python用5行代码写一个自定义简单二维码
2018/10/21 Python
使用python将图片按标签分入不同文件夹的方法
2018/12/08 Python
python使用requests库爬取拉勾网招聘信息的实现
2020/11/20 Python
美国销售第一的智能手机和平板电脑保护壳:OtterBox
2017/12/21 全球购物
瑞士设计师家具和家居饰品网上商店:Bruno Wickart
2019/03/18 全球购物
利物浦足球俱乐部官方商店(美国):Liverpool FC US
2019/10/09 全球购物
2015年数学教师工作总结
2015/05/20 职场文书
刑事辩护词范文
2015/05/21 职场文书
css3实现的加载动画效果
2021/04/07 HTML / CSS
jQuery实现广告显示和隐藏动画
2021/07/04 jQuery
Golang获取List列表元素的四种方式
2022/04/20 Golang