详解pandas使用drop_duplicates去除DataFrame重复项参数


Posted in Python onAugust 01, 2019

Pandas之drop_duplicates:去除重复项

方法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

参数

这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。

  • subset : column label or sequence of labels, optional 用来指定特定的列,默认所有列
  • keep : {‘first', ‘last', False}, default ‘first' 删除重复项并保留第一次出现的项
  • inplace : boolean, default False 是直接在原来数据上修改还是保留一个副本

DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下:

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。

keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。

inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。

将副本赋值给dataframe:

data=data.drop_duplicates(subset=None,keep='first',inplace=False)

这一行代码与文章开头提到的那行代码效果等效,但是如果在该DataFrame上新增一列:

data['extra']=test_data['item_price_level']

就会报如下错误:

SettingWithCopyWarning:  A value is trying to be set on a copy of a slice from a DataFrame. 

所以如果想对DataFrame去重,最好采用开头提到的那行代码。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python益智游戏计算汉诺塔问题示例
Mar 05 Python
Python使用scrapy采集数据过程中放回下载过大页面的方法
Apr 08 Python
详细介绍Python中的偏函数
Apr 27 Python
Python+tkinter使用80行代码实现一个计算器实例
Jan 16 Python
python抓取网站的图片并下载到本地的方法
May 22 Python
selenium+python自动化测试之页面元素定位
Jan 23 Python
python实现通过flask和前端进行数据收发
Aug 22 Python
详解pyinstaller selenium python3 chrome打包问题
Oct 18 Python
Python控制台输出时刷新当前行内容而不是输出新行的实现
Feb 21 Python
使用 pytorch 创建神经网络拟合sin函数的实现
Feb 24 Python
TensorFlow保存TensorBoard图像操作
Jun 23 Python
python创建文本文件的简单方法
Aug 30 Python
Python使用Pandas对csv文件进行数据处理的方法
Aug 01 #Python
python使用writerows写csv文件产生多余空行的处理方法
Aug 01 #Python
python psutil模块使用方法解析
Aug 01 #Python
python读写csv文件并增加行列的实例代码
Aug 01 #Python
Flask框架重定向,错误显示,Responses响应及Sessions会话操作示例
Aug 01 #Python
python对csv文件追加写入列的方法
Aug 01 #Python
Django Aggregation聚合使用方法解析
Aug 01 #Python
You might like
百事可乐也出咖啡了 双倍咖啡因双倍快乐
2021/03/03 咖啡文化
zend framework配置操作数据库实例分析
2012/12/06 PHP
php多个字符串替换成同一个的解决方法
2013/06/18 PHP
深入浅析PHP7.0新特征(五大新特征)
2015/10/29 PHP
PHP获取不了React Native Fecth参数的解决办法
2016/08/26 PHP
PHP Header用于页面跳转时的几个注意事项
2016/10/21 PHP
张孝祥JavaScript学习阶段性总结(2)--(X)HTML学习
2007/02/03 Javascript
node.js require() 源码解读
2015/12/13 Javascript
element ui里dialog关闭后清除验证条件方法
2018/02/26 Javascript
JavaScript中AOP的实现与应用
2019/05/06 Javascript
详解Vue-cli3.X使用px2rem遇到的问题
2019/08/09 Javascript
vue 使用v-for进行循环的实例代码详解
2020/02/19 Javascript
[01:13:08]2018DOTA2亚洲邀请赛4.6 淘汰赛 mineski vs LGD 第二场
2018/04/10 DOTA
python获取文件版本信息、公司名和产品名的方法
2014/10/05 Python
Python中的异常处理学习笔记
2015/01/28 Python
Python编程之多态用法实例详解
2015/05/19 Python
python3读取MySQL-Front的MYSQL密码
2017/05/03 Python
对python的文件内注释 help注释方法
2018/05/23 Python
Python如何读写字节数据
2020/08/05 Python
关于pycharm 切换 python3.9 报错 ‘HTMLParser‘ object has no attribute ‘unescape‘ 的问题
2020/11/24 Python
碧欧泉Biotherm加拿大官方网站:法国高端护肤品牌
2019/10/18 全球购物
c++工程师面试问题
2013/08/04 面试题
下面代码从性能上考虑,有什么问题
2015/04/03 面试题
护士专业推荐信
2013/11/02 职场文书
小学二年级评语
2014/04/21 职场文书
预备党员群众路线教育实践活动思想汇报2014
2014/10/25 职场文书
2014年艾滋病防治工作总结
2014/12/10 职场文书
王亚平太空授课观后感
2015/06/12 职场文书
心理健康教育主题班会
2015/08/13 职场文书
运动会广播稿100字
2015/08/19 职场文书
python小程序之飘落的银杏
2021/04/17 Python
详解Spring Boot使用系统参数表提升系统的灵活性
2021/06/30 Java/Android
Python中基础数据类型 set集合知识点总结
2021/08/02 Python
「魔导具师妲莉亚永不妥协~从今天开始的自由职人生活~」1、2卷发售宣传CM公开
2022/03/21 日漫
世界无敌的ICOM IC-R9500宽频接收机
2022/03/25 无线电
Spring boot实现上传文件到本地服务器
2022/08/14 Java/Android