详解pandas使用drop_duplicates去除DataFrame重复项参数


Posted in Python onAugust 01, 2019

Pandas之drop_duplicates:去除重复项

方法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

参数

这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。

  • subset : column label or sequence of labels, optional 用来指定特定的列,默认所有列
  • keep : {‘first', ‘last', False}, default ‘first' 删除重复项并保留第一次出现的项
  • inplace : boolean, default False 是直接在原来数据上修改还是保留一个副本

DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下:

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。

keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。

inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。

将副本赋值给dataframe:

data=data.drop_duplicates(subset=None,keep='first',inplace=False)

这一行代码与文章开头提到的那行代码效果等效,但是如果在该DataFrame上新增一列:

data['extra']=test_data['item_price_level']

就会报如下错误:

SettingWithCopyWarning:  A value is trying to be set on a copy of a slice from a DataFrame. 

所以如果想对DataFrame去重,最好采用开头提到的那行代码。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python遍历目录的4种方法实例介绍
Apr 13 Python
Python 利用内置set函数对字符串和列表进行去重的方法
Jun 29 Python
详解python 注释、变量、类型
Aug 10 Python
python绘制多个曲线的折线图
Mar 23 Python
Python 20行简单实现有道在线翻译的详解
May 15 Python
python打包成so文件过程解析
Sep 28 Python
Python aiohttp百万并发极限测试实例分析
Oct 26 Python
python GUI库图形界面开发之PyQt5窗口布局控件QStackedWidget详细使用方法
Feb 27 Python
Python中openpyxl实现vlookup函数的实例
Oct 28 Python
Python中tkinter的用户登录管理的实现
Apr 22 Python
matplotlib之pyplot模块实现添加子图subplot的使用
Apr 25 Python
Python四款GUI图形界面库介绍
Jun 05 Python
Python使用Pandas对csv文件进行数据处理的方法
Aug 01 #Python
python使用writerows写csv文件产生多余空行的处理方法
Aug 01 #Python
python psutil模块使用方法解析
Aug 01 #Python
python读写csv文件并增加行列的实例代码
Aug 01 #Python
Flask框架重定向,错误显示,Responses响应及Sessions会话操作示例
Aug 01 #Python
python对csv文件追加写入列的方法
Aug 01 #Python
Django Aggregation聚合使用方法解析
Aug 01 #Python
You might like
php切割页面div内容的实现代码分享
2012/07/31 PHP
php  PATH_SEPARATOR判断当前服务器系统类型实例
2016/10/28 PHP
Laravel jwt 多表(多用户端)验证隔离的实现
2019/12/18 PHP
JS是否可以跨文件同时控制多个iframe页面的应用技巧
2007/12/16 Javascript
JS URL传中文参数引发的乱码问题
2009/09/02 Javascript
JavaScript 学习笔记(六)
2009/12/31 Javascript
在HTML代码中使用JavaScript代码的例子
2014/10/16 Javascript
firefox浏览器用jquery.uploadify插件上传时报HTTP 302错误
2015/03/01 Javascript
JS实现的在线调色板实例(附demo源码下载)
2016/03/01 Javascript
通过命令行创建vue项目的方法
2017/07/20 Javascript
详解angularjs的数组传参方式的简单实现
2017/07/28 Javascript
javascript函数的节流[throttle]与防抖[debounce]
2017/11/15 Javascript
详解小程序如何改变onLoad的执行时机
2019/11/01 Javascript
Node.js文本文件BOM头的去除方法
2020/11/22 Javascript
vue 根据选择的月份动态展示日期对应的星期几
2021/02/06 Vue.js
[49:08]FNATIC vs Infamous 2019国际邀请赛小组赛 BO2 第二场 8.16
2019/08/18 DOTA
python getopt 参数处理小示例
2009/06/09 Python
videocapture库制作python视频高速传输程序
2013/12/23 Python
Python的collections模块中的OrderedDict有序字典
2016/07/07 Python
python数字图像处理实现直方图与均衡化
2018/05/04 Python
在Python中通过threshold创建mask方式
2020/02/19 Python
python实现交并比IOU教程
2020/04/16 Python
Python经纬度坐标转换为距离及角度的实现
2020/11/01 Python
HTML5 UTF-8 中文乱码的解决方法
2013/11/18 HTML / CSS
Boutique 1美国:阿联酋奢侈时尚零售商
2017/10/16 全球购物
美国运动鞋类和服装零售连锁店:Shoe Palace
2019/08/13 全球购物
Moda Italia荷兰:意大利男士服装
2019/08/31 全球购物
Cocopanda波兰:购买化妆品、护肤品、护发和香水
2020/05/25 全球购物
中职生自我鉴定范文
2013/10/03 职场文书
中学运动会广播稿
2014/01/19 职场文书
家居饰品店创业计划书
2014/01/31 职场文书
益达广告词
2014/03/14 职场文书
2015年员工工作总结范文
2015/04/08 职场文书
2015年信息宣传工作总结
2015/05/26 职场文书
《唯一的听众》教学反思
2016/02/18 职场文书
使用SQL实现车流量的计算的示例代码
2022/02/28 SQL Server