详解pandas使用drop_duplicates去除DataFrame重复项参数


Posted in Python onAugust 01, 2019

Pandas之drop_duplicates:去除重复项

方法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

参数

这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。

  • subset : column label or sequence of labels, optional 用来指定特定的列,默认所有列
  • keep : {‘first', ‘last', False}, default ‘first' 删除重复项并保留第一次出现的项
  • inplace : boolean, default False 是直接在原来数据上修改还是保留一个副本

DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下:

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。

keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。

inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。

将副本赋值给dataframe:

data=data.drop_duplicates(subset=None,keep='first',inplace=False)

这一行代码与文章开头提到的那行代码效果等效,但是如果在该DataFrame上新增一列:

data['extra']=test_data['item_price_level']

就会报如下错误:

SettingWithCopyWarning:  A value is trying to be set on a copy of a slice from a DataFrame. 

所以如果想对DataFrame去重,最好采用开头提到的那行代码。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python聚类算法之DBSACN实例分析
Nov 20 Python
Python环境下搭建属于自己的pip源的教程
May 05 Python
Windows中使用wxPython和py2exe开发Python的GUI程序的实例教程
Jul 11 Python
python基础_文件操作实现全文或单行替换的方法
Sep 04 Python
浅谈python配置与使用OpenCV踩的一些坑
Apr 02 Python
Python中Subprocess的不同函数解析
Dec 10 Python
python super()函数的基本使用
Sep 10 Python
python Tornado框架的使用示例
Oct 19 Python
python爬虫 requests-html的使用
Nov 30 Python
pytorch交叉熵损失函数的weight参数的使用
May 24 Python
单身狗福利?Python爬取某婚恋网征婚数据
Jun 03 Python
python疲劳驾驶困倦低头检测功能的实现
Apr 04 Python
Python使用Pandas对csv文件进行数据处理的方法
Aug 01 #Python
python使用writerows写csv文件产生多余空行的处理方法
Aug 01 #Python
python psutil模块使用方法解析
Aug 01 #Python
python读写csv文件并增加行列的实例代码
Aug 01 #Python
Flask框架重定向,错误显示,Responses响应及Sessions会话操作示例
Aug 01 #Python
python对csv文件追加写入列的方法
Aug 01 #Python
Django Aggregation聚合使用方法解析
Aug 01 #Python
You might like
php冒泡排序、快速排序、快速查找、二维数组去重实例分享
2014/04/24 PHP
对PHP PDO的一些认识小结
2015/01/23 PHP
PHP实现会员账号单唯一登录的方法分析
2019/03/07 PHP
PHP进阶学习之依赖注入与Ioc容器详解
2019/06/19 PHP
JS左右无缝滚动(一般方法+面向对象方法)
2012/08/17 Javascript
12种不宜使用的Javascript语法整理
2013/11/04 Javascript
showModelDialog弹出文件下载窗口的使用示例
2013/11/19 Javascript
jQuery实现的图片分组切换焦点图插件
2015/01/06 Javascript
JS动态加载当前时间的方法
2015/02/09 Javascript
JavaScript中的Promise使用详解
2015/06/24 Javascript
简介BootStrap model弹出框的使用
2016/04/27 Javascript
Angular2开发——组件规划篇
2017/03/28 Javascript
详解vue项目的构建,打包,发布全过程
2017/11/23 Javascript
Vue 中mixin 的用法详解
2018/04/23 Javascript
几个你不知道的技巧助你写出更优雅的vue.js代码
2018/06/11 Javascript
JavaScript多种滤镜算法实现代码实例
2019/12/10 Javascript
jQuery实现聊天对话框
2020/02/08 jQuery
JavaScript中的惰性载入函数及优势
2020/02/18 Javascript
Python里隐藏的“禅”
2014/06/16 Python
跟老齐学Python之眼花缭乱的运算符
2014/09/14 Python
Python实现获取网站PR及百度权重
2015/01/21 Python
python多线程方式执行多个bat代码
2016/06/07 Python
批量获取及验证HTTP代理的Python脚本
2017/04/23 Python
python实现微信每日一句自动发送给喜欢的人
2019/04/29 Python
python实现ip代理池功能示例
2019/07/05 Python
python db类用法说明
2020/07/07 Python
python 实现逻辑回归
2020/12/30 Python
美国著名的团购网站:Woot
2016/08/02 全球购物
美国性感内衣店:Yandy
2018/06/12 全球购物
linux面试题参考答案(4)
2014/09/21 面试题
《藤野先生》教学反思
2014/02/19 职场文书
局机关干部群众路线个人对照检查材料思想汇报
2014/10/05 职场文书
前台岗位职责范本
2015/04/16 职场文书
买卖合同纠纷代理词
2015/05/25 职场文书
创业计划书之网络外卖
2019/10/31 职场文书
使用Oracle跟踪文件的问题详解
2021/06/28 Oracle