详解pandas使用drop_duplicates去除DataFrame重复项参数


Posted in Python onAugust 01, 2019

Pandas之drop_duplicates:去除重复项

方法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

参数

这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。

  • subset : column label or sequence of labels, optional 用来指定特定的列,默认所有列
  • keep : {‘first', ‘last', False}, default ‘first' 删除重复项并保留第一次出现的项
  • inplace : boolean, default False 是直接在原来数据上修改还是保留一个副本

DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下:

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。

keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。

inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。

将副本赋值给dataframe:

data=data.drop_duplicates(subset=None,keep='first',inplace=False)

这一行代码与文章开头提到的那行代码效果等效,但是如果在该DataFrame上新增一列:

data['extra']=test_data['item_price_level']

就会报如下错误:

SettingWithCopyWarning:  A value is trying to be set on a copy of a slice from a DataFrame. 

所以如果想对DataFrame去重,最好采用开头提到的那行代码。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python简单检测文本类型的2种方法【基于文件头及cchardet库】
Sep 18 Python
Python3 XML 获取雅虎天气的实现方法
Feb 01 Python
numpy下的flatten()函数用法详解
May 27 Python
ubuntu 18.04搭建python环境(pycharm+anaconda)
Jun 14 Python
django迁移数据库错误问题解决
Jul 29 Python
django formset实现数据表的批量操作的示例代码
Dec 06 Python
python opencv实现gif图片分解的示例代码
Dec 13 Python
python dataframe NaN处理方式
Dec 26 Python
解决pymysql cursor.fetchall() 获取不到数据的问题
May 15 Python
python新手学习可变和不可变对象
Jun 11 Python
python如何利用cv2模块读取显示保存图片
Jun 04 Python
Python并发编程实例教程之线程的玩法
Jun 20 Python
Python使用Pandas对csv文件进行数据处理的方法
Aug 01 #Python
python使用writerows写csv文件产生多余空行的处理方法
Aug 01 #Python
python psutil模块使用方法解析
Aug 01 #Python
python读写csv文件并增加行列的实例代码
Aug 01 #Python
Flask框架重定向,错误显示,Responses响应及Sessions会话操作示例
Aug 01 #Python
python对csv文件追加写入列的方法
Aug 01 #Python
Django Aggregation聚合使用方法解析
Aug 01 #Python
You might like
数据库中排序的对比及使用条件详解
2012/02/23 PHP
关于尾递归的使用详解
2013/05/02 PHP
实用的简单PHP分页集合包括使用方法
2013/10/21 PHP
PHP英文字母大小写转换函数小结
2014/05/03 PHP
php采集中国代理服务器网的方法
2015/06/16 PHP
培养自己的php编码规范
2015/09/28 PHP
PHP实现获取url地址中顶级域名的方法示例
2019/06/05 PHP
php反射学习之不用new方法实例化类操作示例
2019/06/14 PHP
ImageFlow可鼠标控制图片滚动
2008/01/30 Javascript
点击下载链接 弹出页面实现代码
2009/10/01 Javascript
Javascript的匿名函数小结
2009/12/31 Javascript
同域jQuery(跨)iframe操作DOM(实例讲解)
2013/12/19 Javascript
jquery缓动swing liner控制动画过程不同时刻的速度
2014/05/29 Javascript
Nodejs进程管理模块forever详解
2014/06/01 NodeJs
浅析四种常见的Javascript声明循环变量的书写方式
2015/10/14 Javascript
浅析2种JavaScript继承方式
2015/12/04 Javascript
Vue.js创建Calendar日历效果
2016/11/03 Javascript
想学习javascript JS和jQuery哪个重要 先学哪个
2016/12/11 Javascript
JavaScript实现简易的天数计算器实例【附demo源码下载】
2017/01/18 Javascript
ES6使用新特性Proxy实现的数据绑定功能实例
2020/05/11 Javascript
vue router返回到指定的路由的场景分析
2020/11/10 Javascript
Python之str操作方法(详解)
2017/06/19 Python
Python 新建文件夹与复制文件夹内所有内容的方法
2018/10/27 Python
浅谈python新式类和旧式类区别
2019/04/26 Python
python线程的几种创建方式详解
2019/08/29 Python
python根据时间获取周数代码实例
2019/09/30 Python
python中对_init_的理解及实例解析
2019/10/11 Python
Python列表切片常用操作实例解析
2019/12/16 Python
深入了解python列表(LIST)
2020/06/08 Python
Selenium环境变量配置(火狐浏览器)及验证实现
2020/12/07 Python
Linux中如何用命令创建目录
2015/01/12 面试题
既然说Ruby中一切都是对象,那么Ruby中类也是对象吗
2013/01/26 面试题
请假条标准格式规范
2014/04/10 职场文书
共青团员自我评价范文
2014/09/14 职场文书
2014幼儿园小班工作总结
2014/11/10 职场文书
2015年机关作风和效能建设工作总结
2015/07/23 职场文书