详解pandas使用drop_duplicates去除DataFrame重复项参数


Posted in Python onAugust 01, 2019

Pandas之drop_duplicates:去除重复项

方法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

参数

这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。

  • subset : column label or sequence of labels, optional 用来指定特定的列,默认所有列
  • keep : {‘first', ‘last', False}, default ‘first' 删除重复项并保留第一次出现的项
  • inplace : boolean, default False 是直接在原来数据上修改还是保留一个副本

DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下:

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。

keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。

inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。

将副本赋值给dataframe:

data=data.drop_duplicates(subset=None,keep='first',inplace=False)

这一行代码与文章开头提到的那行代码效果等效,但是如果在该DataFrame上新增一列:

data['extra']=test_data['item_price_level']

就会报如下错误:

SettingWithCopyWarning:  A value is trying to be set on a copy of a slice from a DataFrame. 

所以如果想对DataFrame去重,最好采用开头提到的那行代码。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中Collection的使用小技巧
Aug 18 Python
Python遍历指定文件及文件夹的方法
May 09 Python
浅析Python中的join()方法的使用
May 19 Python
python数据类型_元组、字典常用操作方法(介绍)
May 30 Python
Python基于回溯法子集树模板解决选排问题示例
Sep 07 Python
Python3爬虫学习入门教程
Dec 11 Python
python文字和unicode/ascll相互转换函数及简单加密解密实现代码
Aug 12 Python
Django项目后台不挂断运行的方法
Aug 31 Python
Python依赖包迁移到断网环境操作
Jul 13 Python
python获取系统内存占用信息的实例方法
Jul 17 Python
PyTorch 中的傅里叶卷积实现示例
Dec 11 Python
Python如何利用正则表达式爬取网页信息及图片
Apr 17 Python
Python使用Pandas对csv文件进行数据处理的方法
Aug 01 #Python
python使用writerows写csv文件产生多余空行的处理方法
Aug 01 #Python
python psutil模块使用方法解析
Aug 01 #Python
python读写csv文件并增加行列的实例代码
Aug 01 #Python
Flask框架重定向,错误显示,Responses响应及Sessions会话操作示例
Aug 01 #Python
python对csv文件追加写入列的方法
Aug 01 #Python
Django Aggregation聚合使用方法解析
Aug 01 #Python
You might like
Window下PHP三种运行方式图文详解
2013/06/11 PHP
php批量修改表结构实例
2017/05/24 PHP
jquery实现类似EasyUI的页面布局可改变左右的宽度
2020/09/12 Javascript
js实现文本框宽度自适应文本宽度的方法
2015/08/13 Javascript
基于MVC5和Bootstrap的jQuery TreeView树形控件(二)之数据支持json字符串、list集合
2016/08/11 Javascript
React-router 4 按需加载的实现方式及原理详解
2017/05/25 Javascript
jQuery选择器中的特殊符号处理方法
2017/09/08 jQuery
深入理解Vue.js源码之事件机制
2017/09/27 Javascript
原生js实现form表单序列化的方法
2018/08/02 Javascript
vue服务端渲染添加缓存的方法
2018/09/18 Javascript
vue中使用better-scroll实现滑动效果及注意事项
2018/11/15 Javascript
如何在vue里面优雅的解决跨域(路由冲突问题)
2019/01/20 Javascript
three.js 如何制作魔方
2020/07/31 Javascript
[01:18:21]EG vs TNC Supermajor小组赛B组败者组第一轮 BO3 第一场 6.2
2018/06/03 DOTA
利用soaplib搭建webservice详细步骤和实例代码
2013/11/20 Python
跨平台python异步回调机制实现和使用方法
2013/11/26 Python
Python编程之变量赋值操作实例分析
2017/07/24 Python
Python使用random.shuffle()打乱列表顺序的方法
2018/11/08 Python
如何在python中实现随机选择
2019/11/02 Python
matplotlib.pyplot画图并导出保存的实例
2019/12/07 Python
python 伯努利分布详解
2020/02/25 Python
python简单的三元一次方程求解实例
2020/04/02 Python
Python3内置函数chr和ord实现进制转换
2020/06/05 Python
Python通过kerberos安全认证操作kafka方式
2020/06/06 Python
Python实现Canny及Hough算法代码实例解析
2020/08/06 Python
英国舒适型鞋履品牌:FitFlop
2017/05/17 全球购物
Android面试题及答案
2015/09/04 面试题
银行内勤岗位职责
2014/04/09 职场文书
综治工作心得体会
2014/09/11 职场文书
离退休人员聘用协议书
2014/11/24 职场文书
学生会任命书范本
2015/09/21 职场文书
2016年共产党员个人承诺书
2016/03/24 职场文书
golang日志包logger的用法详解
2021/05/05 Golang
Python实现天气查询软件
2021/06/07 Python
前端监听websocket消息并实时弹出(实例代码)
2021/11/27 Javascript
 分享一个Python 遇到数据库超好用的模块
2022/04/06 Python