详解pandas使用drop_duplicates去除DataFrame重复项参数


Posted in Python onAugust 01, 2019

Pandas之drop_duplicates:去除重复项

方法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

参数

这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。

  • subset : column label or sequence of labels, optional 用来指定特定的列,默认所有列
  • keep : {‘first', ‘last', False}, default ‘first' 删除重复项并保留第一次出现的项
  • inplace : boolean, default False 是直接在原来数据上修改还是保留一个副本

DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下:

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。

keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。

inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。

将副本赋值给dataframe:

data=data.drop_duplicates(subset=None,keep='first',inplace=False)

这一行代码与文章开头提到的那行代码效果等效,但是如果在该DataFrame上新增一列:

data['extra']=test_data['item_price_level']

就会报如下错误:

SettingWithCopyWarning:  A value is trying to be set on a copy of a slice from a DataFrame. 

所以如果想对DataFrame去重,最好采用开头提到的那行代码。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
零基础写python爬虫之爬虫的定义及URL构成
Nov 04 Python
Python lambda和Python def区别分析
Nov 30 Python
在Python中测试访问同一数据的竞争条件的方法
Apr 23 Python
python 基本数据类型占用内存空间大小的实例
Jun 12 Python
django2用iframe标签完成网页内嵌播放b站视频功能
Jun 20 Python
python中使用 xlwt 操作excel的常见方法与问题
Jan 13 Python
python3实现的zip格式压缩文件夹操作示例
Aug 17 Python
Python调用Windows API函数编写录音机和音乐播放器功能
Jan 05 Python
Django高并发负载均衡实现原理详解
Apr 04 Python
python实现数学模型(插值、拟合和微分方程)
Nov 13 Python
python基于selenium爬取斗鱼弹幕
Feb 20 Python
python标准库ElementTree处理xml
May 20 Python
Python使用Pandas对csv文件进行数据处理的方法
Aug 01 #Python
python使用writerows写csv文件产生多余空行的处理方法
Aug 01 #Python
python psutil模块使用方法解析
Aug 01 #Python
python读写csv文件并增加行列的实例代码
Aug 01 #Python
Flask框架重定向,错误显示,Responses响应及Sessions会话操作示例
Aug 01 #Python
python对csv文件追加写入列的方法
Aug 01 #Python
Django Aggregation聚合使用方法解析
Aug 01 #Python
You might like
Linux下将excel数据导入到mssql数据库中的方法
2010/02/08 PHP
Codeigniter注册登录代码示例
2014/06/12 PHP
php生成唯一的订单函数分享
2015/02/02 PHP
深入理解PHP的远程多会话调试
2017/09/21 PHP
ExtJS扩展 垂直tabLayout实现代码
2009/06/21 Javascript
js实现无需数据库的县级以上联动行政区域下拉控件
2013/08/14 Javascript
jQuery插件 selectToSelect使用方法
2013/10/02 Javascript
JQuery EasyUI 日期控件如何控制日期选择区间
2014/05/05 Javascript
分享JavaScript与Java中MD5使用两个例子
2015/12/23 Javascript
jQuery循环遍历子节点并获取值的方法
2016/04/14 Javascript
js判断所有表单项不为空则提交表单的实现方法
2016/09/09 Javascript
Jquery表单验证失败后不提交的解决方法
2016/10/18 Javascript
JS实现的添加弹出层并完成锁屏操作示例
2017/04/07 Javascript
Vue.js做select下拉列表的实例(ul-li标签仿select标签)
2018/03/02 Javascript
JavaScript实现轮播图效果
2020/10/30 Javascript
Python交换变量
2008/09/06 Python
Python RuntimeError: thread.__init__() not called解决方法
2015/04/28 Python
基于python的Tkinter编写登陆注册界面
2017/06/30 Python
Python数据分析之双色球中蓝红球分析统计示例
2018/02/03 Python
对numpy中轴与维度的理解
2018/04/18 Python
win7+Python3.5下scrapy的安装方法
2018/07/31 Python
Python中对数组集进行按行打乱shuffle的方法
2018/11/08 Python
对python:循环定义多个变量的实例详解
2019/01/20 Python
Python实现的排列组合、破解密码算法示例
2019/04/12 Python
python中的协程深入理解
2019/06/10 Python
在Python中COM口的调用方法
2019/07/03 Python
opencv3/Python 稠密光流calcOpticalFlowFarneback详解
2019/12/11 Python
Python namedtuple命名元组实现过程解析
2020/01/08 Python
CSS3 伪类选择器 nth-child()说明
2010/07/10 HTML / CSS
Canvas 文本转粒子效果的实现代码
2019/02/14 HTML / CSS
社团成立邀请函
2014/01/08 职场文书
仓库文员岗位职责
2014/04/06 职场文书
局火灾防控工作方案
2014/05/25 职场文书
管理标语大全
2014/06/24 职场文书
2016年禁毒宣传活动总结
2016/04/05 职场文书
Python Flask实现进度条
2022/05/11 Python