详解pandas使用drop_duplicates去除DataFrame重复项参数


Posted in Python onAugust 01, 2019

Pandas之drop_duplicates:去除重复项

方法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

参数

这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。

  • subset : column label or sequence of labels, optional 用来指定特定的列,默认所有列
  • keep : {‘first', ‘last', False}, default ‘first' 删除重复项并保留第一次出现的项
  • inplace : boolean, default False 是直接在原来数据上修改还是保留一个副本

DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下:

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。

keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。

inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。

将副本赋值给dataframe:

data=data.drop_duplicates(subset=None,keep='first',inplace=False)

这一行代码与文章开头提到的那行代码效果等效,但是如果在该DataFrame上新增一列:

data['extra']=test_data['item_price_level']

就会报如下错误:

SettingWithCopyWarning:  A value is trying to be set on a copy of a slice from a DataFrame. 

所以如果想对DataFrame去重,最好采用开头提到的那行代码。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python入门学习之字符串与比较运算符
Oct 12 Python
Python新手入门最容易犯的错误总结
Apr 24 Python
使用Python的Django和layim实现即时通讯的方法
May 25 Python
python实现括号匹配的思路详解
Aug 23 Python
Python从ZabbixAPI获取信息及实现Zabbix-API 监控的方法
Sep 17 Python
python numpy元素的区间查找方法
Nov 14 Python
python调用虹软2.0第三版的具体使用
Feb 22 Python
python脚本后台执行方式
Dec 21 Python
使用Python打造一款间谍程序的流程分析
Feb 21 Python
Python Flask框架实现简单加法工具过程解析
Jun 03 Python
python的flask框架难学吗
Jul 31 Python
Python之基础函数案例详解
Aug 30 Python
Python使用Pandas对csv文件进行数据处理的方法
Aug 01 #Python
python使用writerows写csv文件产生多余空行的处理方法
Aug 01 #Python
python psutil模块使用方法解析
Aug 01 #Python
python读写csv文件并增加行列的实例代码
Aug 01 #Python
Flask框架重定向,错误显示,Responses响应及Sessions会话操作示例
Aug 01 #Python
python对csv文件追加写入列的方法
Aug 01 #Python
Django Aggregation聚合使用方法解析
Aug 01 #Python
You might like
初学CAKEPHP 基础教程
2009/11/02 PHP
php更新mysql后获取影响的行数发生异常解决方法
2013/03/28 PHP
简单了解WordPress开发中update_option()函数的用法
2016/01/11 PHP
php集成动态口令认证
2016/07/21 PHP
PHP两种实现无级递归分类的方法
2017/03/02 PHP
PHP与Perl之间知识点区别整理
2019/03/19 PHP
JS对select控件option选项的增删改查示例代码
2013/10/21 Javascript
详谈LABJS按需动态加载js文件
2015/05/07 Javascript
VUE引入第三方js包及调用方法讲解
2019/03/01 Javascript
jquery轻量级数字动画插件countUp.js使用详解
2019/10/17 jQuery
jQuery 选择方法及$(this)用法实例分析
2020/05/19 jQuery
Vue生命周期activated之返回上一页不重新请求数据操作
2020/07/26 Javascript
彻底搞懂并解决vue-cli4中图片显示的问题实现
2020/08/31 Javascript
Vue仿百度搜索功能
2020/12/28 Vue.js
[04:48]DOTA2亚洲邀请赛林书豪为VGJ加油
2017/04/01 DOTA
python+matplotlib演示电偶极子实例代码
2018/01/12 Python
Python 25行代码实现的RSA算法详解
2018/04/10 Python
python 正确保留多位小数的实例
2018/07/16 Python
python使用matplotlib画饼状图
2018/09/25 Python
详解Django-channels 实现WebSocket实例
2019/08/22 Python
Django Form设置文本框为readonly操作
2020/07/03 Python
Expedia马来西亚旅游网站:廉价酒店,度假村和航班预订
2016/07/26 全球购物
美国糖果店:Sugarfina
2019/02/21 全球购物
高级Java程序员面试题
2016/06/23 面试题
师范毕业生自荐信
2013/10/17 职场文书
房产销售经理职责
2013/12/20 职场文书
教师开学感言
2014/02/14 职场文书
大学生学习2014全国两会心得体会
2014/03/13 职场文书
《彩色世界》教学反思
2014/04/12 职场文书
爱国主义教育活动总结
2014/05/07 职场文书
公司采购主管岗位职责
2014/06/17 职场文书
2014最新实习证明模板
2014/10/02 职场文书
审计局2014法制宣传日活动总结
2014/11/01 职场文书
2014年妇女工作总结
2014/12/06 职场文书
拾金不昧通报表扬范文
2015/05/05 职场文书
社区服务理念口号
2015/12/25 职场文书