pd.drop_duplicates删除重复行的方法实现


Posted in Python onJune 16, 2022

drop_duplicates 方法实现对数据框 DataFrame 去除特定列的重复行,返回 DataFrame 格式数据。

一、使用语法及参数

使用语法:

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)

参数:

  • subset – 指定特定的列 默认所有列
  • keep:{‘first’, ‘last’, False} – 删除重复项并保留第一次出现的项 默认第一个
  • keep=False – 表示删除所有重复项 不保留
  • inplace – 是否直接修改原对象
  • gnore_index=True – 重置索引 (version 1.0.0 才有这个参数)

二、实操

1.例子一

import pandas as pd
df = pd.DataFrame({'a':[1,1,2,2],
                   'b':['a','b','a','b']})

# 单列
df.drop_duplicates('b', 'first', inplace=True)
print(df)
'''
   a  b
0  1  a
1  1  b
'''

# 多列
df.drop_duplicates(subset=['a', 'b'], keep='first', inplace=False)

# 删除所有重复项 不保留
df.drop_duplicates(subset=['a', 'b'], False)

2.例子二

# 构建测试数据框
import pandas as pd
df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})

# 默认按所有列去重
df.drop_duplicates()

# 指定列
df.drop_duplicates(subset=['brand'])

# 保留最后一个重复值
df.drop_duplicates(subset=['brand', 'style'], keep='last')

3.删除重复项后重置索引

# 方法一
df.drop_duplicates(ignore_index=True)

# 方法二
df.drop_duplicates().reset_index(drop=True)

# 方法三
df.index = range(df.shape[0])

到此这篇关于pd.drop_duplicates删除重复行的方法实现的文章就介绍到这了,更多相关pd.drop_duplicates删除重复行内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python入门篇之文件
Oct 20 Python
python中self原理实例分析
Apr 30 Python
Python实现删除当前目录下除当前脚本以外的文件和文件夹实例
Jul 27 Python
Python设计模式中单例模式的实现及在Tornado中的应用
Mar 02 Python
python使用turtle库绘制时钟
Mar 25 Python
在python中按照特定顺序访问字典的方法详解
Dec 14 Python
详解python tkinter教程-事件绑定
Mar 28 Python
django框架两个使用模板实例
Dec 11 Python
pycharm 中mark directory as exclude的用法详解
Feb 14 Python
使用python求解二次规划的问题
Feb 29 Python
Manjaro、pip、conda更换国内源的方法
Nov 17 Python
用Python爬虫破解滑动验证码的案例解析
May 06 Python
使用pd.merge表连接出现多余行的问题解决
Jun 16 #Python
pd.DataFrame中的几种索引变换的实现
Python实战实现爬取天气数据并完成可视化分析详解
pandas时间序列之pd.to_datetime()的实现
Jun 16 #Python
pandas中pd.groupby()的用法详解
Jun 16 #Python
python中pd.cut()与pd.qcut()的对比及示例
Jun 16 #Python
Python自动操作神器PyAutoGUI的使用教程
Jun 16 #Python
You might like
PHP批量生成缩略图的代码
2008/07/19 PHP
php+mysql实现数据库随机重排实例
2014/10/17 PHP
分享PHP计算两个日期相差天数的代码
2015/12/23 PHP
php版微信小店API二次开发及使用示例
2016/11/12 PHP
ASP.NET jQuery 实例15 通过控件CustomValidator验证CheckBoxList
2012/02/03 Javascript
来自国外的30个基于jquery的Web下拉菜单
2012/06/22 Javascript
jQuery异步获取json数据方法汇总
2014/12/22 Javascript
jQuery实现大转盘抽奖活动仿QQ音乐代码分享
2015/08/21 Javascript
jQuery插件echarts实现的多折线图效果示例【附demo源码下载】
2017/03/04 Javascript
详解基于webpack和vue.js搭建开发环境
2017/04/05 Javascript
JS验证全角与半角及相互转化的介绍
2017/05/18 Javascript
原生js中ajax访问的实例详解
2017/09/19 Javascript
在vue项目中使用Nprogress.js进度条的方法
2018/01/31 Javascript
简单的vuex 的使用案例笔记
2018/04/13 Javascript
浅谈React的最大亮点之虚拟DOM
2018/05/29 Javascript
jQuery基于Ajax实现读取XML数据功能示例
2018/05/31 jQuery
JS Object.preventExtensions(),Object.seal()与Object.freeze()用法实例分析
2018/08/25 Javascript
详解Vue CLI 3.0脚手架如何mock数据
2018/11/23 Javascript
使用canvas实现一个vue弹幕组件功能
2018/11/30 Javascript
详解将微信小程序接口Promise化并使用async函数
2019/08/05 Javascript
JavaScript实现PC端横向轮播图
2020/02/07 Javascript
[56:12]LGD vs Optic Supermajor小组赛D组胜者组决赛 BO3 第一场 6.3
2018/06/04 DOTA
python从入门到精通(DAY 3)
2015/12/20 Python
python 队列详解及实例代码
2016/10/18 Python
Python探索之修改Python搜索路径
2017/10/25 Python
PHP如何设置和取得Cookie值
2015/06/30 面试题
为什么需要版本控制
2016/10/28 面试题
管理科学大学生求职信
2013/11/13 职场文书
最新茶叶店创业计划书
2014/01/14 职场文书
《童年》教学反思
2014/02/18 职场文书
领导班子遵守党的政治纪律情况对照检查材料
2014/09/26 职场文书
2015年安全生产责任书
2015/01/30 职场文书
Vue vee-validate插件的简单使用
2021/06/22 Vue.js
JAVA API 实用类 String详解
2021/10/05 Java/Android
CSS精灵图的原理与使用方法介绍
2022/03/17 HTML / CSS
WCG2010 星际争霸决赛 Flash vs Goojila 1 星际经典比赛回顾
2022/04/01 星际争霸