pd.drop_duplicates删除重复行的方法实现


Posted in Python onJune 16, 2022

drop_duplicates 方法实现对数据框 DataFrame 去除特定列的重复行,返回 DataFrame 格式数据。

一、使用语法及参数

使用语法:

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)

参数:

  • subset – 指定特定的列 默认所有列
  • keep:{‘first’, ‘last’, False} – 删除重复项并保留第一次出现的项 默认第一个
  • keep=False – 表示删除所有重复项 不保留
  • inplace – 是否直接修改原对象
  • gnore_index=True – 重置索引 (version 1.0.0 才有这个参数)

二、实操

1.例子一

import pandas as pd
df = pd.DataFrame({'a':[1,1,2,2],
                   'b':['a','b','a','b']})

# 单列
df.drop_duplicates('b', 'first', inplace=True)
print(df)
'''
   a  b
0  1  a
1  1  b
'''

# 多列
df.drop_duplicates(subset=['a', 'b'], keep='first', inplace=False)

# 删除所有重复项 不保留
df.drop_duplicates(subset=['a', 'b'], False)

2.例子二

# 构建测试数据框
import pandas as pd
df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})

# 默认按所有列去重
df.drop_duplicates()

# 指定列
df.drop_duplicates(subset=['brand'])

# 保留最后一个重复值
df.drop_duplicates(subset=['brand', 'style'], keep='last')

3.删除重复项后重置索引

# 方法一
df.drop_duplicates(ignore_index=True)

# 方法二
df.drop_duplicates().reset_index(drop=True)

# 方法三
df.index = range(df.shape[0])

到此这篇关于pd.drop_duplicates删除重复行的方法实现的文章就介绍到这了,更多相关pd.drop_duplicates删除重复行内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python 网络编程起步(Socket发送消息)
Sep 06 Python
python3实现跳一跳点击跳跃
Jan 08 Python
pandas 将list切分后存入DataFrame中的实例
Jul 03 Python
Flask框架实现给视图函数增加装饰器操作示例
Jul 16 Python
对python:print打印时加u的含义详解
Dec 15 Python
python 读写excel文件操作示例【附源码下载】
Jun 19 Python
远程部署工具Fabric详解(支持Python3)
Jul 04 Python
提升python处理速度原理及方法实例
Dec 25 Python
Python对Tornado请求与响应的数据处理
Feb 12 Python
PyTorch中model.zero_grad()和optimizer.zero_grad()用法
Jun 24 Python
在django中查询获取数据,get, filter,all(),values()操作
Aug 09 Python
python通过新建环境安装tfx的问题
May 20 Python
使用pd.merge表连接出现多余行的问题解决
Jun 16 #Python
pd.DataFrame中的几种索引变换的实现
Python实战实现爬取天气数据并完成可视化分析详解
pandas时间序列之pd.to_datetime()的实现
Jun 16 #Python
pandas中pd.groupby()的用法详解
Jun 16 #Python
python中pd.cut()与pd.qcut()的对比及示例
Jun 16 #Python
Python自动操作神器PyAutoGUI的使用教程
Jun 16 #Python
You might like
PHP中的cookie
2006/11/26 PHP
php语言流程控制中的主动与被动
2012/11/05 PHP
PHP6连接SQLServer2005的三部曲
2016/04/15 PHP
php源码 fsockopen获取网页内容实例详解
2016/09/24 PHP
php ajax confirm 删除实例详解
2019/03/06 PHP
php中目录操作opendir()、readdir()及scandir()用法示例
2019/06/08 PHP
onpropertypchange
2006/07/01 Javascript
JS 判断代码全收集
2009/04/28 Javascript
页面使用密码保护代码
2013/04/10 Javascript
JS中artdialog弹出框控件之提交表单思路详解
2016/04/18 Javascript
关于网页中的无缝滚动的js代码
2016/06/09 Javascript
JavaScript 继承详解(五)
2016/10/11 Javascript
jquery滚动条插件slimScroll使用方法
2017/02/09 Javascript
Vue学习笔记进阶篇之多元素及多组件过渡
2017/07/19 Javascript
nodejs简单实现TCP服务器端和客户端的聊天功能示例
2018/01/04 NodeJs
vue项目中导入swiper插件的方法
2018/01/30 Javascript
React路由管理之React Router总结
2018/05/10 Javascript
搭建vue开发环境
2018/07/19 Javascript
vue基础之data存储数据及v-for循环用法示例
2019/03/08 Javascript
JS前端知识点总结之页面加载事件,数组操作,DOM节点操作,循环和分支
2019/07/04 Javascript
小程序点击图片实现png转jpg
2019/10/22 Javascript
在Vue中实现随hash改变响应菜单高亮
2020/03/09 Javascript
[01:17:12]职来职往完美电竞专场
2014/09/18 DOTA
python控制台显示时钟的示例
2014/02/24 Python
使用Python下载歌词并嵌入歌曲文件中的实现代码
2015/11/13 Python
Python Socket编程详细介绍
2017/03/23 Python
python如何实现int函数的方法示例
2018/02/19 Python
Python3爬虫全国地址信息
2019/01/05 Python
python中xlutils库用法浅析
2020/12/29 Python
CSS3教程(4):网页边框和网页文字阴影
2009/04/02 HTML / CSS
使用HTML5原生对话框元素并轻松创建模态框组件
2019/03/06 HTML / CSS
中国医药集团国药在线:国药网
2017/02/06 全球购物
英国领先的家庭时尚品牌:Peacocks
2018/01/11 全球购物
Linux常见面试题
2016/10/04 面试题
财务会计实习报告体会
2013/12/20 职场文书
村捐赠仪式答谢词
2014/01/21 职场文书