pd.drop_duplicates删除重复行的方法实现


Posted in Python onJune 16, 2022

drop_duplicates 方法实现对数据框 DataFrame 去除特定列的重复行,返回 DataFrame 格式数据。

一、使用语法及参数

使用语法:

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)

参数:

  • subset – 指定特定的列 默认所有列
  • keep:{‘first’, ‘last’, False} – 删除重复项并保留第一次出现的项 默认第一个
  • keep=False – 表示删除所有重复项 不保留
  • inplace – 是否直接修改原对象
  • gnore_index=True – 重置索引 (version 1.0.0 才有这个参数)

二、实操

1.例子一

import pandas as pd
df = pd.DataFrame({'a':[1,1,2,2],
                   'b':['a','b','a','b']})

# 单列
df.drop_duplicates('b', 'first', inplace=True)
print(df)
'''
   a  b
0  1  a
1  1  b
'''

# 多列
df.drop_duplicates(subset=['a', 'b'], keep='first', inplace=False)

# 删除所有重复项 不保留
df.drop_duplicates(subset=['a', 'b'], False)

2.例子二

# 构建测试数据框
import pandas as pd
df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})

# 默认按所有列去重
df.drop_duplicates()

# 指定列
df.drop_duplicates(subset=['brand'])

# 保留最后一个重复值
df.drop_duplicates(subset=['brand', 'style'], keep='last')

3.删除重复项后重置索引

# 方法一
df.drop_duplicates(ignore_index=True)

# 方法二
df.drop_duplicates().reset_index(drop=True)

# 方法三
df.index = range(df.shape[0])

到此这篇关于pd.drop_duplicates删除重复行的方法实现的文章就介绍到这了,更多相关pd.drop_duplicates删除重复行内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python的Socket编程过程中实现UDP端口复用的实例分享
Mar 19 Python
Python的Tornado框架实现图片上传及图片大小修改功能
Jun 30 Python
完美解决python遍历删除字典里值为空的元素报错问题
Sep 11 Python
Python 正则表达式的高级用法
Dec 04 Python
python提取包含关键字的整行数据方法
Dec 11 Python
Pytorch在dataloader类中设置shuffle的随机数种子方式
Jan 14 Python
python opencv圆、椭圆与任意多边形的绘制实例详解
Feb 06 Python
python对文件的操作方法汇总
Feb 28 Python
python使用OpenCV模块实现图像的融合示例代码
Apr 10 Python
Python-openpyxl表格读取写入的案例详解
Nov 02 Python
python中用ggplot绘制画图实例讲解
Jan 26 Python
Pytorch 使用tensor特定条件判断索引
Apr 08 Python
使用pd.merge表连接出现多余行的问题解决
Jun 16 #Python
pd.DataFrame中的几种索引变换的实现
Python实战实现爬取天气数据并完成可视化分析详解
pandas时间序列之pd.to_datetime()的实现
Jun 16 #Python
pandas中pd.groupby()的用法详解
Jun 16 #Python
python中pd.cut()与pd.qcut()的对比及示例
Jun 16 #Python
Python自动操作神器PyAutoGUI的使用教程
Jun 16 #Python
You might like
使用Apache的htaccess防止图片被盗链的解决方法
2013/04/27 PHP
Linux下PHP加速器APC的安装与配置笔记
2014/10/24 PHP
php中session_id()函数详细介绍,会话id生成过程及session id长度
2015/09/23 PHP
CI框架封装的常用图像处理方法(缩略图,水印,旋转,上传等)
2016/11/22 PHP
PHP如何读取由JavaScript设置的Cookie
2017/03/22 PHP
js select常用操作控制代码
2010/03/16 Javascript
JS加jquery简单实现标签元素的显示或隐藏
2013/09/23 Javascript
JS清空多文本框、文本域示例代码
2014/02/24 Javascript
Bootstrap Paginator分页插件与ajax相结合实现动态无刷新分页效果
2016/05/27 Javascript
JavaScript仿百度图片浏览效果
2016/11/23 Javascript
Vue分页组件实例代码
2017/04/17 Javascript
基于webpack.config.js 参数详解
2018/03/20 Javascript
基于nodejs res.end和res.send的区别
2018/05/14 NodeJs
JS实现点击li标签弹出对应的索引功能【案例】
2019/02/18 Javascript
vue动态禁用控件绑定disable的例子
2019/10/28 Javascript
JavaScript对象访问器Getter及Setter原理解析
2020/12/08 Javascript
[02:25]DOTA2英雄基础教程 生死判决瘟疫法师
2013/12/06 DOTA
[03:12]TI9战队档案 - Virtus Pro
2019/08/20 DOTA
python文件比较示例分享
2014/01/10 Python
python实现图片批量剪切示例
2014/03/25 Python
Python编程中运用闭包时所需要注意的一些地方
2015/05/02 Python
python简单实现旋转图片的方法
2015/05/30 Python
Python数据结构之单链表详解
2017/09/12 Python
python实现周期方波信号频谱图
2018/07/21 Python
Python进程间通信Queue消息队列用法分析
2019/05/22 Python
Python Pillow(PIL)库的用法详解
2020/09/19 Python
amaze ui 的使用详细教程
2020/08/19 HTML / CSS
波兰珠宝品牌:YES
2019/08/09 全球购物
毕业生多媒体设计求职信
2013/10/12 职场文书
幼儿园运动会入场词
2014/02/10 职场文书
实习评语大全
2014/04/26 职场文书
三八妇女节活动总结
2014/05/04 职场文书
建筑工程质量通病防治方案
2014/06/08 职场文书
销售员态度差检讨书
2014/10/26 职场文书
2019年行政人事个人工作总结范本!
2019/07/19 职场文书
python使用openpyxl库读写Excel表格的方法(增删改查操作)
2021/05/02 Python