pd.drop_duplicates删除重复行的方法实现


Posted in Python onJune 16, 2022

drop_duplicates 方法实现对数据框 DataFrame 去除特定列的重复行,返回 DataFrame 格式数据。

一、使用语法及参数

使用语法:

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)

参数:

  • subset – 指定特定的列 默认所有列
  • keep:{‘first’, ‘last’, False} – 删除重复项并保留第一次出现的项 默认第一个
  • keep=False – 表示删除所有重复项 不保留
  • inplace – 是否直接修改原对象
  • gnore_index=True – 重置索引 (version 1.0.0 才有这个参数)

二、实操

1.例子一

import pandas as pd
df = pd.DataFrame({'a':[1,1,2,2],
                   'b':['a','b','a','b']})

# 单列
df.drop_duplicates('b', 'first', inplace=True)
print(df)
'''
   a  b
0  1  a
1  1  b
'''

# 多列
df.drop_duplicates(subset=['a', 'b'], keep='first', inplace=False)

# 删除所有重复项 不保留
df.drop_duplicates(subset=['a', 'b'], False)

2.例子二

# 构建测试数据框
import pandas as pd
df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})

# 默认按所有列去重
df.drop_duplicates()

# 指定列
df.drop_duplicates(subset=['brand'])

# 保留最后一个重复值
df.drop_duplicates(subset=['brand', 'style'], keep='last')

3.删除重复项后重置索引

# 方法一
df.drop_duplicates(ignore_index=True)

# 方法二
df.drop_duplicates().reset_index(drop=True)

# 方法三
df.index = range(df.shape[0])

到此这篇关于pd.drop_duplicates删除重复行的方法实现的文章就介绍到这了,更多相关pd.drop_duplicates删除重复行内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python中正则表达式的使用方法
Feb 25 Python
PyQt5每天必学之事件与信号
Apr 20 Python
Django 跨域请求处理的示例代码
May 02 Python
python获取服务器响应cookie的实例
Dec 28 Python
Centos部署django服务nginx+uwsgi的方法
Jan 02 Python
详解Python3注释知识点
Feb 19 Python
PyQt5 实现给窗口设置背景图片的方法
Jun 13 Python
python+selenium+chrome批量文件下载并自动创建文件夹实例
Apr 27 Python
python实现canny边缘检测
Sep 14 Python
python 写一个文件分发小程序
Dec 05 Python
python flask开发的简单基金查询工具
Jun 02 Python
django 认证类配置实现
Nov 11 Python
使用pd.merge表连接出现多余行的问题解决
Jun 16 #Python
pd.DataFrame中的几种索引变换的实现
Python实战实现爬取天气数据并完成可视化分析详解
pandas时间序列之pd.to_datetime()的实现
Jun 16 #Python
pandas中pd.groupby()的用法详解
Jun 16 #Python
python中pd.cut()与pd.qcut()的对比及示例
Jun 16 #Python
Python自动操作神器PyAutoGUI的使用教程
Jun 16 #Python
You might like
php缓冲 output_buffering和ob_start使用介绍
2014/01/30 PHP
PHP实现数据库统计时间戳按天分组输出数据的方法
2017/10/10 PHP
解析dom中的children对象数组元素firstChild,lastChild的使用
2013/07/10 Javascript
简单方法判断JavaScript对象为null或者属性为空
2014/09/26 Javascript
javascript中call apply 的应用场景
2015/04/16 Javascript
jQuery聚合函数实例
2015/05/21 Javascript
js游戏人物上下左右跑步效果代码分享
2015/08/28 Javascript
javascript实现简单的全选和反选功能
2016/01/05 Javascript
Bootstrap CSS组件之按钮组(btn-group)
2016/12/17 Javascript
深入理解vue路由的使用
2017/03/24 Javascript
vue.js的手脚架vue-cli项目搭建的步骤
2017/08/30 Javascript
JavaScript生成简单等差数列
2017/11/28 Javascript
JS简单实现动态添加HTML标记的方法示例
2018/04/08 Javascript
jQuery中将json数据显示到页面表格的方法
2018/05/27 jQuery
Cocos2d实现刮刮卡效果
2018/12/20 Javascript
详解项目升级到vue-cli3的正确姿势
2019/01/28 Javascript
[53:21]2014 DOTA2国际邀请赛中国区预选赛5.21 DT VS LGD-CDEC
2014/05/22 DOTA
[03:12]完美世界DOTA2联赛PWL DAY9集锦
2020/11/10 DOTA
python中将字典转换成其json字符串
2014/07/16 Python
ubuntu中配置pyqt4环境教程
2017/12/27 Python
Python学习笔记之While循环用法分析
2019/08/14 Python
浅谈django url请求与数据库连接池的共享问题
2019/08/29 Python
torchxrayvision包安装过程(附pytorch1.6cpu版安装)
2020/08/26 Python
canvas实现俄罗斯方块的方法示例
2018/12/13 HTML / CSS
canvas实现烟花的示例代码
2020/01/16 HTML / CSS
Redbubble法国:由独立艺术家设计的独特产品
2019/01/08 全球购物
西部世纪.net笔试题面试题
2014/04/03 面试题
超市促销活动方案
2014/03/05 职场文书
业务员自荐信范文
2014/04/20 职场文书
演讲稿格式
2014/04/30 职场文书
超市店庆活动方案
2014/08/31 职场文书
信息与工商管理职业规划范文:为梦想而搏击
2014/09/11 职场文书
学校运动会广播稿100条
2014/09/14 职场文书
撤诉状格式范本
2015/05/19 职场文书
护理自荐信
2019/05/14 职场文书
win10音频服务未响应怎么解决?win10音频服务未响应未修复的解决方法
2022/08/14 数码科技