pandas中的数据去重处理的实现方法


Posted in Python onFebruary 10, 2020

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行

参数: 
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'

  • first:标记重复,True除了第一次出现。
  • last:标记重复,True除了最后一次出现。
  • 错误:将所有重复项标记为True。
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]

# 使用duplicated 查看 重复值
# 参数 keep 可以标记重复值 {'first','last',False}
print(df['Seqno'].duplicated())
'''
0  False
1   True
2   True
3   True
4  False
Name: Seqno, dtype: bool
'''

# 删除 series 重复数据
print(df['Seqno'].drop_duplicates())
'''
0  0.0
4  1.0
Name: Seqno, dtype: float64
'''

# 删除 dataframe 重复数据
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
'''
  Price Seqno Symbol    time
0 1623.0  0.0  APPL 1473411962
4 1649.0  1.0  APPL 1473411963
'''
# drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
'''
  Price Seqno Symbol    time
3 1623.0  0.0  APPL 1473411963
4 1649.0  1.0  APPL 1473411963
'''

pandas 去除重复行

DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )

subset : 指定列,默认情况下使用所有列

keep : {'first','last',False},默认'first'

first :删除重复项保留第一次出现的。last :删除重复项保留最后一次出现的。false:删除所有重复项。

inplace : 布尔值,默认为False          是否删除重复项或返回副本

栗子:

pandas中的数据去重处理的实现方法

到此这篇关于pandas中的数据去重处理的实现方法的文章就介绍到这了,更多相关Pandas 数据去重内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python中日期和时间格式化输出的方法小结
Mar 19 Python
Python中max函数用法实例分析
Jul 17 Python
Python3 操作符重载方法示例
Nov 23 Python
利用python解决mysql视图导入导出依赖的问题
Dec 17 Python
python 实现A*算法的示例代码
Aug 13 Python
flask session组件的使用示例
Dec 25 Python
python 发送和接收ActiveMQ消息的实例
Jan 30 Python
实例讲解Python中浮点型的基本内容
Feb 11 Python
详解python之heapq模块及排序操作
Apr 04 Python
Python PIL图片添加字体的例子
Aug 22 Python
Python3.x+迅雷x 自动下载高分电影的实现方法
Jan 12 Python
PyTorch加载预训练模型实例(pretrained)
Jan 17 Python
对tensorflow中cifar-10文档的Read操作详解
Feb 10 #Python
基于Tensorflow:CPU性能分析
Feb 10 #Python
python sorted函数原理解析及练习
Feb 10 #Python
python pprint模块中print()和pprint()两者的区别
Feb 10 #Python
python yield和Generator函数用法详解
Feb 10 #Python
Tensorflow 卷积的梯度反向传播过程
Feb 10 #Python
tensorflow 实现自定义梯度反向传播代码
Feb 10 #Python
You might like
《Pokemon Sword·Shield》系列WEB动画《薄明之翼》第2话声优阵容公开!
2020/03/06 日漫
PHP带节点操作的无限分类实现方法详解
2016/11/09 PHP
PHP面向对象程序设计之对象生成方法详解
2016/12/02 PHP
微信接口生成带参数的二维码
2017/07/31 PHP
ThinkPHP 5.x远程命令执行漏洞复现
2019/09/23 PHP
php中yii框架实例用法
2020/12/22 PHP
JavaScript 脚本将当地时间转换成其它时区
2009/03/19 Javascript
Jquery多选框互相内容交换的实例代码
2013/07/04 Javascript
网页广告中JS代码的信息监听示例
2014/04/02 Javascript
通过$(this)使用jQuery包装后的方法或属性
2014/05/18 Javascript
利用jQuery实现可以编辑的表格
2014/05/26 Javascript
jQuery修改class属性和CSS样式整理
2015/01/30 Javascript
Perl Substr()函数及函数的应用
2015/12/16 Javascript
Bootstrap Metronic完全响应式管理模板学习笔记
2016/07/08 Javascript
jquery将标签元素的高设为屏幕的百分比
2017/04/19 jQuery
浅谈JS获取元素的N种方法及其动静态讨论
2017/08/25 Javascript
Vue实现点击后文字变色切换方法
2018/02/11 Javascript
简单了解JavaScript弹窗实现代码
2020/05/07 Javascript
Javascript如何递归遍历本地文件夹
2020/08/06 Javascript
[04:11]DOTA2上海特级锦标赛主赛事首日TOP10
2016/03/03 DOTA
python用来获得图片exif信息的库实例分析
2015/03/16 Python
pandas中Timestamp类用法详解
2017/12/11 Python
详解用python写网络爬虫-爬取新浪微博评论
2019/05/10 Python
PyQt5创建一个新窗口的实例
2019/06/20 Python
Python如何急速下载第三方库详解
2020/11/02 Python
python 基于opencv操作摄像头
2020/12/24 Python
css3利用transform变形结合事件完成扇形导航
2020/10/26 HTML / CSS
详解HTML5中的标签
2015/06/19 HTML / CSS
HTML5中的nav标签学习笔记
2016/06/24 HTML / CSS
小天鹅官方商城:LittleSwan
2017/06/16 全球购物
技校教师求职简历的自我评价
2013/10/20 职场文书
新农村建设典型材料
2014/05/31 职场文书
公司门卫岗位职责范本
2014/07/08 职场文书
文明好少年事迹材料
2014/08/19 职场文书
客房部经理岗位职责
2015/02/02 职场文书
教你用Java Swing实现自助取款机系统
2021/06/11 Java/Android