pandas中的数据去重处理的实现方法


Posted in Python onFebruary 10, 2020

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行

参数: 
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'

  • first:标记重复,True除了第一次出现。
  • last:标记重复,True除了最后一次出现。
  • 错误:将所有重复项标记为True。
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]

# 使用duplicated 查看 重复值
# 参数 keep 可以标记重复值 {'first','last',False}
print(df['Seqno'].duplicated())
'''
0  False
1   True
2   True
3   True
4  False
Name: Seqno, dtype: bool
'''

# 删除 series 重复数据
print(df['Seqno'].drop_duplicates())
'''
0  0.0
4  1.0
Name: Seqno, dtype: float64
'''

# 删除 dataframe 重复数据
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
'''
  Price Seqno Symbol    time
0 1623.0  0.0  APPL 1473411962
4 1649.0  1.0  APPL 1473411963
'''
# drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
'''
  Price Seqno Symbol    time
3 1623.0  0.0  APPL 1473411963
4 1649.0  1.0  APPL 1473411963
'''

pandas 去除重复行

DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )

subset : 指定列,默认情况下使用所有列

keep : {'first','last',False},默认'first'

first :删除重复项保留第一次出现的。last :删除重复项保留最后一次出现的。false:删除所有重复项。

inplace : 布尔值,默认为False          是否删除重复项或返回副本

栗子:

pandas中的数据去重处理的实现方法

到此这篇关于pandas中的数据去重处理的实现方法的文章就介绍到这了,更多相关Pandas 数据去重内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python 解析html之BeautifulSoup
Jul 07 Python
python数据库操作常用功能使用详解(创建表/插入数据/获取数据)
Dec 06 Python
用Python解决计数原理问题的方法
Aug 04 Python
Python之reload流程实例代码解析
Jan 29 Python
python实现微信发送邮件关闭电脑功能
Feb 22 Python
python爬虫自动创建文件夹的功能
Aug 01 Python
python程序控制NAO机器人行走
Apr 29 Python
Python实现Linux监控的方法
May 16 Python
django ListView的使用 ListView中获取url中的参数值方式
Mar 27 Python
Python unittest单元测试框架实现参数化
Apr 29 Python
Pytorch损失函数nn.NLLLoss2d()用法说明
Jul 07 Python
pycharm进入时每次都是insert模式的解决方式
Feb 05 Python
对tensorflow中cifar-10文档的Read操作详解
Feb 10 #Python
基于Tensorflow:CPU性能分析
Feb 10 #Python
python sorted函数原理解析及练习
Feb 10 #Python
python pprint模块中print()和pprint()两者的区别
Feb 10 #Python
python yield和Generator函数用法详解
Feb 10 #Python
Tensorflow 卷积的梯度反向传播过程
Feb 10 #Python
tensorflow 实现自定义梯度反向传播代码
Feb 10 #Python
You might like
分享50个提高PHP执行效率的技巧
2015/12/26 PHP
PHP输出图像imagegif、imagejpeg与imagepng函数用法分析
2016/11/14 PHP
翻译整理的jQuery使用查询手册
2007/03/07 Javascript
捕获关闭窗口的脚本
2009/01/10 Javascript
分享10篇优秀的jQuery幻灯片制作教程及应用案例
2011/04/16 Javascript
jQuery1.6 使用方法一
2011/11/23 Javascript
基于datagrid框架的查询
2013/04/08 Javascript
解决js数据包含加号+通过ajax传到后台时出现连接错误
2013/08/01 Javascript
showModalDialog在谷歌浏览器下会返回Null的解决方法
2013/11/27 Javascript
Vue-cli-webpack搭建斗鱼直播步骤详解
2017/11/17 Javascript
使用p5.js临摹动态图形
2019/10/23 Javascript
小程序实现录音上传功能
2019/11/22 Javascript
[42:50]NB vs VP 2018国际邀请赛小组赛BO2 第二场 8.18
2018/08/19 DOTA
Python2.7下安装Scrapy框架步骤教程
2017/12/22 Python
python+opencv+caffe+摄像头做目标检测的实例代码
2018/08/03 Python
pandas进行时间数据的转换和计算时间差并提取年月日
2019/07/06 Python
PyQtGraph在pyqt中的应用及安装过程
2019/08/04 Python
如何使用selenium和requests组合实现登录页面
2020/02/03 Python
spyder 在控制台(console)执行python文件,debug python程序方式
2020/04/20 Python
python中urllib.request和requests的使用及区别详解
2020/05/05 Python
关于python scrapy中添加cookie踩坑记录
2020/11/17 Python
Django 权限管理(permissions)与用户组(group)详解
2020/11/30 Python
Python中对象的比较操作==和is区别详析
2021/02/12 Python
python实现控制台输出颜色
2021/03/02 Python
adidas美国官网:adidas US
2016/09/21 全球购物
西班牙手机之家:Phone House
2018/10/18 全球购物
现代生活方式的家具和装饰:Dot & Bo
2018/12/26 全球购物
AJAX应用和传统Web应用有什么不同
2013/08/24 面试题
行政文秘岗位职责范本
2014/02/10 职场文书
《长相思》听课反思
2014/04/10 职场文书
环保专项行动方案
2014/05/12 职场文书
2014党员批评和自我批评思想汇报
2014/09/21 职场文书
王兆力在市委党的群众路线教育实践活动总结大会上的讲话稿
2014/10/25 职场文书
颐和园导游词400字
2015/01/30 职场文书
2015年暑期社会实践活动总结
2015/03/27 职场文书
科级干部培训心得体会
2016/01/06 职场文书