pandas中的数据去重处理的实现方法


Posted in Python onFebruary 10, 2020

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行

参数: 
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'

  • first:标记重复,True除了第一次出现。
  • last:标记重复,True除了最后一次出现。
  • 错误:将所有重复项标记为True。
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]

# 使用duplicated 查看 重复值
# 参数 keep 可以标记重复值 {'first','last',False}
print(df['Seqno'].duplicated())
'''
0  False
1   True
2   True
3   True
4  False
Name: Seqno, dtype: bool
'''

# 删除 series 重复数据
print(df['Seqno'].drop_duplicates())
'''
0  0.0
4  1.0
Name: Seqno, dtype: float64
'''

# 删除 dataframe 重复数据
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
'''
  Price Seqno Symbol    time
0 1623.0  0.0  APPL 1473411962
4 1649.0  1.0  APPL 1473411963
'''
# drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
'''
  Price Seqno Symbol    time
3 1623.0  0.0  APPL 1473411963
4 1649.0  1.0  APPL 1473411963
'''

pandas 去除重复行

DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )

subset : 指定列,默认情况下使用所有列

keep : {'first','last',False},默认'first'

first :删除重复项保留第一次出现的。last :删除重复项保留最后一次出现的。false:删除所有重复项。

inplace : 布尔值,默认为False          是否删除重复项或返回副本

栗子:

pandas中的数据去重处理的实现方法

到此这篇关于pandas中的数据去重处理的实现方法的文章就介绍到这了,更多相关Pandas 数据去重内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python使用pygame模块编写俄罗斯方块游戏的代码实例
Dec 08 Python
网站渗透常用Python小脚本查询同ip网站
May 08 Python
Python爬虫实现网页信息抓取功能示例【URL与正则模块】
May 18 Python
python 随机数使用方法,推导以及字符串,双色球小程序实例
Sep 12 Python
Python3.6基于正则实现的计算器示例【无优化简单注释版】
Jun 14 Python
python随机在一张图像上截取任意大小图片的方法
Jan 24 Python
Python脚本利用adb进行手机控制的方法
Jul 08 Python
简单了解python装饰器原理及使用方法
Dec 18 Python
python中sympy库求常微分方程的用法
Apr 28 Python
如何使用Python进行PDF图片识别OCR
Jan 22 Python
一篇文章带你搞懂Python类的相关知识
May 20 Python
Pyhton爬虫知识之正则表达式详解
Apr 01 Python
对tensorflow中cifar-10文档的Read操作详解
Feb 10 #Python
基于Tensorflow:CPU性能分析
Feb 10 #Python
python sorted函数原理解析及练习
Feb 10 #Python
python pprint模块中print()和pprint()两者的区别
Feb 10 #Python
python yield和Generator函数用法详解
Feb 10 #Python
Tensorflow 卷积的梯度反向传播过程
Feb 10 #Python
tensorflow 实现自定义梯度反向传播代码
Feb 10 #Python
You might like
PHP 选项及相关信息函数库
2006/12/04 PHP
php中判断文件存在是用file_exists还是is_file的整理
2012/09/12 PHP
给大家分享几个常用的PHP函数
2017/01/15 PHP
php 调用百度sms来发送短信的实现示例
2018/11/02 PHP
JavaScript表达式:URL 协议介绍
2013/03/10 Javascript
JavaScript获取网页、浏览器、屏幕高度和宽度汇总
2014/12/18 Javascript
JS仿Windows开机启动Loading进度条的方法
2015/02/26 Javascript
Bootstrap安装环境配置教程分享
2016/05/27 Javascript
xcode中获取js文件的路径方法(推荐)
2016/11/05 Javascript
Bootstrap按钮组简单实现代码
2017/03/06 Javascript
在js中做数字字符串补0(js补零)
2017/03/25 Javascript
JS数组搜索之折半搜索实现方法分析
2017/03/27 Javascript
websocket+node.js实现实时聊天系统问题咨询
2017/05/17 Javascript
详解vue-cli 构建Vue项目遇到的坑
2017/08/30 Javascript
防止页面url缓存中ajax中post请求的处理方法
2017/10/10 Javascript
JS中图片压缩的方法小结
2017/11/14 Javascript
微信小程序webSocket的使用方法
2020/02/20 Javascript
jQuery实现高度灵活的表单验证功能示例【无UI】
2020/04/30 jQuery
vue使用video插件vue-video-player的示例
2020/10/03 Javascript
详解vue-cli项目在IE浏览器打开报错解决方法
2020/12/10 Vue.js
剖析Django中模版标签的解析与参数传递
2015/07/21 Python
Django框架的使用教程路由请求响应的方法
2018/07/03 Python
使用Django开发简单接口实现文章增删改查
2019/05/09 Python
用opencv给图片换背景色的示例代码
2020/07/08 Python
如何解决flask修改静态资源后缓存文件不能及时更改问题
2020/08/02 Python
给定一个时间点,希望得到其他时间点
2013/11/07 面试题
中专毕业生自我鉴定
2013/11/21 职场文书
药学专业大专生的自我评价
2013/12/12 职场文书
承诺书的格式范文
2014/03/28 职场文书
网站创业计划书
2014/04/30 职场文书
管理工程专业求职信
2014/08/10 职场文书
2015年车间主任工作总结
2015/05/21 职场文书
公司欠款证明
2015/06/24 职场文书
百年孤独读书笔记
2015/06/29 职场文书
2016党员干部反腐倡廉心得体会
2016/01/13 职场文书
教学工作总结范文5篇
2019/08/19 职场文书