pandas中的数据去重处理的实现方法


Posted in Python onFebruary 10, 2020

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行

参数: 
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'

  • first:标记重复,True除了第一次出现。
  • last:标记重复,True除了最后一次出现。
  • 错误:将所有重复项标记为True。
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]

# 使用duplicated 查看 重复值
# 参数 keep 可以标记重复值 {'first','last',False}
print(df['Seqno'].duplicated())
'''
0  False
1   True
2   True
3   True
4  False
Name: Seqno, dtype: bool
'''

# 删除 series 重复数据
print(df['Seqno'].drop_duplicates())
'''
0  0.0
4  1.0
Name: Seqno, dtype: float64
'''

# 删除 dataframe 重复数据
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
'''
  Price Seqno Symbol    time
0 1623.0  0.0  APPL 1473411962
4 1649.0  1.0  APPL 1473411963
'''
# drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
'''
  Price Seqno Symbol    time
3 1623.0  0.0  APPL 1473411963
4 1649.0  1.0  APPL 1473411963
'''

pandas 去除重复行

DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )

subset : 指定列,默认情况下使用所有列

keep : {'first','last',False},默认'first'

first :删除重复项保留第一次出现的。last :删除重复项保留最后一次出现的。false:删除所有重复项。

inplace : 布尔值,默认为False          是否删除重复项或返回副本

栗子:

pandas中的数据去重处理的实现方法

到此这篇关于pandas中的数据去重处理的实现方法的文章就介绍到这了,更多相关Pandas 数据去重内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python进阶教程之词典、字典、dict
Aug 29 Python
使用rpclib进行Python网络编程时的注释问题
May 06 Python
Python中列表、字典、元组数据结构的简单学习笔记
Mar 20 Python
python字符串连接方法分析
Apr 12 Python
Python存取XML的常见方法实例分析
Mar 21 Python
让代码变得更易维护的7个Python库
Oct 09 Python
python 拼接文件路径的方法
Oct 23 Python
virtualenv 指定 python 解释器的版本方法
Oct 25 Python
python使用selenium实现批量文件下载
Mar 11 Python
如何用OpenCV -python3实现视频物体追踪
Dec 04 Python
python如何变换环境
Jul 21 Python
总结Python使用过程中的bug
Jun 18 Python
对tensorflow中cifar-10文档的Read操作详解
Feb 10 #Python
基于Tensorflow:CPU性能分析
Feb 10 #Python
python sorted函数原理解析及练习
Feb 10 #Python
python pprint模块中print()和pprint()两者的区别
Feb 10 #Python
python yield和Generator函数用法详解
Feb 10 #Python
Tensorflow 卷积的梯度反向传播过程
Feb 10 #Python
tensorflow 实现自定义梯度反向传播代码
Feb 10 #Python
You might like
php缓存技术介绍
2006/11/25 PHP
最新的php 文件上传模型,支持多文件上传
2009/08/13 PHP
PHP设计模式之迭代器模式的深入解析
2013/06/13 PHP
php循环创建目录示例分享(php创建多级目录)
2014/03/04 PHP
微信支付开发发货通知实例
2016/07/12 PHP
从Ajax到JQuery Ajax学习
2007/02/14 Javascript
Jquery乱码的一次解决过程 图解教程
2010/02/20 Javascript
javascript 获取元素样式必杀技
2014/05/04 Javascript
JavaScript中的对象序列化介绍
2014/12/30 Javascript
Underscore源码分析
2015/12/30 Javascript
JavaScript实现简单的拖动效果
2016/07/02 Javascript
又一枚精彩的弹幕效果jQuery实现
2016/07/25 Javascript
jQuery实现动态添加tr到table的方法
2016/12/26 Javascript
Vue.js中关于侦听器(watch)的高级用法示例
2018/05/02 Javascript
15个顶级开源JavaScript框架和库
2018/10/10 Javascript
Vue2 添加数据可视化支持的方法步骤
2019/01/02 Javascript
浅谈 Webpack 如何处理图片(开发、打包、优化)
2019/05/15 Javascript
vue实现简单的日历效果
2020/09/24 Javascript
中级前端工程师必须要掌握的27个JavaScript 技巧(干货总结)
2019/09/23 Javascript
JS实现简易留言板增删功能
2020/02/08 Javascript
jquery实现广告上下滚动效果
2021/03/04 jQuery
[00:02]DOTA2新版本使用PA至宝后暴击展示
2014/11/19 DOTA
Python使用matplotlib简单绘图示例
2018/02/01 Python
Python反转序列的方法实例分析
2018/03/21 Python
Python3实现的简单验证码识别功能示例
2018/05/02 Python
python 简单照相机调用系统摄像头实现方法 pygame
2018/08/03 Python
50行Python代码获取高考志愿信息的实现方法
2019/07/23 Python
Django 对IP访问频率进行限制的例子
2019/08/30 Python
如何基于python把文字图片写入word文档
2020/07/31 Python
Python用来做Web开发的优势有哪些
2020/08/05 Python
Evisu官方网站:日本牛仔品牌,时尚街头设计风格
2016/12/30 全球购物
香港零食网购:上仓胃子
2020/06/08 全球购物
质量管理标语
2014/06/12 职场文书
高中班主任评语
2014/12/30 职场文书
2016中秋晚会开幕词
2016/03/03 职场文书
Python还能这么玩之只用30行代码从excel提取个人值班表
2021/06/05 Python