pandas中的数据去重处理的实现方法


Posted in Python onFebruary 10, 2020

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行

参数: 
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'

  • first:标记重复,True除了第一次出现。
  • last:标记重复,True除了最后一次出现。
  • 错误:将所有重复项标记为True。
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]

# 使用duplicated 查看 重复值
# 参数 keep 可以标记重复值 {'first','last',False}
print(df['Seqno'].duplicated())
'''
0  False
1   True
2   True
3   True
4  False
Name: Seqno, dtype: bool
'''

# 删除 series 重复数据
print(df['Seqno'].drop_duplicates())
'''
0  0.0
4  1.0
Name: Seqno, dtype: float64
'''

# 删除 dataframe 重复数据
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
'''
  Price Seqno Symbol    time
0 1623.0  0.0  APPL 1473411962
4 1649.0  1.0  APPL 1473411963
'''
# drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
'''
  Price Seqno Symbol    time
3 1623.0  0.0  APPL 1473411963
4 1649.0  1.0  APPL 1473411963
'''

pandas 去除重复行

DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )

subset : 指定列,默认情况下使用所有列

keep : {'first','last',False},默认'first'

first :删除重复项保留第一次出现的。last :删除重复项保留最后一次出现的。false:删除所有重复项。

inplace : 布尔值,默认为False          是否删除重复项或返回副本

栗子:

pandas中的数据去重处理的实现方法

到此这篇关于pandas中的数据去重处理的实现方法的文章就介绍到这了,更多相关Pandas 数据去重内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python随机生成均匀分布在三角形内或者任意多边形内的点
Dec 14 Python
详解appium+python 启动一个app步骤
Dec 20 Python
Python使用Pickle库实现读写序列操作示例
Jun 15 Python
Django uwsgi Nginx 的生产环境部署详解
Feb 02 Python
详解numpy的argmax的具体使用
May 27 Python
Python之指数与E记法的区别详解
Nov 21 Python
Python嵌套函数,作用域与偏函数用法实例分析
Dec 26 Python
python代码如何实现余弦相似性计算
Feb 09 Python
Python接口开发实现步骤详解
Apr 26 Python
Pycharm激活方法及详细教程(详细且实用)
May 12 Python
Python学习笔记之装饰器
Aug 06 Python
python geopandas读取、创建shapefile文件的方法
Jun 29 Python
对tensorflow中cifar-10文档的Read操作详解
Feb 10 #Python
基于Tensorflow:CPU性能分析
Feb 10 #Python
python sorted函数原理解析及练习
Feb 10 #Python
python pprint模块中print()和pprint()两者的区别
Feb 10 #Python
python yield和Generator函数用法详解
Feb 10 #Python
Tensorflow 卷积的梯度反向传播过程
Feb 10 #Python
tensorflow 实现自定义梯度反向传播代码
Feb 10 #Python
You might like
表单复选框向PHP传输数据的代码
2007/11/13 PHP
ThinkPHP3.2.2的插件控制器功能
2015/03/05 PHP
PHP中的类型约束介绍
2015/05/11 PHP
PHP配置ZendOpcache插件加速
2019/02/14 PHP
JS版的date函数(和PHP的date函数一样)
2014/05/12 Javascript
javascript实现控制div颜色
2015/07/07 Javascript
原生js实现addClass,removeClass,hasClass方法
2016/04/27 Javascript
JavaScript事件详细讲解
2016/06/27 Javascript
总结javascript中的六种迭代器
2016/08/16 Javascript
javascript 分号总结及详细介绍
2016/09/24 Javascript
实例解析jQuery中如何取消后续执行内容
2016/12/01 Javascript
JS中页面与页面之间超链接跳转中文乱码问题的解决办法
2016/12/15 Javascript
微信小程序 支付简单实例及注意事项
2017/01/06 Javascript
JavaScript面试出现频繁的一些易错点整理
2018/03/29 Javascript
Angular事件之不同组件间传递数据的方法
2018/11/15 Javascript
一文秒懂nodejs中的异步编程
2021/01/28 NodeJs
python实现一次创建多级目录的方法
2015/05/15 Python
在主机商的共享服务器上部署Django站点的方法
2015/07/22 Python
Python计算指定日期是今年的第几天(三种方法)
2020/03/26 Python
CSS3动画之流彩文字效果+图片模糊效果+边框伸展效果实现代码合集
2017/08/18 HTML / CSS
html5 input元素新特性_动力节点Java学院整理
2017/07/06 HTML / CSS
Html5 Canvas动画基础碰撞检测的实现
2018/12/06 HTML / CSS
Html5基于canvas实现电子签名并生成PDF文档
2020/12/07 HTML / CSS
马来西亚演唱会订票网站:StubHub马来西亚
2018/10/18 全球购物
如何打开WebSphere远程debug
2014/10/10 面试题
护理自荐信
2013/10/22 职场文书
统计学专业毕业生的自我评价分享
2013/11/28 职场文书
生日庆典策划方案
2014/06/02 职场文书
人力资源管理专业求职信
2014/07/23 职场文书
2014年幼儿园个人工作总结
2014/11/10 职场文书
2014年辅导员工作总结
2014/11/18 职场文书
2014年仓库管理员工作总结
2014/11/18 职场文书
工作表扬信
2015/01/17 职场文书
捐书活动倡议书
2015/04/27 职场文书
2015年学校减负工作总结
2015/05/19 职场文书
药品销售员2015年终工作总结
2015/10/22 职场文书