pandas中的数据去重处理的实现方法


Posted in Python onFebruary 10, 2020

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行

参数: 
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'

  • first:标记重复,True除了第一次出现。
  • last:标记重复,True除了最后一次出现。
  • 错误:将所有重复项标记为True。
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]

# 使用duplicated 查看 重复值
# 参数 keep 可以标记重复值 {'first','last',False}
print(df['Seqno'].duplicated())
'''
0  False
1   True
2   True
3   True
4  False
Name: Seqno, dtype: bool
'''

# 删除 series 重复数据
print(df['Seqno'].drop_duplicates())
'''
0  0.0
4  1.0
Name: Seqno, dtype: float64
'''

# 删除 dataframe 重复数据
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
'''
  Price Seqno Symbol    time
0 1623.0  0.0  APPL 1473411962
4 1649.0  1.0  APPL 1473411963
'''
# drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
'''
  Price Seqno Symbol    time
3 1623.0  0.0  APPL 1473411963
4 1649.0  1.0  APPL 1473411963
'''

pandas 去除重复行

DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )

subset : 指定列,默认情况下使用所有列

keep : {'first','last',False},默认'first'

first :删除重复项保留第一次出现的。last :删除重复项保留最后一次出现的。false:删除所有重复项。

inplace : 布尔值,默认为False          是否删除重复项或返回副本

栗子:

pandas中的数据去重处理的实现方法

到此这篇关于pandas中的数据去重处理的实现方法的文章就介绍到这了,更多相关Pandas 数据去重内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
压缩包密码破解示例分享(类似典破解)
Jan 17 Python
Python深入学习之上下文管理器
Aug 31 Python
详解Python验证码识别
Jan 25 Python
python 表达式和语句及for、while循环练习实例
Jul 07 Python
Python 实现12306登录功能实例代码
Feb 09 Python
Python实现全排列的打印
Aug 18 Python
Python利用字典破解WIFI密码的方法
Feb 27 Python
python画图--输出指定像素点的颜色值方法
Jul 03 Python
python读取Excel表格文件的方法
Sep 02 Python
python opencv根据颜色进行目标检测的方法示例
Jan 15 Python
Pytorch之Tensor和Numpy之间的转换的实现方法
Sep 03 Python
关于pycharm 切换 python3.9 报错 ‘HTMLParser‘ object has no attribute ‘unescape‘ 的问题
Nov 24 Python
对tensorflow中cifar-10文档的Read操作详解
Feb 10 #Python
基于Tensorflow:CPU性能分析
Feb 10 #Python
python sorted函数原理解析及练习
Feb 10 #Python
python pprint模块中print()和pprint()两者的区别
Feb 10 #Python
python yield和Generator函数用法详解
Feb 10 #Python
Tensorflow 卷积的梯度反向传播过程
Feb 10 #Python
tensorflow 实现自定义梯度反向传播代码
Feb 10 #Python
You might like
全新的PDO数据库操作类php版(仅适用Mysql)
2012/07/22 PHP
destoon后台网站设置变成空白的解决方法
2014/06/21 PHP
PHP中is_dir()函数使用指南
2015/05/08 PHP
CodeIgniter常用知识点小结
2016/05/26 PHP
php中的抽象方法和抽象类
2017/02/14 PHP
php生成毫秒时间戳的实例讲解
2017/09/22 PHP
PHP实现求两个字符串最长公共子串的方法示例
2017/11/17 PHP
PHP标准库(PHP SPL)详解
2019/03/16 PHP
Yii2框架控制器、路由、Url生成操作示例
2019/05/27 PHP
菜鸟javascript基础资料整理2
2010/12/06 Javascript
js图片预加载示例
2014/04/30 Javascript
javascript中定义类的方法汇总
2014/12/28 Javascript
JavaScript判断DIV内容是否为空的方法
2016/01/29 Javascript
AngularJs自定义服务之实现签名和加密
2016/08/02 Javascript
HTML页面,测试JS对C函数的调用简单实例
2016/08/09 Javascript
nodejs操作mysql实现增删改查的实例
2017/05/28 NodeJs
在vue中解决提示警告 for循环报错的方法
2018/09/28 Javascript
详解Vue项目中实现锚点定位
2019/04/24 Javascript
js判断一个对象是数组(函数)的方法实例
2019/12/19 Javascript
详解Python中内置的NotImplemented类型的用法
2015/03/31 Python
用Python创建声明性迷你语言的教程
2015/04/13 Python
CentOS 6.5下安装Python 3.5.2(与Python2并存)
2017/06/05 Python
利用scrapy将爬到的数据保存到mysql(防止重复)
2018/03/31 Python
Python系统监控模块psutil功能与经典用法分析
2018/05/24 Python
Python3如何在Windows和Linux上打包
2020/02/25 Python
使用PyQt的QLabel组件实现选定目标框功能的方法示例
2020/05/19 Python
基于Keras的格式化输出Loss实现方式
2020/06/17 Python
Ratchet 模态框的实现
2020/08/19 HTML / CSS
Tessabit日本:集世界奢侈品和设计师品牌的意大利精品买手店
2020/01/07 全球购物
Johnson Fitness澳大利亚:高级健身器材
2021/03/16 全球购物
小学教师岗位职责
2013/11/25 职场文书
大二学生职业生涯规划书
2014/02/05 职场文书
合同权益转让协议书模板
2014/11/18 职场文书
家长评语怎么写
2014/12/30 职场文书
2015年银行客户经理工作总结
2015/04/01 职场文书
Python字符串对齐方法使用(ljust()、rjust()和center())
2021/04/26 Python