pandas中的数据去重处理的实现方法


Posted in Python onFebruary 10, 2020

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行

参数: 
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'

  • first:标记重复,True除了第一次出现。
  • last:标记重复,True除了最后一次出现。
  • 错误:将所有重复项标记为True。
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]

# 使用duplicated 查看 重复值
# 参数 keep 可以标记重复值 {'first','last',False}
print(df['Seqno'].duplicated())
'''
0  False
1   True
2   True
3   True
4  False
Name: Seqno, dtype: bool
'''

# 删除 series 重复数据
print(df['Seqno'].drop_duplicates())
'''
0  0.0
4  1.0
Name: Seqno, dtype: float64
'''

# 删除 dataframe 重复数据
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
'''
  Price Seqno Symbol    time
0 1623.0  0.0  APPL 1473411962
4 1649.0  1.0  APPL 1473411963
'''
# drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
'''
  Price Seqno Symbol    time
3 1623.0  0.0  APPL 1473411963
4 1649.0  1.0  APPL 1473411963
'''

pandas 去除重复行

DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )

subset : 指定列,默认情况下使用所有列

keep : {'first','last',False},默认'first'

first :删除重复项保留第一次出现的。last :删除重复项保留最后一次出现的。false:删除所有重复项。

inplace : 布尔值,默认为False          是否删除重复项或返回副本

栗子:

pandas中的数据去重处理的实现方法

到此这篇关于pandas中的数据去重处理的实现方法的文章就介绍到这了,更多相关Pandas 数据去重内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中请使用isinstance()判断变量类型
Aug 25 Python
Python实现将DOC文档转换为PDF的方法
Jul 25 Python
老生常谈Python进阶之装饰器
May 11 Python
python实现图片文件批量重命名
Mar 23 Python
Python实现针对json中某个关键字段进行排序操作示例
Dec 25 Python
Python注释、分支结构、循环结构、伪“选择结构”用法实例分析
Jan 09 Python
用Python生成HTML表格的方法示例
Mar 06 Python
python如何实现读取并显示图片(不需要图形界面)
Jul 08 Python
Python pymsql模块的使用
Sep 07 Python
BeautifulSoup获取指定class样式的div的实现
Dec 07 Python
pandas map(),apply(),applymap()区别解析
Feb 24 Python
使用numpy实现矩阵的翻转(flip)与旋转
Jun 03 Python
对tensorflow中cifar-10文档的Read操作详解
Feb 10 #Python
基于Tensorflow:CPU性能分析
Feb 10 #Python
python sorted函数原理解析及练习
Feb 10 #Python
python pprint模块中print()和pprint()两者的区别
Feb 10 #Python
python yield和Generator函数用法详解
Feb 10 #Python
Tensorflow 卷积的梯度反向传播过程
Feb 10 #Python
tensorflow 实现自定义梯度反向传播代码
Feb 10 #Python
You might like
php4的session功能评述(一)
2006/10/09 PHP
PHP HTML代码串截取代码
2008/12/29 PHP
PHP中浮点数计算比较及取整不准确的解决方法
2015/01/09 PHP
Laravel 5框架学习之Blade 简介
2015/04/08 PHP
php 浮点数比较方法详解
2017/05/05 PHP
thinkPHP框架整合tcpdf插件操作示例
2018/08/07 PHP
PHP从尾到头打印链表实例讲解
2018/09/27 PHP
浅谈php调用python文件
2019/03/29 PHP
jQuery 行级解析读取XML文件(附源码)
2009/10/12 Javascript
php与js的区别是什么
2013/08/05 Javascript
调试JavaScript中正则表达式中遇到的问题
2015/01/27 Javascript
jQuery调用ajax请求的常见方法汇总
2015/03/24 Javascript
JavaScript DOM操作表格及样式
2015/04/13 Javascript
JavaScript运行过程中的“预编译阶段”和“执行阶段”
2015/12/16 Javascript
瀑布流的实现方式(原生js+jquery+css3)
2020/06/28 Javascript
ES2015 Symbol 一种绝不重复的值
2016/12/25 Javascript
Vue.js父与子组件之间传参示例
2017/02/28 Javascript
Vue2.x和Vue3.x的双向绑定原理详解
2020/11/05 Javascript
[59:59]EG vs IG 2018国际邀请赛小组赛BO2 第二场 8.16
2018/08/17 DOTA
利用python实现数据分析
2017/01/11 Python
Python中的单行、多行、中文注释方法
2018/07/19 Python
对python的bytes类型数据split分割切片方法
2018/12/04 Python
Python小进度条显示代码
2019/03/05 Python
在django-xadmin中APScheduler的启动初始化实例
2019/11/15 Python
Python图像处理库PIL的ImageEnhance模块使用介绍
2020/02/26 Python
python七种方法判断字符串是否包含子串
2020/08/18 Python
python 实现一个简单的线性回归案例
2020/12/17 Python
python uuid生成唯一id或str的最简单案例
2021/01/13 Python
canvas绘制树形结构可视图形的实现
2020/04/03 HTML / CSS
英国顶级水晶珠宝零售商之一:Tresor Paris
2019/04/27 全球购物
Linux管理员面试经常问道的相关命令
2013/04/29 面试题
基层党建工作宣传标语
2014/06/24 职场文书
四风问题个人对照检查材料
2014/09/26 职场文书
青岛导游词
2015/02/12 职场文书
Python编写可视化界面的全过程(Python+PyCharm+PyQt)
2021/05/17 Python
悬疑名作《朋友游戏》动画无字ED宣传片 新角色公开
2022/04/13 日漫