pandas中的数据去重处理的实现方法


Posted in Python onFebruary 10, 2020

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行

参数: 
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'

  • first:标记重复,True除了第一次出现。
  • last:标记重复,True除了最后一次出现。
  • 错误:将所有重复项标记为True。
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]

# 使用duplicated 查看 重复值
# 参数 keep 可以标记重复值 {'first','last',False}
print(df['Seqno'].duplicated())
'''
0  False
1   True
2   True
3   True
4  False
Name: Seqno, dtype: bool
'''

# 删除 series 重复数据
print(df['Seqno'].drop_duplicates())
'''
0  0.0
4  1.0
Name: Seqno, dtype: float64
'''

# 删除 dataframe 重复数据
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
'''
  Price Seqno Symbol    time
0 1623.0  0.0  APPL 1473411962
4 1649.0  1.0  APPL 1473411963
'''
# drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
'''
  Price Seqno Symbol    time
3 1623.0  0.0  APPL 1473411963
4 1649.0  1.0  APPL 1473411963
'''

pandas 去除重复行

DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )

subset : 指定列,默认情况下使用所有列

keep : {'first','last',False},默认'first'

first :删除重复项保留第一次出现的。last :删除重复项保留最后一次出现的。false:删除所有重复项。

inplace : 布尔值,默认为False          是否删除重复项或返回副本

栗子:

pandas中的数据去重处理的实现方法

到此这篇关于pandas中的数据去重处理的实现方法的文章就介绍到这了,更多相关Pandas 数据去重内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中使用第三方库xlutils来追加写入Excel文件示例
Apr 05 Python
Python中的高级函数map/reduce使用实例
Apr 13 Python
Python中列表和元组的使用方法和区别详解
Dec 30 Python
Python函数式编程
Jul 20 Python
Python实现的直接插入排序算法示例
Apr 29 Python
Python交互环境下实现输入代码
Jun 22 Python
Python3.5模块的定义、导入、优化操作图文详解
Apr 27 Python
Python使用到第三方库PyMuPDF图片与pdf相互转换
May 03 Python
Python PyCharm如何进行断点调试
Jul 05 Python
python的debug实用工具 pdb详解
Jul 12 Python
Python matplotlib绘制饼状图功能示例
Sep 10 Python
详解python播放音频的三种方法
Sep 23 Python
对tensorflow中cifar-10文档的Read操作详解
Feb 10 #Python
基于Tensorflow:CPU性能分析
Feb 10 #Python
python sorted函数原理解析及练习
Feb 10 #Python
python pprint模块中print()和pprint()两者的区别
Feb 10 #Python
python yield和Generator函数用法详解
Feb 10 #Python
Tensorflow 卷积的梯度反向传播过程
Feb 10 #Python
tensorflow 实现自定义梯度反向传播代码
Feb 10 #Python
You might like
php下使用以下代码连接并测试
2008/04/09 PHP
PHP mcrypt可逆加密算法分析
2011/07/19 PHP
使用PHP生成二维码的两种方法(带logo图像)
2014/03/14 PHP
PHP基于CURL进行POST数据上传实例
2014/11/10 PHP
php 5.6版本中编写一个PHP扩展的简单示例
2015/01/20 PHP
php实现在多维数组中查找特定value的方法
2015/07/29 PHP
详解PHP中的Traits
2015/07/29 PHP
PHP正则之正向预查与反向预查讲解与实例
2020/04/06 PHP
JS 动态获取节点代码innerHTML分析 [IE,FF]
2009/11/30 Javascript
基于jquery的多彩百分比 动态进度条 投票效果显示效果实现代码
2011/08/28 Javascript
js控制的遮罩层实例介绍
2013/05/29 Javascript
一个js过滤空格的小函数
2014/10/10 Javascript
chrome不支持form.submit的解决方案
2015/04/28 Javascript
JS+CSS实现仿雅虎另类滑动门切换效果
2015/10/13 Javascript
ajax跨域调用webservice的实现代码
2016/05/09 Javascript
JS实现的简单拖拽功能示例
2017/03/13 Javascript
JS复杂判断的更优雅写法代码详解
2018/11/07 Javascript
layui关闭层级、简单监听的实例
2019/09/06 Javascript
jQuery擦除插件eraser使用方法详解
2020/01/11 jQuery
Python tkinter模块弹出窗口及传值回到主窗口操作详解
2017/07/28 Python
浅谈python中字典append 到list 后值的改变问题
2018/05/04 Python
如何在python字符串中输入纯粹的{}
2018/08/22 Python
对python中字典keys,values,items的使用详解
2019/02/03 Python
python队列原理及实现方法示例
2019/11/27 Python
appium+python自动化配置(adk、jdk、node.js)
2020/11/17 Python
python爬取股票最新数据并用excel绘制树状图的示例
2021/03/01 Python
css3的transition效果和transfor效果示例介绍
2013/10/30 HTML / CSS
RUIFIER官网:英国奢侈高级珠宝品牌
2020/06/12 全球购物
NET程序员上机面试题
2015/05/23 面试题
数学专业毕业生自荐信
2013/11/10 职场文书
计算机求职信
2013/12/01 职场文书
个人向公司借款协议书
2014/10/09 职场文书
初中生毕业评语
2014/12/29 职场文书
2015年科学教研组工作总结
2015/07/22 职场文书
环境卫生标语
2015/08/03 职场文书
PC版《死亡搁浅导剪版》现已发售 展开全新的探险
2022/04/03 其他游戏