编程 Python

pandas中的数据去重处理的实现方法

Posted in Python onFebruary 10, 2020

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated（subset = None，keep =‘first' ）返回boolean Series表示重复行

参数：
subset：列标签或标签序列，可选
仅考虑用于标识重复项的某些列，默认情况下使用所有列
keep：{‘first'，‘last'，False}，默认'first'

first：标记重复，True除了第一次出现。
last：标记重复，True除了最后一次出现。
错误：将所有重复项标记为True。

import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]

# 使用duplicated 查看 重复值
# 参数 keep 可以标记重复值 {'first'，'last'，False}
print(df['Seqno'].duplicated())
'''
0  False
1   True
2   True
3   True
4  False
Name: Seqno, dtype: bool
'''

# 删除 series 重复数据
print(df['Seqno'].drop_duplicates())
'''
0  0.0
4  1.0
Name: Seqno, dtype: float64
'''

# 删除 dataframe 重复数据
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
'''
  Price Seqno Symbol    time
0 1623.0  0.0  APPL 1473411962
4 1649.0  1.0  APPL 1473411963
'''
# drop_dujplicates() 第二个参数 keep 包含的值 有： first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
'''
  Price Seqno Symbol    time
3 1623.0  0.0  APPL 1473411963
4 1649.0  1.0  APPL 1473411963
'''

pandas 去除重复行

DataFrame.drop_duplicates（subset = None，keep ='first'，inplace = False ）

subset ：指定列，默认情况下使用所有列

keep ： {'first'，'last'，False}，默认'first'

first ：删除重复项保留第一次出现的。last ：删除重复项保留最后一次出现的。false：删除所有重复项。

inplace ：布尔值，默认为False 是否删除重复项或返回副本

栗子：

pandas中的数据去重处理的实现方法

到此这篇关于pandas中的数据去重处理的实现方法的文章就介绍到这了,更多相关Pandas 数据去重内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

pandas中的数据去重处理的实现方法

- Author -

我是小蚂蚁

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python中使用第三方库xlutils来追加写入Excel文件示例

Apr 05 Python

Python中的高级函数map/reduce使用实例

Apr 13 Python

Python中列表和元组的使用方法和区别详解

Dec 30 Python

Python函数式编程

Jul 20 Python

Python实现的直接插入排序算法示例

Apr 29 Python

Python交互环境下实现输入代码

Jun 22 Python

Python3.5模块的定义、导入、优化操作图文详解

Apr 27 Python

Python使用到第三方库PyMuPDF图片与pdf相互转换

May 03 Python

Python PyCharm如何进行断点调试

Jul 05 Python

python的debug实用工具 pdb详解

Jul 12 Python

Python matplotlib绘制饼状图功能示例

Sep 10 Python

详解python播放音频的三种方法

Sep 23 Python

对tensorflow中cifar-10文档的Read操作详解

Feb 10 #Python

基于Tensorflow:CPU性能分析

Feb 10 #Python

python sorted函数原理解析及练习

Feb 10 #Python

python pprint模块中print()和pprint()两者的区别

Feb 10 #Python

python yield和Generator函数用法详解

Feb 10 #Python

Tensorflow 卷积的梯度反向传播过程

Feb 10 #Python

tensorflow 实现自定义梯度反向传播代码

Feb 10 #Python

You might like

php下使用以下代码连接并测试

2008/04/09 PHP

PHP mcrypt可逆加密算法分析

2011/07/19 PHP

使用PHP生成二维码的两种方法(带logo图像)

2014/03/14 PHP

PHP基于CURL进行POST数据上传实例

2014/11/10 PHP

php 5.6版本中编写一个PHP扩展的简单示例

2015/01/20 PHP

php实现在多维数组中查找特定value的方法

2015/07/29 PHP

详解PHP中的Traits

2015/07/29 PHP

PHP正则之正向预查与反向预查讲解与实例

2020/04/06 PHP

JS 动态获取节点代码innerHTML分析 [IE,FF]

2009/11/30 Javascript

基于jquery的多彩百分比动态进度条投票效果显示效果实现代码

2011/08/28 Javascript

js控制的遮罩层实例介绍

2013/05/29 Javascript

一个js过滤空格的小函数

2014/10/10 Javascript

chrome不支持form.submit的解决方案

2015/04/28 Javascript

JS+CSS实现仿雅虎另类滑动门切换效果

2015/10/13 Javascript

ajax跨域调用webservice的实现代码

2016/05/09 Javascript

JS实现的简单拖拽功能示例

2017/03/13 Javascript

JS复杂判断的更优雅写法代码详解

2018/11/07 Javascript

layui关闭层级、简单监听的实例

2019/09/06 Javascript

jQuery擦除插件eraser使用方法详解

2020/01/11 jQuery

Python tkinter模块弹出窗口及传值回到主窗口操作详解

2017/07/28 Python

浅谈python中字典append 到list 后值的改变问题

2018/05/04 Python

如何在python字符串中输入纯粹的{}

2018/08/22 Python

对python中字典keys,values,items的使用详解

2019/02/03 Python

python队列原理及实现方法示例

2019/11/27 Python

appium+python自动化配置(adk、jdk、node.js)

2020/11/17 Python

python爬取股票最新数据并用excel绘制树状图的示例

2021/03/01 Python

css3的transition效果和transfor效果示例介绍

2013/10/30 HTML / CSS

RUIFIER官网：英国奢侈高级珠宝品牌

2020/06/12 全球购物

NET程序员上机面试题

2015/05/23 面试题

数学专业毕业生自荐信

2013/11/10 职场文书

计算机求职信

2013/12/01 职场文书

个人向公司借款协议书

2014/10/09 职场文书

初中生毕业评语

2014/12/29 职场文书

2015年科学教研组工作总结

2015/07/22 职场文书

环境卫生标语

2015/08/03 职场文书

PC版《死亡搁浅导剪版》现已发售展开全新的探险

2022/04/03 其他游戏