pandas中的数据去重处理的实现方法


Posted in Python onFebruary 10, 2020

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行

参数: 
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'

  • first:标记重复,True除了第一次出现。
  • last:标记重复,True除了最后一次出现。
  • 错误:将所有重复项标记为True。
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]

# 使用duplicated 查看 重复值
# 参数 keep 可以标记重复值 {'first','last',False}
print(df['Seqno'].duplicated())
'''
0  False
1   True
2   True
3   True
4  False
Name: Seqno, dtype: bool
'''

# 删除 series 重复数据
print(df['Seqno'].drop_duplicates())
'''
0  0.0
4  1.0
Name: Seqno, dtype: float64
'''

# 删除 dataframe 重复数据
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
'''
  Price Seqno Symbol    time
0 1623.0  0.0  APPL 1473411962
4 1649.0  1.0  APPL 1473411963
'''
# drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
'''
  Price Seqno Symbol    time
3 1623.0  0.0  APPL 1473411963
4 1649.0  1.0  APPL 1473411963
'''

pandas 去除重复行

DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )

subset : 指定列,默认情况下使用所有列

keep : {'first','last',False},默认'first'

first :删除重复项保留第一次出现的。last :删除重复项保留最后一次出现的。false:删除所有重复项。

inplace : 布尔值,默认为False          是否删除重复项或返回副本

栗子:

pandas中的数据去重处理的实现方法

到此这篇关于pandas中的数据去重处理的实现方法的文章就介绍到这了,更多相关Pandas 数据去重内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
node.js获取参数的常用方法(总结)
May 29 Python
Ubuntu安装Jupyter Notebook教程
Oct 18 Python
python+numpy+matplotalib实现梯度下降法
Aug 31 Python
Python理解递归的方法总结
Jan 28 Python
Python3实现的回文数判断及罗马数字转整数算法示例
Mar 27 Python
PyQt5 窗口切换与自定义对话框的实例
Jun 20 Python
Django 路由控制的实现
Jul 17 Python
python爬虫 基于requests模块的get请求实现详解
Aug 20 Python
python 一篇文章搞懂装饰器所有用法(建议收藏)
Aug 23 Python
python 数据生成excel导出(xlwt,wlsxwrite)代码实例
Aug 23 Python
浅谈python的elementtree模块处理中文注意事项
Mar 06 Python
在 Python 中使用 MQTT的方法
Aug 18 Python
对tensorflow中cifar-10文档的Read操作详解
Feb 10 #Python
基于Tensorflow:CPU性能分析
Feb 10 #Python
python sorted函数原理解析及练习
Feb 10 #Python
python pprint模块中print()和pprint()两者的区别
Feb 10 #Python
python yield和Generator函数用法详解
Feb 10 #Python
Tensorflow 卷积的梯度反向传播过程
Feb 10 #Python
tensorflow 实现自定义梯度反向传播代码
Feb 10 #Python
You might like
PHP 图像尺寸调整代码
2010/05/26 PHP
PHP对文件夹递归执行chmod命令的方法
2015/06/19 PHP
PHP文件缓存smarty模板应用实例分析
2016/02/26 PHP
PHP strip_tags() 去字符串中的 HTML、XML 以及 PHP 标签的函数
2016/05/22 PHP
PHP书写格式详解(必看)
2016/05/23 PHP
thinkphp中的url跳转用法分析
2016/07/12 PHP
jquery 插件开发 extjs中的extend用法小结
2013/01/04 Javascript
AngularJS中处理多个promise的方式
2016/02/02 Javascript
jQuery ajax应用总结
2016/06/02 Javascript
BootStrap下拉框在firefox浏览器界面不友好的解决方案
2016/08/18 Javascript
分享一个原生的JavaScript拖动方法
2016/09/25 Javascript
jQuery插件开发发送短信倒计时功能代码
2017/05/09 jQuery
js弹性势能动画之抛物线运动实例详解
2017/07/27 Javascript
解决循环中setTimeout执行顺序的问题
2018/06/20 Javascript
微信小程序保存图片到相册权限设置
2020/04/09 Javascript
解决vue 使用setTimeout,离开当前路由setTimeout未销毁的问题
2020/07/21 Javascript
JavaScript实现下拉列表
2021/01/20 Javascript
python django集成cas验证系统
2014/07/14 Python
Python设置默认编码为utf8的方法
2016/07/01 Python
python 循环while和for in简单实例
2016/08/16 Python
python ansible服务及剧本编写
2017/12/29 Python
python unittest实现api自动化测试
2018/04/04 Python
浅谈Python的list中的选取范围
2018/11/12 Python
python 多线程串行和并行的实例
2019/02/22 Python
Python常用GUI框架原理解析汇总
2020/12/07 Python
HTML5 与 XHTML2
2008/10/17 HTML / CSS
美国汽车性能部件和赛车零件网站:Vivid Racing
2018/03/27 全球购物
Delphi软件工程师试题
2013/01/29 面试题
高中生校园生活自我评价
2013/09/19 职场文书
医学检验专业大学生求职信
2013/11/18 职场文书
建筑总经理岗位职责
2014/02/02 职场文书
金融管理专业毕业生求职信
2014/03/12 职场文书
2014年个人债务授权委托书范本
2014/09/22 职场文书
酒店辞职书怎么写
2015/02/26 职场文书
端午节寄语2015
2015/03/23 职场文书
2015年初三班主任工作总结
2015/05/21 职场文书