pandas中的数据去重处理的实现方法


Posted in Python onFebruary 10, 2020

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行

参数: 
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'

  • first:标记重复,True除了第一次出现。
  • last:标记重复,True除了最后一次出现。
  • 错误:将所有重复项标记为True。
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]

# 使用duplicated 查看 重复值
# 参数 keep 可以标记重复值 {'first','last',False}
print(df['Seqno'].duplicated())
'''
0  False
1   True
2   True
3   True
4  False
Name: Seqno, dtype: bool
'''

# 删除 series 重复数据
print(df['Seqno'].drop_duplicates())
'''
0  0.0
4  1.0
Name: Seqno, dtype: float64
'''

# 删除 dataframe 重复数据
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
'''
  Price Seqno Symbol    time
0 1623.0  0.0  APPL 1473411962
4 1649.0  1.0  APPL 1473411963
'''
# drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
'''
  Price Seqno Symbol    time
3 1623.0  0.0  APPL 1473411963
4 1649.0  1.0  APPL 1473411963
'''

pandas 去除重复行

DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )

subset : 指定列,默认情况下使用所有列

keep : {'first','last',False},默认'first'

first :删除重复项保留第一次出现的。last :删除重复项保留最后一次出现的。false:删除所有重复项。

inplace : 布尔值,默认为False          是否删除重复项或返回副本

栗子:

pandas中的数据去重处理的实现方法

到此这篇关于pandas中的数据去重处理的实现方法的文章就介绍到这了,更多相关Pandas 数据去重内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
haskell实现多线程服务器实例代码
Nov 26 Python
python协程用法实例分析
Jun 04 Python
Python随机生成带特殊字符的密码
Mar 02 Python
Python使用Srapy框架爬虫模拟登陆并抓取知乎内容
Jul 02 Python
python实现对excel进行数据剔除操作实例
Dec 07 Python
在IPython中执行Python程序文件的示例
Nov 01 Python
Python3实现汉语转换为汉语拼音
Jul 08 Python
详解Python是如何实现issubclass的
Jul 24 Python
Python树莓派学习笔记之UDP传输视频帧操作详解
Nov 15 Python
对tensorflow 中tile函数的使用详解
Feb 07 Python
python3实现raspberry pi(树莓派)4驱小车控制程序
Feb 12 Python
Python中使用subprocess库创建附加进程
May 11 Python
对tensorflow中cifar-10文档的Read操作详解
Feb 10 #Python
基于Tensorflow:CPU性能分析
Feb 10 #Python
python sorted函数原理解析及练习
Feb 10 #Python
python pprint模块中print()和pprint()两者的区别
Feb 10 #Python
python yield和Generator函数用法详解
Feb 10 #Python
Tensorflow 卷积的梯度反向传播过程
Feb 10 #Python
tensorflow 实现自定义梯度反向传播代码
Feb 10 #Python
You might like
在php中取得image按钮传递的name值
2006/10/09 PHP
php 无限级分类学习参考之对ecshop无限级分类的解析 带详细注释
2010/03/23 PHP
在WAMP环境下搭建ZendDebugger php调试工具的方法
2011/07/18 PHP
用C/C++扩展你的PHP 为你的php增加功能
2012/09/06 PHP
php面象对象数据库操作类实例
2014/12/02 PHP
PHP统计当前在线用户数实例讲解
2015/10/21 PHP
php采集神器cURL使用方法详解
2016/02/19 PHP
PHP+shell脚本操作Memcached和Apache Status的实例分享
2016/03/11 PHP
php微信开发之关注事件
2018/06/14 PHP
tp5框架前台无限极导航菜单类实现方法分析
2020/03/29 PHP
contains和compareDocumentPosition 方法来确定是否HTML节点间的关系
2011/09/13 Javascript
自己动手制作jquery插件之自动添加删除行的实现
2011/10/13 Javascript
再谈querySelector和querySelectorAll的区别与联系
2012/04/20 Javascript
用jquery统计子菜单的条数示例代码
2013/10/18 Javascript
js获取电脑分辨率的思路及操作
2013/11/22 Javascript
node.js中的fs.ftruncate方法使用说明
2014/12/15 Javascript
图文详解Heap Sort堆排序算法及JavaScript的代码实现
2016/05/04 Javascript
Javascript 制作图形验证码实例详解
2016/12/22 Javascript
Html5+jQuery+CSS制作相册小记录
2016/12/30 Javascript
JS简单实现动态添加HTML标记的方法示例
2018/04/08 Javascript
[02:38]2018年度DOTA2最佳劣单位选手-完美盛典
2018/12/17 DOTA
[38:32]完美世界DOTA2联赛循环赛 Forest vs DM 第二场 11.06
2020/11/06 DOTA
Python语言实现机器学习的K-近邻算法
2015/06/11 Python
用Python实现斐波那契(Fibonacci)函数
2016/03/25 Python
Python算术运算符实例详解
2017/05/31 Python
基于DataFrame筛选数据与loc的用法详解
2018/05/18 Python
Python爬虫之pandas基本安装与使用方法示例
2018/08/08 Python
python cv2.resize函数high和width注意事项说明
2020/07/05 Python
英文版区域经理求职信
2013/10/23 职场文书
招商经理岗位职责
2013/11/16 职场文书
实习生自我鉴定
2013/12/12 职场文书
餐饮管理自我介绍信
2014/01/15 职场文书
银行进社区活动总结
2014/07/07 职场文书
中职三好学生事迹材料
2014/08/24 职场文书
领导班子党的群众路线教育实践活动对照检查材料
2014/09/25 职场文书
端午节将至,用Python爬取粽子数据并可视化,看看网友喜欢哪种粽子吧!
2021/06/11 Python