pandas中的数据去重处理的实现方法


Posted in Python onFebruary 10, 2020

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行

参数: 
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'

  • first:标记重复,True除了第一次出现。
  • last:标记重复,True除了最后一次出现。
  • 错误:将所有重复项标记为True。
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]

# 使用duplicated 查看 重复值
# 参数 keep 可以标记重复值 {'first','last',False}
print(df['Seqno'].duplicated())
'''
0  False
1   True
2   True
3   True
4  False
Name: Seqno, dtype: bool
'''

# 删除 series 重复数据
print(df['Seqno'].drop_duplicates())
'''
0  0.0
4  1.0
Name: Seqno, dtype: float64
'''

# 删除 dataframe 重复数据
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
'''
  Price Seqno Symbol    time
0 1623.0  0.0  APPL 1473411962
4 1649.0  1.0  APPL 1473411963
'''
# drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
'''
  Price Seqno Symbol    time
3 1623.0  0.0  APPL 1473411963
4 1649.0  1.0  APPL 1473411963
'''

pandas 去除重复行

DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )

subset : 指定列,默认情况下使用所有列

keep : {'first','last',False},默认'first'

first :删除重复项保留第一次出现的。last :删除重复项保留最后一次出现的。false:删除所有重复项。

inplace : 布尔值,默认为False          是否删除重复项或返回副本

栗子:

pandas中的数据去重处理的实现方法

到此这篇关于pandas中的数据去重处理的实现方法的文章就介绍到这了,更多相关Pandas 数据去重内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
使用Nginx+uWsgi实现Python的Django框架站点动静分离
Mar 21 Python
mysql 之通过配置文件链接数据库
Aug 12 Python
python遍历序列enumerate函数浅析
Oct 17 Python
CentOS7.3编译安装Python3.6.2的方法
Jan 22 Python
深入分析python数据挖掘 Json结构分析
Apr 21 Python
浅谈Python批处理文件夹中的txt文件
Mar 11 Python
python 机器学习之支持向量机非线性回归SVR模型
Jun 26 Python
python循环输出三角形图案的例子
Nov 22 Python
Python浮点型(float)运算结果不正确的解决方案
Sep 22 Python
Python实现简单猜数字游戏
Feb 03 Python
python单例模式的应用场景实例讲解
Feb 24 Python
matplotlib之pyplot模块实现添加子图subplot的使用
Apr 25 Python
对tensorflow中cifar-10文档的Read操作详解
Feb 10 #Python
基于Tensorflow:CPU性能分析
Feb 10 #Python
python sorted函数原理解析及练习
Feb 10 #Python
python pprint模块中print()和pprint()两者的区别
Feb 10 #Python
python yield和Generator函数用法详解
Feb 10 #Python
Tensorflow 卷积的梯度反向传播过程
Feb 10 #Python
tensorflow 实现自定义梯度反向传播代码
Feb 10 #Python
You might like
PHP+AJAX实现无刷新注册(带用户名实时检测)
2006/12/02 PHP
PHP备份/还原MySQL数据库的代码
2011/01/06 PHP
使用 PHPMAILER 发送邮件实例应用
2012/11/07 PHP
功能强大的PHP发邮件类
2016/08/29 PHP
PHP中的函数声明与使用详解
2017/05/27 PHP
基于jQuery的js分页代码
2010/06/10 Javascript
用js来解决ajax读取页面乱码
2010/11/28 Javascript
JS模块与命名空间的介绍
2013/03/22 Javascript
JavaScript通过字符串调用函数的实现方法
2015/03/18 Javascript
基于jQuery的Web上传插件Uploadify使用示例
2016/05/19 Javascript
bootstrap中的 form表单属性role="form"的作用详解
2017/01/20 Javascript
JS闭包用法实例分析
2017/03/27 Javascript
详解Javascript获取缓存和清除缓存API
2017/05/25 Javascript
Vue自定义指令使用方法详解
2017/08/21 Javascript
vue实现前进刷新后退不刷新效果
2018/01/26 Javascript
jQuery实现的回车触发按钮事件功能示例
2018/03/25 jQuery
jQuery获取随机颜色的实例代码
2018/05/21 jQuery
[01:10:03]OG vs EG 2018国际邀请赛淘汰赛BO3 第三场 8.23
2018/08/24 DOTA
将图片文件嵌入到wxpython代码中的实现方法
2014/08/11 Python
python使用datetime模块计算各种时间间隔的方法
2015/03/24 Python
Python 爬虫的工具列表大全
2016/01/31 Python
python动态加载包的方法小结
2016/04/18 Python
python下调用pytesseract识别某网站验证码的实现方法
2016/06/06 Python
使用批处理脚本自动生成并上传NuGet包(操作方法)
2019/11/19 Python
python用tkinter实现一个gui的翻译工具
2020/10/26 Python
利用纯CSS3实现动态的自行车特效源码
2017/01/20 HTML / CSS
CSS3 实现的火焰动画
2020/12/07 HTML / CSS
html5生成柱状图(条形图)效果的实例代码
2016/03/25 HTML / CSS
兰芝美国网上商城:购买LANEIGE睡眠面膜等
2017/06/30 全球购物
大学生自荐信
2013/12/11 职场文书
助学贷款贫困证明
2014/09/23 职场文书
2014年教育教学工作总结
2014/11/13 职场文书
2015建军节87周年演讲稿
2015/03/19 职场文书
pandas 实现将NaN转换为None
2021/05/14 Python
MySQL系列之七 MySQL存储引擎
2021/07/02 MySQL
Python+OpenCV实现图片中的圆形检测
2022/04/07 Python