pandas去重复行并分类汇总的实现方法


Posted in Python onJanuary 29, 2019

今天主要记录一下pandas去重复行以及如何分类汇总。以下面的数据帧作为一个例子: 

import pandas as pd
data=pd.DataFrame({'产品':['A','A','A','A'],'数量':[50,50,30,30]})

pandas判断dataframe是否含有重复行数据用:df.duplicated()

pandas去重复行并分类汇总的实现方法

 第一次出现的数据为False.重复的数据行就被记录为True。

去掉重复行数据使用data.drop_duplicates().

pandas去重复行并分类汇总的实现方法

 可以看到索引乱了,我们使用data.reset_index(),里面的参数drop=True,表明要舍掉原来的索引,不然的话原来的索引会保留下来。

pandas去重复行并分类汇总的实现方法

 分类汇总主要使用groupby(表明汇总的条件列)以及agg(要汇总的字段/列以及汇总的方式:求和还是最大最小值或者计数)。完整代码如下图

# -*- coding: utf-8 -*-
"""
Created on Fri Jul 20 09:08:10 2018
@author: FanXiaoLei
"""
import pandas as pd
data=pd.DataFrame({'产品':['A','A','A','A'],'数量':[50,50,30,30]})
if data.duplicated:
  dataA=data.drop_duplicates().reset_index(drop=True)
print(dataA)
dataB=dataA.groupby(by='产品').agg({'数量':sum})
print('数据汇总结果:')
print(dataB)

结果展示如下图:

pandas去重复行并分类汇总的实现方法

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
web.py中调用文件夹内模板的方法
Aug 26 Python
Python实现的简单发送邮件脚本分享
Nov 07 Python
Python实现快速多线程ping的方法
Jul 15 Python
python学习笔记之调用eval函数出现invalid syntax错误问题
Oct 18 Python
Python的pycurl包用法简介
Nov 13 Python
Python3实现将本地JSON大数据文件写入MySQL数据库的方法
Jun 13 Python
python基于pdfminer库提取pdf文字代码实例
Aug 15 Python
Python3标准库glob文件名模式匹配的问题
Mar 13 Python
通过Python实现Payload分离免杀过程详解
Jul 13 Python
理解深度学习之深度学习简介
Apr 14 Python
python爬取豆瓣电影TOP250数据
May 23 Python
OpenCV 图像梯度的实现方法
Jul 25 Python
spark dataframe 将一列展开,把该列所有值都变成新列的方法
Jan 29 #Python
Python使用ctypes调用C/C++的方法
Jan 29 #Python
dataframe 按条件替换某一列中的值方法
Jan 29 #Python
Numpy之random函数使用学习
Jan 29 #Python
pandas DataFrame 删除重复的行的实现方法
Jan 29 #Python
使用Python向DataFrame中指定位置添加一列或多列的方法
Jan 29 #Python
Python Pexpect库的简单使用方法
Jan 29 #Python
You might like
一个颜色轮换的简单例子
2006/10/09 PHP
无JS,完全php面向过程数据分页实现代码
2012/08/27 PHP
PHP使用反射机制实现查找类和方法的所在位置
2016/04/22 PHP
javascript 密码强度验证规则、打分、验证(给出前端代码,后端代码可根据强度规则翻译)
2010/05/18 Javascript
js常用代码段整理
2011/11/30 Javascript
javascript重复绑定事件造成的后果说明
2013/03/02 Javascript
JS的数组迭代方法
2015/02/05 Javascript
jquery分页插件jquery.pagination.js实现无刷新分页
2016/04/01 Javascript
详解微信开发中snsapi_base和snsapi_userinfo及静默授权的实现
2017/03/11 Javascript
JavaScript实现移动端轮播效果
2017/06/06 Javascript
vue实现留言板todolist功能
2017/08/16 Javascript
jQuery实现checkbox即点即改批量删除及中间遇到的坑
2017/11/11 jQuery
jQuery pager.js 插件动态分页功能实例分析
2019/08/02 jQuery
微信小程序图片自适应实现解析
2020/01/21 Javascript
JavaScript 双向链表操作实例分析【创建、增加、查找、删除等】
2020/04/28 Javascript
在Vue中使用Echarts可视化库的完整步骤记录
2020/11/18 Vue.js
python自动化测试实例解析
2014/09/28 Python
web.py在SAE中的Session问题解决方法(使用mysql存储)
2015/06/24 Python
python实现自动重启本程序的方法
2015/07/09 Python
Python数据结构之单链表详解
2017/09/12 Python
python获取当前文件路径以及父文件路径的方法
2019/07/10 Python
利用Pandas和Numpy按时间戳将数据以Groupby方式分组
2019/07/22 Python
TensorFlow dataset.shuffle、batch、repeat的使用详解
2020/01/21 Python
Python实现病毒仿真器的方法示例(附demo)
2020/02/19 Python
Python实现一个简单的递归下降分析器
2020/08/01 Python
H5仿微信界面教程(一)
2017/07/05 HTML / CSS
整理HTML5移动端开发的常用触摸事件
2016/04/15 HTML / CSS
饿了么订餐官网:外卖、网上订餐
2019/06/28 全球购物
CK加拿大官网:Calvin Klein加拿大
2020/03/14 全球购物
2014自荐信的写作技巧
2014/01/28 职场文书
四风问题党员个人整改措施
2014/10/27 职场文书
2014年信访维稳工作总结
2014/12/08 职场文书
2015年家长学校工作总结
2015/04/22 职场文书
结婚十年感言
2015/07/31 职场文书
新年祝酒词大全
2015/08/11 职场文书
豆瓣2021评分最高动画剧集-豆瓣评分最高的动画剧集2021
2022/03/18 日漫