pandas统计重复值次数的方法实现


Posted in Python onFebruary 20, 2021

本文主要介绍了pandas统计重复值次数的方法实现,分享给大家,具体如下:

from pandas import DataFrame

df = DataFrame({'key1':['a','a','b','b','a','a'],
        'key2':['one','two','one','two','one','one'],
        'data1':[1,2,3,2,1,1],
        # 'data2':np.random.randn(5)
        })
# 打印数据框
print(df)
#  data1 key1 key2
# 0   1  a one
# 1   2  a two
# 2   3  b one
# 3   2  b two
# 4   1  a one
# 5   1  a one

# 重复项
print(df[df.duplicated()])
#  data1 key1 key2
# 4   1  a one
# 5   1  a one

# 统计重复值
dup=df[df.duplicated()].count()
print(dup) # 最后两项重复
# data1  2
# key1   2
# key2   2

# 去除重复项
nodup=df[-df.duplicated()]
print(nodup)
#  data1 key1 key2
# 0   1  a one
# 1   2  a two
# 2   3  b one
# 3   2  b two

pandas 中 dataframe 重复元素个数的获取

方法有二:

1. 在调用duplicated方法后,非重复的元素会被标记为False,而重复的元素会被标记为True

count = 0
for i in users_info['user_id'].duplicated():
  if i == True:
    count = count + 1
count

【注1】users_info为一个dataframe框,user_id为其中一列

【注2】duplicated( )方法只会把重复的元素标记为True,而不会标记被重复的元素

2.这行代码的速度更快,drop_duplicates(['user_id'])方法为删除user_id列中相同的元素

users_info.shape[0] - users_info.drop_duplicates(['user_id']).shape[0]

【注】shape[0] 为获取行数

到此这篇关于pandas统计重复值次数的方法实现的文章就介绍到这了,更多相关pandas统计重复值次数内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python 基础学习第二弹 类属性和实例属性
Aug 27 Python
Python 基础知识之字符串处理
Jan 06 Python
用python写个自动SSH登录远程服务器的小工具(实例)
Jun 17 Python
itchat接口使用示例
Oct 23 Python
python编程线性回归代码示例
Dec 07 Python
利用python如何在前程无忧高效投递简历
May 07 Python
Flask框架单例模式实现方法详解
Jul 31 Python
python os.fork() 循环输出方法
Aug 08 Python
python实现多进程按序号批量修改文件名的方法示例
Dec 30 Python
pyautogui自动化控制鼠标和键盘操作的步骤
Apr 01 Python
Jupyter加载文件的实现方法
Apr 14 Python
python3实现飞机大战
Nov 29 Python
pandas 按日期范围筛选数据的实现
Feb 20 #Python
基于Python-Pycharm实现的猴子摘桃小游戏(源代码)
Feb 20 #Python
pandas按条件筛选数据的实现
Feb 20 #Python
python实现b站直播自动发送弹幕功能
Feb 20 #Python
如何用 Python 制作 GitHub 消息助手
Feb 20 #Python
详解tf.device()指定tensorflow运行的GPU或CPU设备实现
Feb 20 #Python
Python 的 f-string 可以连接字符串与数字的原因解析
Feb 20 #Python
You might like
PHP中冒号、endif、endwhile、endfor使用介绍
2010/04/28 PHP
PHP页面实现定时跳转的方法
2014/10/31 PHP
使用phpQuery获取数组的实例
2017/03/13 PHP
php session_decode函数用法讲解
2019/05/26 PHP
dotopAlert 提示用户需安装播放器的代码
2012/09/17 Javascript
一个简单的jQuery计算器实现了连续计算功能
2014/07/21 Javascript
javascript实现微信分享
2014/12/23 Javascript
JavaScript匿名函数用法分析
2015/02/13 Javascript
JavaScript实现页面5秒后自动跳转的方法
2015/04/16 Javascript
js实现n秒倒计时后才可以点击的效果
2015/12/20 Javascript
关于JavaScript数组你所不知道的3件事
2016/08/24 Javascript
浅析JavaScript的几种Math函数,random(),ceil(),round(),floor()
2016/12/22 Javascript
浅谈Angular路由复用策略
2017/10/04 Javascript
js数组方法reduce经典用法代码分享
2018/01/07 Javascript
Vue2.0实现组件数据的双向绑定问题
2018/03/06 Javascript
web页面和微信小程序页面实现瀑布流效果
2018/09/26 Javascript
node中IO以及定时器优先级详解
2019/05/10 Javascript
小程序中手机号识别的示例
2020/12/14 Javascript
原生js 实现表单验证功能
2021/02/08 Javascript
Python+OpenCv制作证件图片生成器的操作方法
2019/08/21 Python
Pycharm最常用的快捷键及使用技巧
2020/03/05 Python
俄罗斯最大的消费电子连锁零售商:Mvideo
2017/06/25 全球购物
德国最新街头服饰网上商店:BODYCHECK
2019/09/15 全球购物
Currentbody德国站:健康与美容技术专家
2020/04/05 全球购物
J2EE系统只能是基于web
2015/09/08 面试题
幼儿园中班教师寄语
2014/04/03 职场文书
《飞向蓝天的恐龙》教学反思
2014/04/09 职场文书
知识竞赛拉拉队口号
2014/06/16 职场文书
小区门卫的岗位职责
2014/09/26 职场文书
光荣之路观后感
2015/06/12 职场文书
运动员加油词
2015/07/18 职场文书
运动会新闻报道稿
2015/07/22 职场文书
如何计划开一家便利店?
2019/07/31 职场文书
签证扫盲贴,41个常见签证知识,需要的拿走
2019/08/09 职场文书
导游词之苏州阳澄湖
2019/11/15 职场文书
美国运营商 T-Mobile 以 117.83Mb/s 的速度排第一位
2022/04/21 数码科技