Python 数据的累加与统计的示例代码


Posted in Python onAugust 03, 2020

问题

你需要处理一个很大的数据集并需要计算数据总和或其他统计量。

解决方案

对于任何涉及到统计、时间序列以及其他相关技术的数据分析问题,都可以考虑使用 Pandas库 。

为了让你先体验下,下面是一个使用Pandas来分析芝加哥城市的 老鼠和啮齿类动物数据库 的例子。 在我写这篇文章的时候,这个数据库是一个拥有大概74,000行数据的CSV文件。

>>> import pandas

>>> # Read a CSV file, skipping last line
>>> rats = pandas.read_csv('rats.csv', skip_footer=1)
>>> rats
<class 'pandas.core.frame.DataFrame'>
Int64Index: 74055 entries, 0 to 74054
Data columns:
Creation Date 74055 non-null values
Status 74055 non-null values
Completion Date 72154 non-null values
Service Request Number 74055 non-null values
Type of Service Request 74055 non-null values
Number of Premises Baited 65804 non-null values
Number of Premises with Garbage 65600 non-null values
Number of Premises with Rats 65752 non-null values
Current Activity 66041 non-null values
Most Recent Action 66023 non-null values
Street Address 74055 non-null values
ZIP Code 73584 non-null values
X Coordinate 74043 non-null values
Y Coordinate 74043 non-null values
Ward 74044 non-null values
Police District 74044 non-null values
Community Area 74044 non-null values
Latitude 74043 non-null values
Longitude 74043 non-null values
Location 74043 non-null values
dtypes: float64(11), object(9)

>>> # Investigate range of values for a certain field
>>> rats['Current Activity'].unique()
array([nan, Dispatch Crew, Request Sanitation Inspector], dtype=object)
>>> # Filter the data
>>> crew_dispatched = rats[rats['Current Activity'] == 'Dispatch Crew']
>>> len(crew_dispatched)
65676
>>>

>>> # Find 10 most rat-infested ZIP codes in Chicago
>>> crew_dispatched['ZIP Code'].value_counts()[:10]
60647 3837
60618 3530
60614 3284
60629 3251
60636 2801
60657 2465
60641 2238
60609 2206
60651 2152
60632 2071
>>>

>>> # Group by completion date
>>> dates = crew_dispatched.groupby('Completion Date')
<pandas.core.groupby.DataFrameGroupBy object at 0x10d0a2a10>
>>> len(dates)
472
>>>

>>> # Determine counts on each day
>>> date_counts = dates.size()
>>> date_counts[0:10]
Completion Date
01/03/2011 4
01/03/2012 125
01/04/2011 54
01/04/2012 38
01/05/2011 78
01/05/2012 100
01/06/2011 100
01/06/2012 58
01/07/2011 1
01/09/2012 12
>>>

>>> # Sort the counts
>>> date_counts.sort()
>>> date_counts[-10:]
Completion Date
10/12/2012 313
10/21/2011 314
09/20/2011 316
10/26/2011 319
02/22/2011 325
10/26/2012 333
03/17/2011 336
10/13/2011 378
10/14/2011 391
10/07/2011 457
>>>

嗯,看样子2011年10月7日对老鼠们来说是个很忙碌的日子啊!^_^

讨论

Pandas是一个拥有很多特性的大型函数库,我在这里不可能介绍完。 但是只要你需要去分析大型数据集合、对数据分组、计算各种统计量或其他类似任务的话,这个函数库真的值得你去看一看。

以上就是Python 数据的累加与统计的方法的详细内容,更多关于Python 数据的累加与统计的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python之wxPython菜单使用详解
Sep 28 Python
Python中使用PIL库实现图片高斯模糊实例
Feb 08 Python
浅要分析Python程序与C程序的结合使用
Apr 07 Python
各种Python库安装包下载地址与安装过程详细介绍(Windows版)
Nov 02 Python
PyQt5每天必学之布局管理
Apr 19 Python
小白入门篇使用Python搭建点击率预估模型
Oct 12 Python
使用coverage统计python web项目代码覆盖率的方法详解
Aug 05 Python
Python操作redis和mongoDB的方法
Dec 19 Python
python 普通克里金(Kriging)法的实现
Dec 19 Python
python标准库os库的函数介绍
Feb 12 Python
详解PyQt5信号与槽的几种高级玩法
Mar 24 Python
基于Python第三方插件实现西游记章节标注汉语拼音的方法
May 22 Python
Python 爬虫性能相关总结
Aug 03 #Python
python接口自动化之ConfigParser配置文件的使用详解
Aug 03 #Python
Python 利用OpenCV给照片换底色的示例代码
Aug 03 #Python
Python3基于plotly模块保存图片表格
Aug 03 #Python
详解Python的爬虫框架 Scrapy
Aug 03 #Python
Python利用Faiss库实现ANN近邻搜索的方法详解
Aug 03 #Python
Python pexpect模块及shell脚本except原理解析
Aug 03 #Python
You might like
为什么那些咖啡爱好者大多看不上连锁咖啡店?
2021/03/06 咖啡文化
对盗链说再见...
2006/10/09 PHP
PHP开发需要注意的安全问题
2010/09/01 PHP
destoon调用企业会员公司形象图片的实现方法
2014/08/21 PHP
给ECShop添加最新评论
2015/01/07 PHP
phalcon model在插入或更新时会自动验证非空字段的解决办法
2016/12/29 PHP
php获取字符串前几位的实例(substr返回字符串的子串用法)
2017/03/08 PHP
PHP设计模式之模板方法模式定义与用法详解
2018/04/02 PHP
EXT中xtype的含义分析
2010/01/07 Javascript
UserData用法总结 lanyu出品
2010/07/01 Javascript
使用原生javascript创建通用表单验证——更锋利的使用dom对象
2011/09/13 Javascript
对setInterval在火狐和chrome切换标签产生奇怪的效果之探索,与解决方案!
2011/10/29 Javascript
JS对象转换为Jquery对象示例
2014/01/26 Javascript
javascript类型转换使用方法
2014/02/08 Javascript
JavaScript 数据类型详解
2017/03/13 Javascript
Webpack打包慢问题的完美解决方法
2017/03/16 Javascript
jQuery插件FusionCharts实现的3D帕累托图效果示例【附demo源码】
2017/03/25 jQuery
详解用vue.js和laravel实现微信支付
2017/06/23 Javascript
jQuery实现节点的追加、替换、删除、复制功能示例
2017/07/11 jQuery
jQuery动态移除与增加onclick属性的方法详解
2018/06/07 jQuery
优雅的将ElementUI表格变身成树形表格的方法步骤
2019/04/11 Javascript
Vue实现base64编码图片间的切换功能
2019/12/04 Javascript
Python 爬虫学习笔记之正则表达式
2016/09/21 Python
详解Python nose单元测试框架的安装与使用
2017/12/20 Python
Django Rest framework三种分页方式详解
2019/07/26 Python
Python drop方法删除列之inplace参数实例
2020/06/27 Python
Python工程师必考的6个经典面试题
2020/06/28 Python
JD Sports法国:英国篮球和运动时尚的领导者
2017/09/28 全球购物
Lululemon加拿大官网:加拿大知名体育服装零售商
2019/04/12 全球购物
Android笔试题总结
2014/11/29 面试题
自我鉴定思想方面
2013/10/07 职场文书
办理暂住证介绍信
2014/01/11 职场文书
银行批评与自我批评
2014/02/10 职场文书
教师师德师风整改措施
2014/10/24 职场文书
2014年公务员工作总结
2014/11/18 职场文书
高中英语教学反思范文
2016/03/02 职场文书