Python 数据的累加与统计的示例代码


Posted in Python onAugust 03, 2020

问题

你需要处理一个很大的数据集并需要计算数据总和或其他统计量。

解决方案

对于任何涉及到统计、时间序列以及其他相关技术的数据分析问题,都可以考虑使用 Pandas库 。

为了让你先体验下,下面是一个使用Pandas来分析芝加哥城市的 老鼠和啮齿类动物数据库 的例子。 在我写这篇文章的时候,这个数据库是一个拥有大概74,000行数据的CSV文件。

>>> import pandas

>>> # Read a CSV file, skipping last line
>>> rats = pandas.read_csv('rats.csv', skip_footer=1)
>>> rats
<class 'pandas.core.frame.DataFrame'>
Int64Index: 74055 entries, 0 to 74054
Data columns:
Creation Date 74055 non-null values
Status 74055 non-null values
Completion Date 72154 non-null values
Service Request Number 74055 non-null values
Type of Service Request 74055 non-null values
Number of Premises Baited 65804 non-null values
Number of Premises with Garbage 65600 non-null values
Number of Premises with Rats 65752 non-null values
Current Activity 66041 non-null values
Most Recent Action 66023 non-null values
Street Address 74055 non-null values
ZIP Code 73584 non-null values
X Coordinate 74043 non-null values
Y Coordinate 74043 non-null values
Ward 74044 non-null values
Police District 74044 non-null values
Community Area 74044 non-null values
Latitude 74043 non-null values
Longitude 74043 non-null values
Location 74043 non-null values
dtypes: float64(11), object(9)

>>> # Investigate range of values for a certain field
>>> rats['Current Activity'].unique()
array([nan, Dispatch Crew, Request Sanitation Inspector], dtype=object)
>>> # Filter the data
>>> crew_dispatched = rats[rats['Current Activity'] == 'Dispatch Crew']
>>> len(crew_dispatched)
65676
>>>

>>> # Find 10 most rat-infested ZIP codes in Chicago
>>> crew_dispatched['ZIP Code'].value_counts()[:10]
60647 3837
60618 3530
60614 3284
60629 3251
60636 2801
60657 2465
60641 2238
60609 2206
60651 2152
60632 2071
>>>

>>> # Group by completion date
>>> dates = crew_dispatched.groupby('Completion Date')
<pandas.core.groupby.DataFrameGroupBy object at 0x10d0a2a10>
>>> len(dates)
472
>>>

>>> # Determine counts on each day
>>> date_counts = dates.size()
>>> date_counts[0:10]
Completion Date
01/03/2011 4
01/03/2012 125
01/04/2011 54
01/04/2012 38
01/05/2011 78
01/05/2012 100
01/06/2011 100
01/06/2012 58
01/07/2011 1
01/09/2012 12
>>>

>>> # Sort the counts
>>> date_counts.sort()
>>> date_counts[-10:]
Completion Date
10/12/2012 313
10/21/2011 314
09/20/2011 316
10/26/2011 319
02/22/2011 325
10/26/2012 333
03/17/2011 336
10/13/2011 378
10/14/2011 391
10/07/2011 457
>>>

嗯,看样子2011年10月7日对老鼠们来说是个很忙碌的日子啊!^_^

讨论

Pandas是一个拥有很多特性的大型函数库,我在这里不可能介绍完。 但是只要你需要去分析大型数据集合、对数据分组、计算各种统计量或其他类似任务的话,这个函数库真的值得你去看一看。

以上就是Python 数据的累加与统计的方法的详细内容,更多关于Python 数据的累加与统计的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python将MongoDB里的ObjectId转换为时间戳的方法
Mar 13 Python
python实现的简单FTP上传下载文件实例
Jun 30 Python
简单谈谈python中的语句和语法
Aug 10 Python
Python实现的人工神经网络算法示例【基于反向传播算法】
Nov 11 Python
名片管理系统python版
Jan 11 Python
《与孩子一起学编程》python自测题
May 27 Python
浅谈python中真正关闭socket的方法
Dec 18 Python
matplotlib命令与格式之tick坐标轴日期格式(设置日期主副刻度)
Aug 06 Python
python datetime时间格式的相互转换问题
Jun 11 Python
python如何使用腾讯云发送短信
Sep 17 Python
matplotlib 使用 plt.savefig() 输出图片去除旁边的空白区域
Jan 05 Python
Python可变与不可变数据和深拷贝与浅拷贝
Apr 06 Python
Python 爬虫性能相关总结
Aug 03 #Python
python接口自动化之ConfigParser配置文件的使用详解
Aug 03 #Python
Python 利用OpenCV给照片换底色的示例代码
Aug 03 #Python
Python3基于plotly模块保存图片表格
Aug 03 #Python
详解Python的爬虫框架 Scrapy
Aug 03 #Python
Python利用Faiss库实现ANN近邻搜索的方法详解
Aug 03 #Python
Python pexpect模块及shell脚本except原理解析
Aug 03 #Python
You might like
使用 php4 加速 web 传输
2006/10/09 PHP
PHP Document 代码注释规范
2009/04/13 PHP
php错误、异常处理机制(补充)
2012/05/07 PHP
php array的学习笔记
2012/05/16 PHP
解析mysql left( right ) join使用on与where筛选的差异
2013/06/18 PHP
PHP error_log()将错误信息写入一个文件(定义和用法)
2013/10/25 PHP
PHP图片等比例缩放生成缩略图函数分享
2014/06/10 PHP
ThinkPHP中pathinfo的访问模式、路径访问模式及URL重写总结
2014/08/23 PHP
JS Timing
2007/04/21 Javascript
Javascript中的数学函数集合
2007/05/08 Javascript
jQuery的初始化与对象构建之浅析
2011/04/12 Javascript
40个有创意的jQuery图片、内容滑动及弹出插件收藏集之一
2011/12/31 Javascript
jQuery图片的展开和收缩实现代码
2013/04/16 Javascript
让checkbox不选中即将选中的checkbox不选中
2014/07/11 Javascript
javascript如何写热点图
2015/12/08 Javascript
JavaScript操作选择对象的简单实例
2016/05/16 Javascript
vue实现通讯录功能
2018/07/14 Javascript
使用JavaScript解析URL的方法示例
2019/03/01 Javascript
详解iframe跨域的几种常用方法(小结)
2019/04/29 Javascript
node.js express框架实现文件上传与下载功能实例详解
2019/10/15 Javascript
vue 使用post/get 下载导出文件操作
2020/08/07 Javascript
[27:28]Ti4 冒泡赛第二天 iG vs NEWBEE 1
2014/07/15 DOTA
使用Python来编写HTTP服务器的超级指南
2016/02/18 Python
Python实现屏幕截图的代码及函数详解
2016/10/01 Python
Pyqt5 实现跳转界面并关闭当前界面的方法
2019/06/19 Python
基于Python解密仿射密码
2019/10/21 Python
python构造函数init实例方法解析
2020/01/19 Python
详解CSS3中强大的filter(滤镜)属性
2017/06/29 HTML / CSS
全球知名的珠宝首饰品牌:Kay Jewelers
2018/02/11 全球购物
高中毕业自我鉴定范文
2013/10/02 职场文书
安全隐患整改报告
2014/11/06 职场文书
上课睡觉检讨书300字
2014/11/18 职场文书
2015年入党决心书
2015/02/05 职场文书
入党个人总结范文
2015/03/02 职场文书
多属性、多分类MySQL模式设计
2021/04/05 MySQL
javascript实现计算器功能详解流程
2021/11/01 Javascript