Python 数据的累加与统计的示例代码


Posted in Python onAugust 03, 2020

问题

你需要处理一个很大的数据集并需要计算数据总和或其他统计量。

解决方案

对于任何涉及到统计、时间序列以及其他相关技术的数据分析问题,都可以考虑使用 Pandas库 。

为了让你先体验下,下面是一个使用Pandas来分析芝加哥城市的 老鼠和啮齿类动物数据库 的例子。 在我写这篇文章的时候,这个数据库是一个拥有大概74,000行数据的CSV文件。

>>> import pandas

>>> # Read a CSV file, skipping last line
>>> rats = pandas.read_csv('rats.csv', skip_footer=1)
>>> rats
<class 'pandas.core.frame.DataFrame'>
Int64Index: 74055 entries, 0 to 74054
Data columns:
Creation Date 74055 non-null values
Status 74055 non-null values
Completion Date 72154 non-null values
Service Request Number 74055 non-null values
Type of Service Request 74055 non-null values
Number of Premises Baited 65804 non-null values
Number of Premises with Garbage 65600 non-null values
Number of Premises with Rats 65752 non-null values
Current Activity 66041 non-null values
Most Recent Action 66023 non-null values
Street Address 74055 non-null values
ZIP Code 73584 non-null values
X Coordinate 74043 non-null values
Y Coordinate 74043 non-null values
Ward 74044 non-null values
Police District 74044 non-null values
Community Area 74044 non-null values
Latitude 74043 non-null values
Longitude 74043 non-null values
Location 74043 non-null values
dtypes: float64(11), object(9)

>>> # Investigate range of values for a certain field
>>> rats['Current Activity'].unique()
array([nan, Dispatch Crew, Request Sanitation Inspector], dtype=object)
>>> # Filter the data
>>> crew_dispatched = rats[rats['Current Activity'] == 'Dispatch Crew']
>>> len(crew_dispatched)
65676
>>>

>>> # Find 10 most rat-infested ZIP codes in Chicago
>>> crew_dispatched['ZIP Code'].value_counts()[:10]
60647 3837
60618 3530
60614 3284
60629 3251
60636 2801
60657 2465
60641 2238
60609 2206
60651 2152
60632 2071
>>>

>>> # Group by completion date
>>> dates = crew_dispatched.groupby('Completion Date')
<pandas.core.groupby.DataFrameGroupBy object at 0x10d0a2a10>
>>> len(dates)
472
>>>

>>> # Determine counts on each day
>>> date_counts = dates.size()
>>> date_counts[0:10]
Completion Date
01/03/2011 4
01/03/2012 125
01/04/2011 54
01/04/2012 38
01/05/2011 78
01/05/2012 100
01/06/2011 100
01/06/2012 58
01/07/2011 1
01/09/2012 12
>>>

>>> # Sort the counts
>>> date_counts.sort()
>>> date_counts[-10:]
Completion Date
10/12/2012 313
10/21/2011 314
09/20/2011 316
10/26/2011 319
02/22/2011 325
10/26/2012 333
03/17/2011 336
10/13/2011 378
10/14/2011 391
10/07/2011 457
>>>

嗯,看样子2011年10月7日对老鼠们来说是个很忙碌的日子啊!^_^

讨论

Pandas是一个拥有很多特性的大型函数库,我在这里不可能介绍完。 但是只要你需要去分析大型数据集合、对数据分组、计算各种统计量或其他类似任务的话,这个函数库真的值得你去看一看。

以上就是Python 数据的累加与统计的方法的详细内容,更多关于Python 数据的累加与统计的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python对数组进行反转的方法
May 20 Python
Python中将字典转换为XML以及相关的命名空间解析
Oct 15 Python
python中input()与raw_input()的区别分析
Feb 27 Python
Python unittest单元测试框架总结
Sep 08 Python
python生成带有表格的图片实例
Feb 03 Python
浅谈Python编程中3个常用的数据结构和算法
Apr 30 Python
python多项式拟合之np.polyfit 和 np.polyld详解
Feb 18 Python
通过实例了解Python异常处理机制底层实现
Jul 23 Python
Python filter过滤器原理及实例应用
Aug 18 Python
Python常用GUI框架原理解析汇总
Dec 07 Python
Django项目如何正确配置日志(logging)
Apr 29 Python
Python实现为PDF去除水印的示例代码
Apr 03 Python
Python 爬虫性能相关总结
Aug 03 #Python
python接口自动化之ConfigParser配置文件的使用详解
Aug 03 #Python
Python 利用OpenCV给照片换底色的示例代码
Aug 03 #Python
Python3基于plotly模块保存图片表格
Aug 03 #Python
详解Python的爬虫框架 Scrapy
Aug 03 #Python
Python利用Faiss库实现ANN近邻搜索的方法详解
Aug 03 #Python
Python pexpect模块及shell脚本except原理解析
Aug 03 #Python
You might like
用php+mysql一个名片库程序
2006/10/09 PHP
php join函数应用
2011/05/04 PHP
php shell超强免杀、减少体积工具实现代码
2012/10/16 PHP
php单态设计模式(单例模式)实例
2014/11/18 PHP
[原创]php获取数组中键值最大数组项的索引值
2015/03/17 PHP
使用xampp搭建运行php虚拟主机的详细步骤
2015/10/21 PHP
php+flash+jQuery多图片上传源码分享
2020/07/27 PHP
微信JSSDK分享功能图文实例详解
2019/04/08 PHP
PHP Pipeline 实现中间件的示例代码
2020/04/26 PHP
关于B/S判断浏览器断开的问题讨论
2008/10/29 Javascript
JS this作用域以及GET传输值过长的问题解决方法
2013/08/06 Javascript
javascript中style.left和offsetLeft的用法说明
2014/03/07 Javascript
JavaScript获取网页表单提交方式的方法
2015/04/02 Javascript
jQuery实现多级下拉菜单jDropMenu的方法
2015/08/28 Javascript
基于JavaScript实现购物车功能
2017/02/07 Javascript
Javascript中click与blur事件的顺序详析
2017/04/25 Javascript
Vue 拦截器对token过期处理方法
2018/01/23 Javascript
以v-model与promise两种方式实现vue弹窗组件
2018/05/21 Javascript
在vue中使用vue-echarts-v3的实例代码
2018/09/13 Javascript
vue-quill-editor富文本编辑器简单使用方法
2018/09/21 Javascript
JavaScript中如何对多维数组(矩阵)去重的实现
2019/12/04 Javascript
Python基于class()实现面向对象原理详解
2020/03/26 Python
python定义具名元组实例操作
2021/02/28 Python
Pytorch之扩充tensor的操作
2021/03/04 Python
浅析CSS3 中的 transition,transform,translate之间区别和作用
2020/03/26 HTML / CSS
美国照明、家居装饰和家具购物网站:Bellacor
2017/09/20 全球购物
软件设计的目标是什么
2016/12/04 面试题
同学会邀请书大全
2014/01/12 职场文书
法制宣传口号
2014/06/16 职场文书
12.4法制宣传日活动总结
2014/08/26 职场文书
女生抽烟检讨书
2014/10/05 职场文书
2014年爱国卫生工作总结
2014/11/22 职场文书
2015年大学元旦晚会活动策划书
2014/12/09 职场文书
2015社区健康教育工作总结
2015/05/20 职场文书
2016年基层党组织创先争优承诺书
2016/03/25 职场文书
Nginx搭建rtmp直播服务器实现代码
2021/03/31 Servers