Python 数据的累加与统计的示例代码


Posted in Python onAugust 03, 2020

问题

你需要处理一个很大的数据集并需要计算数据总和或其他统计量。

解决方案

对于任何涉及到统计、时间序列以及其他相关技术的数据分析问题,都可以考虑使用 Pandas库 。

为了让你先体验下,下面是一个使用Pandas来分析芝加哥城市的 老鼠和啮齿类动物数据库 的例子。 在我写这篇文章的时候,这个数据库是一个拥有大概74,000行数据的CSV文件。

>>> import pandas

>>> # Read a CSV file, skipping last line
>>> rats = pandas.read_csv('rats.csv', skip_footer=1)
>>> rats
<class 'pandas.core.frame.DataFrame'>
Int64Index: 74055 entries, 0 to 74054
Data columns:
Creation Date 74055 non-null values
Status 74055 non-null values
Completion Date 72154 non-null values
Service Request Number 74055 non-null values
Type of Service Request 74055 non-null values
Number of Premises Baited 65804 non-null values
Number of Premises with Garbage 65600 non-null values
Number of Premises with Rats 65752 non-null values
Current Activity 66041 non-null values
Most Recent Action 66023 non-null values
Street Address 74055 non-null values
ZIP Code 73584 non-null values
X Coordinate 74043 non-null values
Y Coordinate 74043 non-null values
Ward 74044 non-null values
Police District 74044 non-null values
Community Area 74044 non-null values
Latitude 74043 non-null values
Longitude 74043 non-null values
Location 74043 non-null values
dtypes: float64(11), object(9)

>>> # Investigate range of values for a certain field
>>> rats['Current Activity'].unique()
array([nan, Dispatch Crew, Request Sanitation Inspector], dtype=object)
>>> # Filter the data
>>> crew_dispatched = rats[rats['Current Activity'] == 'Dispatch Crew']
>>> len(crew_dispatched)
65676
>>>

>>> # Find 10 most rat-infested ZIP codes in Chicago
>>> crew_dispatched['ZIP Code'].value_counts()[:10]
60647 3837
60618 3530
60614 3284
60629 3251
60636 2801
60657 2465
60641 2238
60609 2206
60651 2152
60632 2071
>>>

>>> # Group by completion date
>>> dates = crew_dispatched.groupby('Completion Date')
<pandas.core.groupby.DataFrameGroupBy object at 0x10d0a2a10>
>>> len(dates)
472
>>>

>>> # Determine counts on each day
>>> date_counts = dates.size()
>>> date_counts[0:10]
Completion Date
01/03/2011 4
01/03/2012 125
01/04/2011 54
01/04/2012 38
01/05/2011 78
01/05/2012 100
01/06/2011 100
01/06/2012 58
01/07/2011 1
01/09/2012 12
>>>

>>> # Sort the counts
>>> date_counts.sort()
>>> date_counts[-10:]
Completion Date
10/12/2012 313
10/21/2011 314
09/20/2011 316
10/26/2011 319
02/22/2011 325
10/26/2012 333
03/17/2011 336
10/13/2011 378
10/14/2011 391
10/07/2011 457
>>>

嗯,看样子2011年10月7日对老鼠们来说是个很忙碌的日子啊!^_^

讨论

Pandas是一个拥有很多特性的大型函数库,我在这里不可能介绍完。 但是只要你需要去分析大型数据集合、对数据分组、计算各种统计量或其他类似任务的话,这个函数库真的值得你去看一看。

以上就是Python 数据的累加与统计的方法的详细内容,更多关于Python 数据的累加与统计的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python中的Numeric包和Numarray包使用教程
Apr 13 Python
在Python中使用next()方法操作文件的教程
May 24 Python
Python实现查找匹配项作处理后再替换回去的方法
Jun 10 Python
python根据unicode判断语言类型实例代码
Jan 17 Python
python opencv检测目标颜色的实例讲解
Apr 02 Python
python+opencv像素的加减和加权操作的实现
Jul 14 Python
Python人工智能之路 之PyAudio 实现录音 自动化交互实现问答
Aug 13 Python
在Python中等距取出一个数组其中n个数的实现方式
Nov 27 Python
如何在python开发工具PyCharm中搭建QtPy环境(教程详解)
Feb 04 Python
windows、linux下打包Python3程序详细方法
Mar 17 Python
详解Python yaml模块
Sep 23 Python
Python中异常处理用法
Nov 27 Python
Python 爬虫性能相关总结
Aug 03 #Python
python接口自动化之ConfigParser配置文件的使用详解
Aug 03 #Python
Python 利用OpenCV给照片换底色的示例代码
Aug 03 #Python
Python3基于plotly模块保存图片表格
Aug 03 #Python
详解Python的爬虫框架 Scrapy
Aug 03 #Python
Python利用Faiss库实现ANN近邻搜索的方法详解
Aug 03 #Python
Python pexpect模块及shell脚本except原理解析
Aug 03 #Python
You might like
Windows2003 下 MySQL 数据库每天自动备份
2006/12/21 PHP
PHP中的cookie不用刷新就生效的方法
2012/02/04 PHP
Yii核心组件AssetManager原理分析
2014/12/02 PHP
baidu博客的编辑友情链接的新的层窗口!经典~支持【FF】
2007/02/09 Javascript
jQuery点击弹出下拉菜单的小例子
2013/08/01 Javascript
JavaScript 学习笔记之操作符
2015/01/14 Javascript
JS设置网页图片vspace和hspace属性的方法
2015/04/01 Javascript
arguments对象验证函数的参数是否合法
2015/06/26 Javascript
Javascript中prototype的使用详解
2016/06/18 Javascript
JS通过调用微信API实现微信支付功能的方法示例
2017/06/29 Javascript
仿淘宝JSsearch搜索下拉深度用法
2018/01/15 Javascript
vue组件(全局,局部,动态加载组件)
2018/09/02 Javascript
JS监听滚动和id自动定位滚动
2018/12/18 Javascript
解决vue的touchStart事件及click事件冲突问题
2020/07/21 Javascript
Python中用max()方法求最大值的介绍
2015/05/15 Python
Python使用微信SDK实现的微信支付功能示例
2017/06/30 Python
TensorFlow实现Batch Normalization
2018/03/08 Python
详解Python中is和==的区别
2019/03/21 Python
python Kmeans算法原理深入解析
2019/08/23 Python
使用Python的datetime库处理时间(RPA流程)
2019/11/24 Python
Python中私有属性的定义方式
2020/03/05 Python
python Protobuf定义消息类型知识点讲解
2021/03/02 Python
一款纯css3实现的竖形二级导航的实例教程
2014/12/11 HTML / CSS
H5混合开发app如何升级的方法
2018/01/10 HTML / CSS
美国时装品牌:Nautica(诺帝卡)
2016/08/28 全球购物
夏威夷航空官网:Hawaiian Airlines
2016/09/11 全球购物
Zadig&Voltaire官网:法国时装品牌
2018/01/05 全球购物
H&M旗下高端女装品牌:& Other Stories
2018/05/07 全球购物
Ajax主要包含了哪些技术
2014/06/12 面试题
控制工程专业个人求职信
2013/09/25 职场文书
高中自我鉴定
2013/12/20 职场文书
大学生两会学习心得体会
2014/03/10 职场文书
安全生产目标责任书
2014/04/14 职场文书
党员个人公开承诺书
2014/08/29 职场文书
2014年办公室工作总结范文
2014/11/12 职场文书
幼儿园教师辞职信
2019/06/21 职场文书