Python 数据的累加与统计的示例代码


Posted in Python onAugust 03, 2020

问题

你需要处理一个很大的数据集并需要计算数据总和或其他统计量。

解决方案

对于任何涉及到统计、时间序列以及其他相关技术的数据分析问题,都可以考虑使用 Pandas库 。

为了让你先体验下,下面是一个使用Pandas来分析芝加哥城市的 老鼠和啮齿类动物数据库 的例子。 在我写这篇文章的时候,这个数据库是一个拥有大概74,000行数据的CSV文件。

>>> import pandas

>>> # Read a CSV file, skipping last line
>>> rats = pandas.read_csv('rats.csv', skip_footer=1)
>>> rats
<class 'pandas.core.frame.DataFrame'>
Int64Index: 74055 entries, 0 to 74054
Data columns:
Creation Date 74055 non-null values
Status 74055 non-null values
Completion Date 72154 non-null values
Service Request Number 74055 non-null values
Type of Service Request 74055 non-null values
Number of Premises Baited 65804 non-null values
Number of Premises with Garbage 65600 non-null values
Number of Premises with Rats 65752 non-null values
Current Activity 66041 non-null values
Most Recent Action 66023 non-null values
Street Address 74055 non-null values
ZIP Code 73584 non-null values
X Coordinate 74043 non-null values
Y Coordinate 74043 non-null values
Ward 74044 non-null values
Police District 74044 non-null values
Community Area 74044 non-null values
Latitude 74043 non-null values
Longitude 74043 non-null values
Location 74043 non-null values
dtypes: float64(11), object(9)

>>> # Investigate range of values for a certain field
>>> rats['Current Activity'].unique()
array([nan, Dispatch Crew, Request Sanitation Inspector], dtype=object)
>>> # Filter the data
>>> crew_dispatched = rats[rats['Current Activity'] == 'Dispatch Crew']
>>> len(crew_dispatched)
65676
>>>

>>> # Find 10 most rat-infested ZIP codes in Chicago
>>> crew_dispatched['ZIP Code'].value_counts()[:10]
60647 3837
60618 3530
60614 3284
60629 3251
60636 2801
60657 2465
60641 2238
60609 2206
60651 2152
60632 2071
>>>

>>> # Group by completion date
>>> dates = crew_dispatched.groupby('Completion Date')
<pandas.core.groupby.DataFrameGroupBy object at 0x10d0a2a10>
>>> len(dates)
472
>>>

>>> # Determine counts on each day
>>> date_counts = dates.size()
>>> date_counts[0:10]
Completion Date
01/03/2011 4
01/03/2012 125
01/04/2011 54
01/04/2012 38
01/05/2011 78
01/05/2012 100
01/06/2011 100
01/06/2012 58
01/07/2011 1
01/09/2012 12
>>>

>>> # Sort the counts
>>> date_counts.sort()
>>> date_counts[-10:]
Completion Date
10/12/2012 313
10/21/2011 314
09/20/2011 316
10/26/2011 319
02/22/2011 325
10/26/2012 333
03/17/2011 336
10/13/2011 378
10/14/2011 391
10/07/2011 457
>>>

嗯,看样子2011年10月7日对老鼠们来说是个很忙碌的日子啊!^_^

讨论

Pandas是一个拥有很多特性的大型函数库,我在这里不可能介绍完。 但是只要你需要去分析大型数据集合、对数据分组、计算各种统计量或其他类似任务的话,这个函数库真的值得你去看一看。

以上就是Python 数据的累加与统计的方法的详细内容,更多关于Python 数据的累加与统计的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
跟老齐学Python之类的细节
Oct 13 Python
使用Python编写一个模仿CPU工作的程序
Apr 16 Python
Python下rrdtool模块的基本使用方法
Nov 13 Python
对Python 2.7 pandas 中的read_excel详解
May 04 Python
JavaScript中的模拟事件和自定义事件实例分析
Jul 27 Python
mac PyCharm添加Python解释器及添加package路径的方法
Oct 29 Python
用python3教你任意Html主内容提取功能
Nov 05 Python
pandas.DataFrame删除/选取含有特定数值的行或列实例
Nov 07 Python
Python根据成绩分析系统浅析
Feb 11 Python
python3 小数位的四舍五入(用两种方法解决round 遇5不进)
Apr 11 Python
浅谈python中频繁的print到底能浪费多长时间
Feb 21 Python
python3.7.3版本和django2.2.3版本是否可以兼容
Sep 01 Python
Python 爬虫性能相关总结
Aug 03 #Python
python接口自动化之ConfigParser配置文件的使用详解
Aug 03 #Python
Python 利用OpenCV给照片换底色的示例代码
Aug 03 #Python
Python3基于plotly模块保存图片表格
Aug 03 #Python
详解Python的爬虫框架 Scrapy
Aug 03 #Python
Python利用Faiss库实现ANN近邻搜索的方法详解
Aug 03 #Python
Python pexpect模块及shell脚本except原理解析
Aug 03 #Python
You might like
yii框架中的Url生产问题小结
2012/01/16 PHP
php验证手机号码
2015/11/11 PHP
php上传图片并压缩的实现方法
2015/12/22 PHP
PHP实现的统计数据功能详解
2016/12/06 PHP
PHP+原生态ajax实现的省市联动功能详解
2017/08/15 PHP
!DOCTYPE声明对JavaScript的影响分析
2010/04/12 Javascript
Nodejs学习笔记之Stream模块
2015/01/13 NodeJs
整理Javascript流程控制语句学习笔记
2015/11/29 Javascript
javascript实现label标签跳出循环操作
2016/03/06 Javascript
BootStrap 超链接变按钮的实现方法
2016/09/25 Javascript
jquery使用EasyUI Tree异步加载JSON数据(生成树)
2017/02/11 Javascript
bootstrap实现动态进度条效果
2017/03/08 Javascript
webstorm添加*.vue文件支持
2018/05/08 Javascript
vue权限路由实现的方法示例总结
2018/07/29 Javascript
js删除对象/数组中null、undefined、空对象及空数组方法示例
2018/11/14 Javascript
详解Ant Design of React的安装和使用方法
2018/12/27 Javascript
jQuery实现的记住帐号密码功能完整示例
2019/08/03 jQuery
vue 使用插槽分发内容操作示例【单个插槽、具名插槽、作用域插槽】
2020/03/06 Javascript
Python计算两个日期相差天数的方法示例
2017/05/23 Python
python实现数据预处理之填充缺失值的示例
2017/12/22 Python
Python实现的根据IP地址计算子网掩码位数功能示例
2018/05/23 Python
python实现彩票系统
2020/06/28 Python
python引入不同文件夹下的自定义模块方法
2018/10/27 Python
python3.4爬虫demo
2019/01/22 Python
python顺序执行多个py文件的方法
2019/06/29 Python
详解用python生成随机数的几种方法
2019/08/04 Python
Python 安装 virturalenv 虚拟环境的教程详解
2020/02/21 Python
Pycharm自动添加文件头注释和函数注释参数的方法
2020/10/23 Python
PyQt实现计数器的方法示例
2021/01/18 Python
单身旅行者的单身假期:Just You
2018/04/08 全球购物
正规的求职信范文分享
2013/12/11 职场文书
如何客观的进行自我评价
2013/12/17 职场文书
初中国旗下的演讲稿
2014/08/28 职场文书
2014年高中教师工作总结
2014/12/19 职场文书
利用Matlab绘制各类特殊图形的实例代码
2021/07/16 Python
基于Python实现将列表数据生成折线图
2022/03/23 Python