Python 数据的累加与统计的示例代码


Posted in Python onAugust 03, 2020

问题

你需要处理一个很大的数据集并需要计算数据总和或其他统计量。

解决方案

对于任何涉及到统计、时间序列以及其他相关技术的数据分析问题,都可以考虑使用 Pandas库 。

为了让你先体验下,下面是一个使用Pandas来分析芝加哥城市的 老鼠和啮齿类动物数据库 的例子。 在我写这篇文章的时候,这个数据库是一个拥有大概74,000行数据的CSV文件。

>>> import pandas

>>> # Read a CSV file, skipping last line
>>> rats = pandas.read_csv('rats.csv', skip_footer=1)
>>> rats
<class 'pandas.core.frame.DataFrame'>
Int64Index: 74055 entries, 0 to 74054
Data columns:
Creation Date 74055 non-null values
Status 74055 non-null values
Completion Date 72154 non-null values
Service Request Number 74055 non-null values
Type of Service Request 74055 non-null values
Number of Premises Baited 65804 non-null values
Number of Premises with Garbage 65600 non-null values
Number of Premises with Rats 65752 non-null values
Current Activity 66041 non-null values
Most Recent Action 66023 non-null values
Street Address 74055 non-null values
ZIP Code 73584 non-null values
X Coordinate 74043 non-null values
Y Coordinate 74043 non-null values
Ward 74044 non-null values
Police District 74044 non-null values
Community Area 74044 non-null values
Latitude 74043 non-null values
Longitude 74043 non-null values
Location 74043 non-null values
dtypes: float64(11), object(9)

>>> # Investigate range of values for a certain field
>>> rats['Current Activity'].unique()
array([nan, Dispatch Crew, Request Sanitation Inspector], dtype=object)
>>> # Filter the data
>>> crew_dispatched = rats[rats['Current Activity'] == 'Dispatch Crew']
>>> len(crew_dispatched)
65676
>>>

>>> # Find 10 most rat-infested ZIP codes in Chicago
>>> crew_dispatched['ZIP Code'].value_counts()[:10]
60647 3837
60618 3530
60614 3284
60629 3251
60636 2801
60657 2465
60641 2238
60609 2206
60651 2152
60632 2071
>>>

>>> # Group by completion date
>>> dates = crew_dispatched.groupby('Completion Date')
<pandas.core.groupby.DataFrameGroupBy object at 0x10d0a2a10>
>>> len(dates)
472
>>>

>>> # Determine counts on each day
>>> date_counts = dates.size()
>>> date_counts[0:10]
Completion Date
01/03/2011 4
01/03/2012 125
01/04/2011 54
01/04/2012 38
01/05/2011 78
01/05/2012 100
01/06/2011 100
01/06/2012 58
01/07/2011 1
01/09/2012 12
>>>

>>> # Sort the counts
>>> date_counts.sort()
>>> date_counts[-10:]
Completion Date
10/12/2012 313
10/21/2011 314
09/20/2011 316
10/26/2011 319
02/22/2011 325
10/26/2012 333
03/17/2011 336
10/13/2011 378
10/14/2011 391
10/07/2011 457
>>>

嗯,看样子2011年10月7日对老鼠们来说是个很忙碌的日子啊!^_^

讨论

Pandas是一个拥有很多特性的大型函数库,我在这里不可能介绍完。 但是只要你需要去分析大型数据集合、对数据分组、计算各种统计量或其他类似任务的话,这个函数库真的值得你去看一看。

以上就是Python 数据的累加与统计的方法的详细内容,更多关于Python 数据的累加与统计的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python编写网页爬虫脚本并实现APScheduler调度
Jul 28 Python
Python中的类学习笔记
Sep 23 Python
极简的Python入门指引
Apr 01 Python
Python判断文件和文件夹是否存在的方法
May 21 Python
详解Python的Flask框架中的signals信号机制
Jun 13 Python
Flask框架的学习指南之开发环境搭建
Nov 20 Python
python爬虫爬取淘宝商品信息
Feb 23 Python
python和flask中返回JSON数据的方法
Mar 26 Python
Python 分享10个PyCharm技巧
Jul 13 Python
Python中url标签使用知识点总结
Jan 16 Python
Python读取excel文件中带公式的值的实现
Apr 17 Python
matplotlib之pyplot模块坐标轴标签设置使用(xlabel()、ylabel())
Feb 22 Python
Python 爬虫性能相关总结
Aug 03 #Python
python接口自动化之ConfigParser配置文件的使用详解
Aug 03 #Python
Python 利用OpenCV给照片换底色的示例代码
Aug 03 #Python
Python3基于plotly模块保存图片表格
Aug 03 #Python
详解Python的爬虫框架 Scrapy
Aug 03 #Python
Python利用Faiss库实现ANN近邻搜索的方法详解
Aug 03 #Python
Python pexpect模块及shell脚本except原理解析
Aug 03 #Python
You might like
php gd2 上传图片/文字水印/图片水印/等比例缩略图/实现代码
2010/05/15 PHP
php checkbox复选框值的获取与checkbox默认值输出方法
2010/05/15 PHP
PHP函数分享之curl方式取得数据、模拟登陆、POST数据
2014/06/04 PHP
PHP中PDO事务处理操作示例
2018/05/02 PHP
JQUERY THICKBOX弹出层插件
2008/08/30 Javascript
鼠标拖动实现DIV排序示例代码
2013/10/14 Javascript
javascript记录文本框内文字个数检测文字个数变化
2014/10/14 Javascript
Javascript 数组排序详解
2014/10/22 Javascript
jQuery+ajax实现无刷新级联菜单示例
2015/05/21 Javascript
jQuery超酷平面式时钟效果代码分享
2020/03/30 Javascript
详解 javascript中offsetleft属性的用法
2015/11/11 Javascript
jQuery针对input的class属性写了多个值情况下的选择方法
2016/06/03 Javascript
react-native 封装选择弹出框示例(试用ios&amp;android)
2017/07/11 Javascript
mui上拉加载更多下拉刷新数据的封装过程
2017/11/03 Javascript
webpack4.0打包优化策略整理小结
2018/03/30 Javascript
jQuery选择器选中最后一个元素,倒数第二个元素操作示例
2018/12/10 jQuery
layui添加动态菜单与选项卡
2019/07/26 Javascript
layer.prompt使文本框为空的情况下也能点击确定的方法
2019/09/24 Javascript
ES6 Generator基本使用方法示例
2020/06/06 Javascript
JavaScript交换变量常用4种方法解析
2020/09/02 Javascript
Python 性能优化技巧总结
2016/11/01 Python
python绘制地震散点图
2019/06/18 Python
详解基于python的多张不同宽高图片拼接成大图
2019/09/26 Python
Python内置数据类型list各方法的性能测试过程解析
2020/01/07 Python
python 基于卡方值分箱算法的实现示例
2020/07/17 Python
Python实现钉钉/企业微信自动打卡的示例代码
2021/02/02 Python
浅谈matplotlib默认字体设置探索
2021/02/03 Python
深入了解canvas在移动端绘制模糊的问题解决
2019/04/30 HTML / CSS
FC-Moto美国:欧洲最大的摩托车服装和头盔商店之一
2019/08/24 全球购物
英国时尚首饰品牌:Missoma
2020/06/29 全球购物
String、StringBuffer、StringBuilder有区别
2015/09/18 面试题
麦田里的守望者读书笔记
2015/06/30 职场文书
2016年寒假社会实践活动心得体会
2015/10/09 职场文书
mysql中DCL常用的用户和权限控制
2022/03/31 MySQL
详解Flutter网络请求Dio库的使用及封装
2022/04/14 Java/Android
vue实现省市区联动 element-china-area-data插件
2022/04/22 Vue.js