编程 Python

利用Pandas和Numpy按时间戳将数据以Groupby方式分组

Posted in Python onJuly 22, 2019

首先说一下需求，我需要将数据以分钟为单位进行分组，然后每一分钟内的数据作为一行输出，因为不同时间的数据量不一样，所以所有数据按照最长的那组数据为准，不足的数据以各自的最后一个数据进行补足。

之后要介绍一下我的数据源，之前没用的数据列已经去除，我只留下要用到的数据data列和时间戳time列，时间戳是以秒计的，可以看到一共是407454行。

data     time
0    6522.50 1.530668e+09
1    6522.66 1.530668e+09
2    6523.79 1.530668e+09
3    6523.79 1.530668e+09
4    6524.82 1.530668e+09
5    6524.35 1.530668e+09
6    6523.66 1.530668e+09
7    6522.64 1.530668e+09
8    6523.25 1.530668e+09
9    6523.88 1.530668e+09
10   6525.30 1.530668e+09
11   6525.70 1.530668e+09
...     ...      ...
407443 6310.69 1.531302e+09
407444 6310.55 1.531302e+09
407445 6310.42 1.531302e+09
407446 6310.40 1.531302e+09
407447 6314.03 1.531302e+09
407448 6314.04 1.531302e+09
407449 6312.84 1.531302e+09
407450 6312.57 1.531302e+09
407451 6312.56 1.531302e+09
407452 6314.04 1.531302e+09
407453 6314.04 1.531302e+09
 
[407454 rows x 2 columns]

开始进行数据处理，定义一个函数，输入为一个DataFrame和时间列的命名。

def getdata_time(dataframe,name):
 dataframe[name] = dataframe[name]/60  #将时间转换为分钟
 dataframe[name] = dataframe[name].astype('int64')
 
 datalen = dataframe.groupby(name).count().max()   #获取数据最大长度
 
 timeframe = dataframe.groupby(name).count().reset_index()#为了获取时间将分组后时间转换为DataFrame
 timeseries = timeframe['time']    
 
 array = []   #建立一个空数组以便存值
 for time, group in dataframe.groupby(name): 
 
 tmparray = numpy.array(group['data']) #将series转换为数组并添加到总数组中
 array.append(tmparray)
 
 notimedata = pandas.DataFrame(array)
 notimedata = notimedata.fillna(method='ffill',axis = 1,limit=datalen[0]) #将缺失值补全
 notimedata[datalen[0]+1] = timeseries  #把时间添加到最后一列
 
 return notimedata

下面将逐行进行分析，首先要以每分钟为依据进行分组，那么将秒计的时间戳除以60变为分钟，转换为int型是为了观察方便（更改类型是否会导致数据精度缺失影响结果并不清楚，如果有了解的人看到欢迎指出，谢谢）。

datalen是我们要用到的每分钟中最大的数据长度，用来作为标齐依据。DataFrame.groupby.count()是分别显示每组数据的个数，并不是显示有多少个分组，如果想要获取分组后每一组的index就需要用到下一行的reset_index方法，之所以不直接用reset_index而是在count()方法后调用是因为groupby分组后的结果不是一个DataFrame，而经过count()（不仅仅是count，对分组数据操作的方法都可以，只要得出的结果是与每一组的index一一对应即可）操作后就可以得到一个以index为一列，另一列是count结果的DataFrame。以下为直接进行reset_index操作的报错：

AttributeError: Cannot access callable attribute 'reset_index' of 'DataFrameGroupBy' objects, try using the 'apply' method

以下为经过count操作后的reset_index方法显示结果，可以看到一共分为了10397组：

time data
0   25511135  33
1   25511136  18
2   25511137  25
3   25511138  42
4   25511139  36
5   25511140   7
6   25511141  61
7   25511142  45
8   25511143  46
9   25511144  19
10   25511145  21
...     ...  ...
10387 25521697   3
10388 25521698   9
10389 25521699  16
10390 25521700  13
10391 25521701   4
10392 25521702  34
10393 25521703  124
10394 25521704  302
10395 25521705  86
10396 25521706  52
 
[10397 rows x 2 columns]

提取的timeseries将在最后数据整合时使用。现在开始将每组数据提取，首先建立一个空的数组用来存放，然后利用for循环获取每一组的信息，time即为分组的index，group即为每一分组的内容，将数据从group['data']中取出并添加到之前建立的空数组里，循环操作过后转换为DataFrame，当然这个DataFrame中包含了大量缺失值，因为它的列数是以最长的数据为准。如下：

0    1    2    3   ...  1143 1144 1145 1146
0   6522.50 6522.66 6523.79 6523.79 ...  NaN  NaN  NaN  NaN
1   6523.95 6524.90 6525.00 6524.35 ...  NaN  NaN  NaN  NaN
2   6520.87 6520.00 6520.45 6520.46 ...  NaN  NaN  NaN  NaN
3   6516.34 6516.26 6516.21 6516.21 ...  NaN  NaN  NaN  NaN
4   6513.28 6514.00 6514.00 6514.00 ...  NaN  NaN  NaN  NaN
5   6511.98 6511.98 6511.99 6513.00 ...  NaN  NaN  NaN  NaN
6   6511.00 6511.00 6511.00 6511.00 ...  NaN  NaN  NaN  NaN
7   6511.70 6511.78 6511.99 6511.99 ...  NaN  NaN  NaN  NaN
8   6509.51 6510.00 6510.80 6510.80 ...  NaN  NaN  NaN  NaN
9   6511.36 6510.00 6510.00 6510.00 ...  NaN  NaN  NaN  NaN
10   6507.00 6507.00 6507.00 6507.00 ...  NaN  NaN  NaN  NaN
...    ...   ...   ...   ... ...  ...  ...  ...  ...
10386 6333.77 6331.31 6331.30 6333.19 ...  NaN  NaN  NaN  NaN
10387 6331.68 6331.30 6331.68   NaN ...  NaN  NaN  NaN  NaN
10388 6331.30 6331.30 6331.00 6331.00 ...  NaN  NaN  NaN  NaN
10389 6330.93 6330.92 6330.92 6330.93 ...  NaN  NaN  NaN  NaN
10390 6330.83 6330.83 6330.90 6330.80 ...  NaN  NaN  NaN  NaN
10391 6327.57 6326.00 6326.00 6325.74 ...  NaN  NaN  NaN  NaN
10392 6327.57 6329.70 6328.85 6328.85 ...  NaN  NaN  NaN  NaN
10393 6323.54 6323.15 6323.15 6322.77 ...  NaN  NaN  NaN  NaN
10394 6311.00 6310.83 6310.83 6310.50 ...  NaN  NaN  NaN  NaN
10395 6311.45 6311.32 6310.01 6310.01 ...  NaN  NaN  NaN  NaN
10396 6310.46 6310.46 6310.56 6311.61 ...  NaN  NaN  NaN  NaN
 
[10397 rows x 1147 columns]

可以看到行数是分组个数，一共1147列也是最多的那组数据长度。

之后我们通过调用fillna方法将缺失值进行填充，method='ffill'是指以缺失值前一个数据为依据,axis = 1是以行为单位,limit是指最大填充长度。最终，把我们之前取得的timeseries添加到最后一列，就得到了需求的最终结果。

0    1    2    ...    1145   1146   1148
0   6522.50 6522.66 6523.79  ...   6522.14 6522.14 25511135
1   6523.95 6524.90 6525.00  ...   6520.00 6520.00 25511136
2   6520.87 6520.00 6520.45  ...   6517.00 6517.00 25511137
3   6516.34 6516.26 6516.21  ...   6514.00 6514.00 25511138
4   6513.28 6514.00 6514.00  ...   6511.97 6511.97 25511139
5   6511.98 6511.98 6511.99  ...   6511.00 6511.00 25511140
6   6511.00 6511.00 6511.00  ...   6510.90 6510.90 25511141
7   6511.70 6511.78 6511.99  ...   6512.09 6512.09 25511142
8   6509.51 6510.00 6510.80  ...   6512.09 6512.09 25511143
9   6511.36 6510.00 6510.00  ...   6507.04 6507.04 25511144
10   6507.00 6507.00 6507.00  ...   6508.57 6508.57 25511145
11   6507.16 6507.74 6507.74  ...   6506.35 6506.35 25511146
...    ...   ...   ...  ...     ...   ...    ...
10388 6331.30 6331.30 6331.00  ...   6331.00 6331.00 25521698
10389 6330.93 6330.92 6330.92  ...   6330.99 6330.99 25521699
10390 6330.83 6330.83 6330.90  ...   6327.58 6327.58 25521700
10391 6327.57 6326.00 6326.00  ...   6325.74 6325.74 25521701
10392 6327.57 6329.70 6328.85  ...   6325.00 6325.00 25521702
10393 6323.54 6323.15 6323.15  ...   6311.00 6311.00 25521703
10394 6311.00 6310.83 6310.83  ...   6315.00 6315.00 25521704
10395 6311.45 6311.32 6310.01  ...   6310.00 6310.00 25521705
10396 6310.46 6310.46 6310.56  ...   6314.04 6314.04 25521706
 
[10397 rows x 1148 columns]

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

利用Pandas和Numpy按时间戳将数据以Groupby方式分组

- Author -

白首太玄经丶

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python使用reportlab画图示例（含中文汉字）

Dec 03 Python

python使用Queue在多个子进程间交换数据的方法

Apr 18 Python

python pandas 对series和dataframe的重置索引reindex方法

Jun 07 Python

浅谈python在提示符下使用open打开文件失败的原因及解决方法

Nov 30 Python

在SQLite-Python中实现返回、查询中文字段的方法

Jul 17 Python

详细介绍pandas的DataFrame的append方法使用

Jul 31 Python

Python使用import导入本地脚本及导入模块的技巧总结

Aug 07 Python

Tensorflow实现在训练好的模型上进行测试

Jan 20 Python

pytorch实现Tensor变量之间的转换

Feb 17 Python

java字符串格式化输出实例讲解

Jan 06 Python

python中的被动信息搜集

Apr 29 Python

python数据分析之单因素分析线性拟合及地理编码

Jun 25 Python

python+logging+yaml实现日志分割

Jul 22 #Python

python删除列表元素的三种方法(remove,pop,del)

Jul 22 #Python

python Gunicorn服务器使用方法详解

Jul 22 #Python

python实现按行分割文件

Jul 22 #Python

python UDP(udp)协议发送和接收的实例

Jul 22 #Python

linux环境下Django的安装配置详解

Jul 22 #Python

python判断一个对象是否可迭代的例子

Jul 22 #Python

You might like

php环境配置 php5 mysql5 apache2 phpmyadmin安装与配置

2006/11/17 PHP

怎么在Windows系统中搭建php环境

2013/08/31 PHP

PHP中使用GD库绘制折线图折线统计图的绘制方法

2015/11/09 PHP

PHP文字转图片功能原理与实现方法分析

2017/08/31 PHP

PHP微信企业号开发之回调模式开启与用法示例

2017/11/25 PHP

在laravel中使用with实现动态添加where条件

2019/10/10 PHP

JavaScript的类型简单说明

2010/09/03 Javascript

jQuery拖动div、移动div、弹出层实现原理及示例

2014/04/08 Javascript

JS实现超炫网页烟花动画效果的方法

2015/03/02 Javascript

JS递归遍历对象获得Value值方法技巧

2016/06/14 Javascript

基于javascript的Form表单验证

2016/12/29 Javascript

Vue 仿百度搜索功能实现代码

2017/02/16 Javascript

利用原生JS与jQuery实现数字线性变化的动画

2017/02/24 Javascript

基于bootstrap实现多个下拉框同时搜索功能

2017/07/19 Javascript

HTML5+JS+JQuery+ECharts实现异步加载问题

2017/12/16 jQuery

解决vue项目打包后提示图片文件路径错误的问题

2018/07/04 Javascript

原生js封装的ajax方法示例

2018/08/02 Javascript

JointJS流程图的绘制方法

2018/12/03 Javascript

浅析JavaScript异步代码优化

2019/03/18 Javascript

详解JS实现系统登录页的登录和验证

2019/04/29 Javascript

微信小程序中悬浮窗功能的实现代码

2019/08/02 Javascript

vue-cli3+typescript新建一个项目的思路分析

2019/08/06 Javascript

javascript浅层克隆、深度克隆对比及实例解析

2020/02/09 Javascript

Vue使用Three.js加载glTF模型的方法详解

2020/06/14 Javascript

Python标准库os.path包、glob包使用实例

2014/11/25 Python

在Python的Django框架中显示对象子集的方法

2015/07/21 Python

Python 类与元类的深度挖掘 II【经验】

2016/05/06 Python

Flask框架踩坑之ajax跨域请求实现

2019/02/22 Python

Python Web框架之Django框架Model基础详解

2019/08/16 Python

分享PyCharm的几个使用技巧

2019/11/10 Python

Python判断字符串是否为空和null方法实例

2020/04/26 Python

科颜氏英国官网：Kiehl’s英国

2019/11/20 全球购物

Windows和Linux动态库应用异同

2016/04/17 面试题

安全生产检查通报

2014/01/29 职场文书

《每逢佳节倍思亲》教后反思

2014/04/19 职场文书

党的群众路线教育实践方案

2014/05/11 职场文书