Pandas时间序列重采样(resample)方法中closed、label的作用详解


Posted in Python onDecember 10, 2019

Pandas提供了便捷的方式对时间序列进行重采样,根据时间粒度的变大或者变小分为降采样和升采样:

  • 降采样:时间粒度变大。例如,原来是按天统计的数据,现在变成按周统计。降采样会涉及到数据的聚合,比如天数据变成周数据,那么就得对一周的7天数据聚合,聚合的方式可以是求和,求均值等等。
  • 升采样:时间粒度变小。例如,原来是按周统计的数据,现在变成按天统计。升采样会涉及到数据的填充,根据填充的方法不同填充的数据也就不同。

下面涉及的例子,都需要导入numpy和pandas(如下),并且对于降采样数据的聚合做简单的求和处理。

import numpy as np
import pandas as pd

Pandas重采样方法resample

在Pandas里,通过resample来处理重采样,根据频率的不同(freq)会处理成降采样或者升采样。我们先来看看Resample的定义和关键参数注释:

resample(self, rule, how=None, axis=0, fill_method=None, closed=None, label=None, convention='start', kind=None, loffset=None, limit=None, base=0, on=None, level=None)
  Convenience method for frequency conversion and resampling of time
  series. Object must have a datetime-like index (DatetimeIndex,
  PeriodIndex, or TimedeltaIndex), or pass datetime-like values
  to the on or level keyword.
  
Parameters
----------
closed : {'right', 'left'}
    Which side of bin interval is closed. The default is ‘left' for all frequency offsets except for ‘M', ‘A', ‘Q', ‘BM', ‘BA', ‘BQ', and ‘W' which all have a default of ‘right'.
label : {'right', 'left'}
    Which bin edge label to label bucket with. The default is ‘left' for all frequency offsets except for ‘M', ‘A', ‘Q', ‘BM', ‘BA', ‘BQ', and ‘W' which all have a default of ‘right'.

第一眼看closed和label这两个参数,会感觉云里雾里,即使看了例子也可能会觉得莫名奇妙。下面我们通过具体的降采样和升采样例子,来解读一下这个两个参数内含的玄机。

降采样

首先先来创建一个时间序列,起始日期是2018/01/01,一共12天,每天对应的数值分别是1到12:

rng = pd.date_range('20180101', periods=12)
ts = pd.Series(np.arange(1,13), index=rng)

print(ts)

#### Outputs ####
2018-01-01   1
2018-01-02   2
2018-01-03   3
2018-01-04   4
2018-01-05   5
2018-01-06   6
2018-01-07   7
2018-01-08   8
2018-01-09   9
2018-01-10  10
2018-01-11  11
2018-01-12  12
Freq: D, dtype: int32

下面使用resample方法来做降采样处理,频率是5天,上面提到的两个参数,都使用默认值:

ts_5d = ts.resample('5D').sum()
print(ts_5d)

#### Outputs ####
2018-01-01  15
2018-01-06  40
2018-01-11  23
Freq: 5D, dtype: int32

到这里,我相信不论是代码还是代码的结果都很好理解:无非就是每5天来个求和。在第一部分中,我们列出了closed参数的注释,从注释可知,closed默认的值是'left'。那如果把closed的值改为'right',结果有是怎么样的?

ts_5d_rightclosed = ts.resample('5D', closed='right').sum()
print(ts_5d_rightclosed)

#### Outputs ####
2017-12-27   1
2018-01-01  20
2018-01-06  45
2018-01-11  12
Freq: 5D, dtype: int32

怎么会这样?为什么变成了四个区间?closed=right到底做了什么?

别着急,我们来一步一步看看,这其中发生了什么事情。原始的时间序列是从18年1月1号到1月12号,一共12天。以5天为单位降采样处理后,变成了三个5天,分别是:

  • 第一个5天:1-2-3-4-5-6
  • 第二个5天:6-7-8-9-10-11
  • 第三个5天:12-13-14-15-16

实际上,这三个5天就是三个区间了。和数学里区间的概念一样,区间有开和闭的概念。在resample中,区间的开和闭,就是通过closed这个参数来控制。用数学符号表示的话:

closed = 'left' 左闭右开

上面的三个5天可以由以下的三个左闭右开的区间构成:

  • 区间1:[1, 6)
  • 区间2: [6, 11)
  • 区间3:[11, 16) 例子中,时间只到12号为止,但是这里会往后补足5天

现在,在这三个区间上做数据聚合也就很好理解了。对于区间1进行求和,也就是12、13、14、15、16这5天的值求和即可。区间2和区间3也是同理。所以下面的代码就很好理解了:

ts_5d_leftclosed = ts.resample('5D', closed='right').sum()
print(ts_5d_leftclosed)

#### Outputs ####
2018-01-01  15
2018-01-06  40
2018-01-11  23
Freq: 5D, dtype: int32

closed = 'right' 左开右闭

上面的三个5天可以由以下的四个左开右闭的区间构成。注意,由于第一个5天是从1号到6号,但由于是左开区间,1号就落不到1到6号的那个区间,所以要往前补足:

  • 区间1:(27, 1]
  • 区间2:(1, 6]
  • 区间3: (6, 11]
  • 区间4:(11, 16]

现在,在这四个区间上做数据聚合也是一样的道理了:对于区间1,是对28,29,30,31,1这五天的值求和(这里只有1号是有值的),其余的区间也是同理,但需要注意是左开右闭。所以到这里,上面“莫名其妙”的代码和结果就好理解了。复制代码和结果如下:

ts_5d_rightclosed = ts.resample('5D', closed='right').sum()
print(ts_5d_rightclosed)

#### Outputs ####
2017-12-27   1
2018-01-01  20
2018-01-06  45
2018-01-11  12
Freq: 5D, dtype: int32

理解了clsoed的意义以后,再来理解label就so easy了。由注释可知,label的默认值是left。下面在closed='right'的基础上,将label设置为right:

ts_5d_rightclosed_rightlable = ts.resample('5D', closed='right', label='right').sum()
print(ts_5d_rightclosed_rightlable)

#### Outputs ####
2018-01-01   1
2018-01-06  20
2018-01-11  45
2018-01-16  12
Freq: 5D, dtype: int32

于label为left相比,二者结果的异同点如下:

  • 相同点:一样是四个区间,每个区间的聚合的值是一样的
  • 不同点:每个区间的索引不同

不难发现,label为left的时候,就以区间左边的那个日期作为索引;label,就以区间的右边那个日期作为索引。

综上,我们可以总结一下closed和label的用法和意义了:

  • closed:划分区间的依据,left会划成左闭右开区间;right会划分成左开右闭的区间。一般来说,closed为right的时候,区间会比为left的时候多一个。区间划分完毕,聚合运算就在这个区间内执行。
  • label:划分区间完毕,根据label的不同,区间的索引就不同。如果label为left,则区间左边的日期作为索引;如果label为right,则区间右边的日期作为索引。

升采样

创建一个时间序列,起始日期是2018/01/01,一共2天,每天对应的数值分别是1到2:

rng = pd.date_range('20180101', periods=2)
ts = pd.Series(np.arange(1,2), index=rng)

print(ts)

#### Outputs ####
2018-01-01  1
2018-01-02  2
Freq: D, dtype: int32

升采样就不涉及到closed和label的值,也就是会忽略(筒子们可以验证一下),所以我们在使用的时候无需设置这两个值。对于升采样,前面也提到,主要是涉及到值的填充。有下面的四种填充方法(实际是三种):

  • 不填充。那么对应无值的地方,用NaN代替。对应的方法是asfreq。
  • 用前值填充。用前面的值填充无值的地方。对应的方法是ffill或者pad。这里方便记忆,ffill的第一个f是代表forward,向前的意思
  • 用后值填充。对应的方法是bfill,b代表back。

下面是一个例子:

ts_6h_asfreq = ts.resample('6H').asfreq()
print(ts_6h_asfreq)

ts_6h_pad = ts.resample('6H').pad()
print(ts_6h_pad)

ts_6h_ffill = ts.resample('6H').ffill()
print(ts_6h_ffill)

ts_6h_bfill = ts.resample('6H').bfill()
print(ts_6h_bfill)

#### Outputs ####
2018-01-01 00:00:00  1.0
2018-01-01 06:00:00  NaN
2018-01-01 12:00:00  NaN
2018-01-01 18:00:00  NaN
2018-01-02 00:00:00  2.0
Freq: 6H, dtype: float64
2018-01-01 00:00:00  1
2018-01-01 06:00:00  1
2018-01-01 12:00:00  1
2018-01-01 18:00:00  1
2018-01-02 00:00:00  2
Freq: 6H, dtype: int32
2018-01-01 00:00:00  1
2018-01-01 06:00:00  1
2018-01-01 12:00:00  1
2018-01-01 18:00:00  1
2018-01-02 00:00:00  2
Freq: 6H, dtype: int32
2018-01-01 00:00:00  1
2018-01-01 06:00:00  2
2018-01-01 12:00:00  2
2018-01-01 18:00:00  2
2018-01-02 00:00:00  2
Freq: 6H, dtype: int32

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python 常用 PEP8 编码规范详解
Jan 22 Python
python中urllib.unquote乱码的原因与解决方法
Apr 24 Python
浅谈Python Opencv中gamma变换的使用详解
Apr 02 Python
Python3.6笔记之将程序运行结果输出到文件的方法
Apr 22 Python
flask中过滤器的使用详解
Aug 01 Python
python+splinter实现12306网站刷票并自动购票流程
Sep 25 Python
python pandas读取csv后,获取列标签的方法
Nov 12 Python
python实现dijkstra最短路由算法
Jan 17 Python
django实现模型字段动态choice的操作
Apr 01 Python
Python使用configparser读取ini配置文件
May 25 Python
Pycharm导入anaconda环境的教程图解
Jul 31 Python
Python必备技巧之函数的使用详解
Apr 04 Python
Python3的unicode编码转换成中文的问题及解决方案
Dec 10 #Python
用OpenCV将视频分解成单帧图片,图片合成视频示例
Dec 10 #Python
python3 webp转gif格式的实现示例
Dec 10 #Python
Spring Cloud Feign高级应用实例详解
Dec 10 #Python
flask 使用 flask_apscheduler 做定时循环任务的实现
Dec 10 #Python
使用opencv将视频帧转成图片输出
Dec 10 #Python
django框架cookie和session用法实例详解
Dec 10 #Python
You might like
Destoon旺旺无法正常显示,点击提示“会员名不存在”的解决办法
2014/06/21 PHP
php实现面包屑导航例子分享
2015/12/19 PHP
PHP5.2中PDO的简单使用方法
2016/03/25 PHP
PHP有序表查找之二分查找(折半查找)算法示例
2018/02/09 PHP
PHP正则表达式笔记与实例详解
2019/05/09 PHP
分享精心挑选的23款美轮美奂的jQuery 图片特效插件
2012/08/14 Javascript
node.js学习总结之调式代码的方法
2014/06/25 Javascript
DOM 高级编程
2015/05/06 Javascript
浅谈JavaScript中的对象及Promise对象的实现
2015/11/15 Javascript
js实现移动端微信页面禁止字体放大
2017/02/16 Javascript
nodejs入门教程五:连接数据库的方法分析
2017/04/24 NodeJs
Vue2.0 从零开始_环境搭建操作步骤
2017/06/14 Javascript
AngularJS动态绑定ng-options的ng-model实例代码
2017/06/21 Javascript
简单实现js拖拽效果
2017/07/25 Javascript
webpack4.x打包过程详解
2018/07/18 Javascript
详解vue路由篇(动态路由、路由嵌套)
2019/01/27 Javascript
微信小程序云开发之云函数详解
2019/05/16 Javascript
浅入深出Vue之组件使用
2019/07/11 Javascript
html-webpack-plugin修改页面的title的方法
2020/06/18 Javascript
vue使用keep-alive实现组件切换时保存原组件数据方法
2020/10/30 Javascript
python的tkinter布局之简单的聊天窗口实现方法
2014/09/03 Python
在Python的Bottle框架中使用微信API的示例
2015/04/23 Python
Python 利用内置set函数对字符串和列表进行去重的方法
2018/06/29 Python
python使用pandas处理大数据节省内存技巧(推荐)
2019/05/05 Python
Python使用APScheduler实现定时任务过程解析
2019/09/11 Python
关于python3.9安装wordcloud出错的问题及解决办法
2020/11/02 Python
利用三角函数在canvas上画虚线的方法
2018/01/11 HTML / CSS
SmartBuyGlasses意大利:购买太阳镜、眼镜和隐形眼镜
2018/11/20 全球购物
澳大利亚领先的在线药房:Pharmacy Online(有中文站)
2020/02/22 全球购物
PatPat香港:婴童服饰和亲子全家装在线购物
2020/09/27 全球购物
AJAX应用和传统Web应用有什么不同
2013/08/24 面试题
普师专业个人自荐信范文
2013/11/26 职场文书
名企HR怎样看待求职信
2014/02/23 职场文书
党的群众路线教育实践活动党员个人剖析材料
2014/10/08 职场文书
感恩教师主题班会
2015/08/12 职场文书
2016年国庆节宣传标语
2015/11/25 职场文书