编程 Python

Pandas —— resample()重采样和asfreq()频度转换方式

Posted in Python onFebruary 26, 2020

resample()

resample()进行重采样。

重采样（Resampling）指的是把时间序列的频度变为另一个频度的过程。把高频度的数据变为低频度叫做降采样（downsampling），把低频度变为高频度叫做增采样（upsampling）。

降采样

考虑因素：

各区间哪边是闭合的（参数：closed）

如何标记各聚合面元，用区间的开头还是末尾（参数：label）

In [232]: ts_index = pd.date_range('2018-08-03',periods =12,freq = 'T')

In [233]: ts = pd.Series(np.arange(12),index = ts_index)

In [234]: ts
Out[234]:
2018-08-03 00:00:00  0
2018-08-03 00:01:00  1
2018-08-03 00:02:00  2
2018-08-03 00:03:00  3
2018-08-03 00:04:00  4
2018-08-03 00:05:00  5
2018-08-03 00:06:00  6
2018-08-03 00:07:00  7
2018-08-03 00:08:00  8
2018-08-03 00:09:00  9
2018-08-03 00:10:00 10
2018-08-03 00:11:00 11
Freq: T, dtype: int32

默认使用左标签（label=‘left'），左闭合（closed='left'）

此时第一个区间为：2018-08-03 00:00:00~2018-08-03 00:04:59，故sum为10，label为：2018-08-03 00:00:00

In [235]: ts.resample('5min').sum()
Out[235]:
2018-08-03 00:00:00 10
2018-08-03 00:05:00 35
2018-08-03 00:10:00 21
Freq: 5T, dtype: int32

可以指定为右闭合（closed='right'），默认使用左标签（label=‘left'）

此时第一个区间为：2018-08-02 23:55:01~2018-08-03 00:00:00，故sum为0，label为：2018-08-02 23:55:00

In [236]: ts.resample('5min',closed='right').sum()
Out[236]:
2018-08-02 23:55:00  0
2018-08-03 00:00:00 15
2018-08-03 00:05:00 40
2018-08-03 00:10:00 11
Freq: 5T, dtype: int32

可以指定为右闭合（closed='right'），右标签（label=‘right'）

此时第一个区间为：2018-08-02 23:55:01~2018-08-03 00:00:00，故sum为0，label为：2018-08-03 00:00:00

In [237]: ts.resample('5min',closed='right',label='right').sum()
Out[237]:
2018-08-03 00:00:00  0
2018-08-03 00:05:00 15
2018-08-03 00:10:00 40
2018-08-03 00:15:00 11
Freq: 5T, dtype: int32

升采样

考虑因素：

没有聚合，但是需要填充

In [244]: frame = pd.DataFrame(np.random.randn(2, 4),
  ...:      index=pd.date_range('1/1/2000', periods=2,
  ...:           freq='W-WED'), # freq='W-WED'表示按周
  ...:      columns=['Colorado', 'Texas', 'New York', 'Ohio'])

In [245]: frame
Out[245]:
   Colorado  Texas New York  Ohio
2000-01-05 1.201713 0.029819 -1.366082 -1.325252
2000-01-12 -0.711291 -1.070133 1.469272 0.809806

当我们对这个数据进行聚合的的时候，每个组只有一个值，以及gap（间隔）之间的缺失值。在不使用任何聚合函数的情况下，

我们使用asfreq方法将其转换为高频度：

In [246]: df_daily = frame.resample('D').asfreq()

In [247]: df_daily
Out[247]:
   Colorado  Texas New York  Ohio
2000-01-05 1.201713 0.029819 -1.366082 -1.325252
2000-01-06  NaN  NaN  NaN  NaN
2000-01-07  NaN  NaN  NaN  NaN
2000-01-08  NaN  NaN  NaN  NaN
2000-01-09  NaN  NaN  NaN  NaN
2000-01-10  NaN  NaN  NaN  NaN
2000-01-11  NaN  NaN  NaN  NaN
2000-01-12 -0.711291 -1.070133 1.469272 0.809806

使用ffill()进行填充

In [248]: frame.resample('D').ffill()
Out[248]:
   Colorado  Texas New York  Ohio
2000-01-05 1.201713 0.029819 -1.366082 -1.325252
2000-01-06 1.201713 0.029819 -1.366082 -1.325252
2000-01-07 1.201713 0.029819 -1.366082 -1.325252
2000-01-08 1.201713 0.029819 -1.366082 -1.325252
2000-01-09 1.201713 0.029819 -1.366082 -1.325252
2000-01-10 1.201713 0.029819 -1.366082 -1.325252
2000-01-11 1.201713 0.029819 -1.366082 -1.325252
2000-01-12 -0.711291 -1.070133 1.469272 0.809806

In [249]: frame.resample('D').ffill(limit=2)
Out[249]:
   Colorado  Texas New York  Ohio
2000-01-05 1.201713 0.029819 -1.366082 -1.325252
2000-01-06 1.201713 0.029819 -1.366082 -1.325252
2000-01-07 1.201713 0.029819 -1.366082 -1.325252
2000-01-08  NaN  NaN  NaN  NaN
2000-01-09  NaN  NaN  NaN  NaN
2000-01-10  NaN  NaN  NaN  NaN
2000-01-11  NaN  NaN  NaN  NaN
2000-01-12 -0.711291 -1.070133 1.469272 0.809806

新的日期索引没必要跟旧的重叠

In [250]: frame.resample('W-THU').ffill()
Out[250]:
   Colorado  Texas New York  Ohio
2000-01-06 1.201713 0.029819 -1.366082 -1.325252
2000-01-13 -0.711291 -1.070133 1.469272 0.809806

分组重采样

In [279]: times = pd.date_range('2018-08-3 00:00', freq='1min', periods=10)

In [280]: df2 = pd.DataFrame({'time': times.repeat(3),
  ...:      'key': np.tile(['a', 'b', 'c'], 10),
  ...:      'value': np.arange(30)})

In [281]: df2[:5]
Out[281]:
 key    time value
0 a 2018-08-03 00:00:00  0
1 b 2018-08-03 00:00:00  1
2 c 2018-08-03 00:00:00  2
3 a 2018-08-03 00:01:00  3
4 b 2018-08-03 00:01:00  4

In [282]: df2.groupby(['key',pd.Grouper(key='time',freq='5min')]).sum()
Out[282]:
       value
key time
a 2018-08-03 00:00:00  30
 2018-08-03 00:05:00 105
b 2018-08-03 00:00:00  35
 2018-08-03 00:05:00 110
c 2018-08-03 00:00:00  40
 2018-08-03 00:05:00 115

asfreq()

asfreq()进行频度转换。

>>> index = pd.date_range('1/1/2000', periods=4, freq='T')
>>> series = pd.Series([0.0, None, 2.0, 3.0], index=index)
>>> df = pd.DataFrame({'s':series})
>>> df
      s
2000-01-01 00:00:00 0.0
2000-01-01 00:01:00 NaN
2000-01-01 00:02:00 2.0
2000-01-01 00:03:00 3.0

将频度转换为30s

>>> df.asfreq(freq='30S')
      s
2000-01-01 00:00:00 0.0
2000-01-01 00:00:30 NaN
2000-01-01 00:01:00 NaN
2000-01-01 00:01:30 NaN
2000-01-01 00:02:00 2.0
2000-01-01 00:02:30 NaN
2000-01-01 00:03:00 3.0

将频度转换为2min，不会进行重采样（与resample的不同之处）

>>> df.asfreq(freq='2min')
      s
2000-01-01 00:00:00 0.0
2000-01-01 00:02:00 2.0

使用bfill()进行填充

>>> df.asfreq(freq='30S').bfill()
      s
2000-01-01 00:00:00 0.0
2000-01-01 00:00:30 NaN
2000-01-01 00:01:00 NaN
2000-01-01 00:01:30 2.0
2000-01-01 00:02:00 2.0
2000-01-01 00:02:30 3.0
2000-01-01 00:03:00 3.0

以上这篇Pandas —— resample()重采样和asfreq()频度转换方式就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

Pandas —— resample()重采样和asfreq()频度转换方式

- Author -

starter_zheng

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python 随机生成中文验证码的实例代码

Mar 20 Python

详解Python字符串对象的实现

Dec 24 Python

Python控制多进程与多线程并发数总结

Oct 26 Python

python对配置文件.ini进行增删改查操作的方法示例

Jul 28 Python

Python安装Flask环境及简单应用示例

May 03 Python

python之信息加密题目详解

Jun 26 Python

Python绘制二维曲线的日常应用详解

Dec 04 Python

python opencv实现信用卡的数字识别

Jan 12 Python

正确的理解和使用Django信号(Signals)

Apr 14 Python

Python 流媒体播放器的实现(基于VLC)

Apr 28 Python

pytorch实现ResNet结构的实例代码

May 17 Python

python可视化之颜色映射详解

Sep 15 Python

python实现银行实战系统

Feb 26 #Python

python GUI库图形界面开发之PyQt5浏览器控件QWebEngineView详细使用方法

Feb 26 #Python

python序列类型种类详解

Feb 26 #Python

python3光学字符识别模块tesserocr与pytesseract的使用详解

Feb 26 #Python

Python中if有多个条件处理方法

Feb 26 #Python

python GUI库图形界面开发之PyQt5线程类QThread详细使用方法

Feb 26 #Python

Python处理PDF与CDF实例

Feb 26 #Python

You might like

抓取YAHOO股票报价的类

2009/05/15 PHP

Symfony2使用Doctrine进行数据库查询方法实例总结

2016/03/18 PHP

php简单备份与还原MySql的方法

2016/05/09 PHP

php 一维数组的循环遍历实现代码

2017/04/10 PHP

php简单处理XML数据的方法示例

2017/05/19 PHP

永不消失的title提示代码

2007/02/15 Javascript

JavaScript入门教程 Cookies

2009/01/31 Javascript

js的for in循环和java里foreach循环的区别分析

2015/01/28 Javascript

jQuery简单自定义图片轮播插件及用法示例

2016/11/21 Javascript

js select下拉联动更具级联性!

2020/04/17 Javascript

Bootstrap table使用方法记录

2017/08/23 Javascript

详解vue 模拟后台数据（加载本地json文件）调试

2017/08/25 Javascript

jQuery实现用户信息表格的添加和删除功能

2017/09/12 jQuery

Three.js实现绘制字体模型示例代码

2017/09/26 Javascript

解决vue-cli创建项目的loader问题

2018/03/13 Javascript

vue配置请求本地json数据的方法

2018/04/11 Javascript

vue使用高德地图点击下钻上浮效果的实现思路

2019/10/12 Javascript

详解JavaScript之ES5的继承

2020/07/08 Javascript

[52:52]DOTA2上海特级锦标赛C组资格赛#1 OG VS LGD第三局

2016/02/27 DOTA

使用Nginx+uWsgi实现Python的Django框架站点动静分离

2016/03/21 Python

Python中的Descriptor描述符学习教程

2016/06/02 Python

浅谈Matplotlib简介和pyplot的简单使用——文本标注和箭头

2018/01/09 Python

用 Python 连接 MySQL 的几种方式详解

2018/04/04 Python

Python中的CSV文件使用"with"语句的方式详解

2018/10/16 Python

python3.6下Numpy库下载与安装图文教程

2019/04/02 Python

卖车协议书

2014/04/21 职场文书

班级文化标语

2014/06/23 职场文书

高中课前三分钟演讲稿

2014/09/13 职场文书

教师党的群众路线教育实践活动学习笔记

2014/11/05 职场文书

2014年办公室主任工作总结

2014/11/12 职场文书

幼儿学前班评语

2014/12/29 职场文书

贫困生助学金感谢信

2015/01/21 职场文书

写给医院的感谢信

2015/01/22 职场文书

CSS 实现Chrome标签栏的技巧

2021/08/04 HTML / CSS

Python干货实战之八音符酱小游戏全过程详解

2021/10/24 Python

Python Numpy库的超详细教程

2022/04/06 Python