resample重采样参数

图标

豆瓜

豆瓜网

豆瓜网专栏

首发
豆瓜 图标 2020-10-17 00:26:55

Pandas中的resample,重新采样,是对原样本重新处理的一个方法,是一个对常规时间序列数据重新采样和频率转换的便捷的方法。

降采样:高频数据到低频数据

升采样:低频数据到高频数据

主要函数:resample()(pandas对象都会有这个方法)

resample方法的参数

参数说明
freq表示重采样频率,例如‘M’、‘5min’,Second(15)
how=’mean’用于产生聚合值的函数名或数组函数,例如‘mean’、‘ohlc’、np.max等,默认是‘mean’,其他常用的值由:‘first’、‘last’、‘median’、‘max’、‘min’
axis=0默认是纵轴,横轴设置axis=1
fill_method = None升采样时如何插值,比如‘ffill’、‘bfill’等
closed = ‘right’在降采样时,各时间段的哪一段是闭合的,‘right’或‘left’,默认‘right’
label= ‘right’在降采样时,如何设置聚合值的标签,例如,9:30-9:35会被标记成9:30还是9:35,默认9:35
loffset = None面元标签的时间校正值,比如‘-1s’或Second(-1)用于将聚合标签调早1秒
limit=None在向前或向后填充时,允许填充的最大时期数
kind = None聚合到时期(‘period’)或时间戳(‘timestamp’),默认聚合到时间序列的索引类型
convention = None当重采样时期时,将低频率转换到高频率所采用的约定(start或end)。默认‘end’

首先创建一个Series,采样频率为一分钟。

 

>>> index = pd.date_range('1/1/2000', periods=9, freq='T')>>> series = pd.Series(range(9), index=index)>>> series2000-01-01 00:00:00    02000-01-01 00:01:00    12000-01-01 00:02:00    22000-01-01 00:03:00    32000-01-01 00:04:00    42000-01-01 00:05:00    52000-01-01 00:06:00    62000-01-01 00:07:00    72000-01-01 00:08:00    8Freq: T, dtype: int64

降低采样频率为三分钟

 

>>> series.resample('3T').sum()2000-01-01 00:00:00     32000-01-01 00:03:00    122000-01-01 00:06:00    21Freq: 3T, dtype: int64

降低采样频率为三分钟,但是每个标签使用right来代替left。请注意,bucket中值的用作标签。

 

>>> series.resample('3T', label='right').sum()2000-01-01 00:03:00     32000-01-01 00:06:00    122000-01-01 00:09:00    21Freq: 3T, dtype: int64

降低采样频率为三分钟,但是关闭right区间。

 

>>> series.resample('3T', label='right', closed='right').sum()2000-01-01 00:00:00     02000-01-01 00:03:00     62000-01-01 00:06:00    152000-01-01 00:09:00    15Freq: 3T, dtype: int64

增加采样频率到30秒

 

>>> series.resample('30S').asfreq()[0:5] #select first 5 rows2000-01-01 00:00:00     02000-01-01 00:00:30   NaN2000-01-01 00:01:00     12000-01-01 00:01:30   NaN2000-01-01 00:02:00     2Freq: 30S, dtype: float64

增加采样频率到30S,使用pad方法填充nan值。

 

>>> series.resample('30S').pad()[0:5]2000-01-01 00:00:00    02000-01-01 00:00:30    02000-01-01 00:01:00    12000-01-01 00:01:30    12000-01-01 00:02:00    2Freq: 30S, dtype: int64

增加采样频率到30S,使用bfill方法填充nan值。

 

>>> series.resample('30S').bfill()[0:5]2000-01-01 00:00:00    02000-01-01 00:00:30    12000-01-01 00:01:00    12000-01-01 00:01:30    22000-01-01 00:02:00    2Freq: 30S, dtype: int64

通过apply运行一个自定义函数

 

>>> def custom_resampler(array_like):...     return np.sum(array_like)+5
>>> series.resample('3T').apply(custom_resampler)2000-01-01 00:00:00     82000-01-01 00:03:00    172000-01-01 00:06:00    26Freq: 3T, dtype: int64


本文由豆瓜网专栏作家 豆瓜 投稿发布,并经过豆瓜网编辑审核。

转载此文章须经作者同意,并附上出处(豆瓜网)及本页链接。

若稿件文字、图片、视频等内容侵犯了您的权益,请联系本站进行 投诉处理

相关搜索

resample
图标 图标

豆瓜

豆瓜网

豆瓜网专栏

  • resample重采样参数

    图标
    豆瓜 图标 · 今天 00:26:55 · 0浏览
  • messagedigest数据加密说明

    图标
    豆瓜 图标 · 今天 00:25:58 · 3浏览
  • random.nextint方法详解

    图标
    豆瓜 图标 · 今天 00:25:02 · 7浏览
  • 全部评论

    豆瓜

    豆瓜网

    豆瓜网专栏

  • resample重采样参数
  • messagedigest数据加密说明
  • random.nextint方法详解
  • 二叉树的遍历有哪些方式
  • 详解之万能密码是什么
  • 我来说两句