时间序列的数据分析(四):STL分解

2023年8月2日下午12:13 • Python • 阅读 95

之前已经完成了三篇关于时间序列的博客，还没有阅读过的读者请先阅读：

六. STL分解

6.1 主要参数

STL（Seasonal and Trend decomposition using Loess）是一个非常通用和稳健强硬的分解时间序列的方法，其中Loess是一种估算非线性关系的方法。STL分解法由 R. B. Cleveland, Cleveland, McRae, & Terpenning (1990)提出。STL也是将时间序列分解成三个主要分量: 趋势、季节项和残差。STL使用LOESS(locally estimated scatterplot smoothing) 来提取三个分量的平滑估计，在python中实现时间序列的STL分解主要是通过调用statsmodels类库的STL方法来实现的，该STL方法有四个主要的输入参数：

endog：表示需要分解的数据集,它是STL方法的第一个参数，该数据集的类型可以是numpy的array,也可以是pandas的series 或者dataframe.
period：表示季节性周期，如果endog的类型是numpy的array则需要指定period，如果是pandas的series 或dataframe则stl方法可以根据索引推断出period,因此无需指定peroid
season：表示季节性平滑器的长度，它必须是一个奇数，通常要>=7(默认)。
trend：表示趋势平滑器的长度,通常要>period(或season)的1-1.5倍，并且它必须是一个奇数。默认值是最小的1-1.5倍的period,比如period=7则trend默认值是9，如果period=12则trend默认值是13

6.2 分解过程

下面我们使用statsmodels的STL方法对航空公司乘客数据进行分解并获取各个分量的结果：

from statsmodels.tsa.seasonal import STL
plt.rc("figure", figsize=(10, 6))

df=pd.read_csv("airline_Passengers.csv")
df['Period']=pd.to_datetime(df['Period'])
df.set_index('Period',inplace=True)

res = STL(df).fit()
res.plot()

df['trend']=res.trend
df['seasonal']=res.seasonal
df['resid']=res.resid

这里的STL方法中我们只使用了第一个参数，其它均为默认参数,因为我们的数据集是dataframe，因此STL方法可以根据datetime的索引列推断出peroid，如果数据类型是numpy的array那就必须指定peroid。下面我们可以观察一下残差的分布以及它的均值，一般情况下如果残差呈现出以0为均值的近似正太分布(这不是必须的)那么说明我们使用了正确的分解方法。

print('residual mean:',df.resid.mean())
df.resid.hist();

从上面的结果可知我们的残差近似正太分布并且均值在0的附近,这说明SLT分解是正确的。

6.3 趋势性、季节性程度及季节项波峰的计算

时间序列数据可以被分解为:趋势(Trend)、季节性(seasonal)、残差(residual),其分解式一般可以表示为:

其中T(t)表示t时刻的趋势值,S(t)表示t时刻的季节项值,R(t)表示t时刻的残差值。对于趋势性很强的数据，经季节调整后(删除季节项)的数据应比残差项的变动幅度更大。因此，

会相对较小。但是，对于没有趋势或是趋势很弱的时间序列，两个方差应大致相同。因此，我们将趋势强度定义为：

这可以给趋势强度的衡量标准，其值在 0-1 之间。因为有些情况下残差项的方差甚至比季节变换后的序列还大，我们令

可取的最小值为0。

相似地，季节性的强度定义如下，其所用的数据为去除趋势后的数据而不是去除季节后的数据。

当季节强度

接近 0 时表示该序列几乎没有季节性，当季节强度

接近 1 时表示该序列的

远小于

。

在时间序列中季节性一般呈现周期性变化的规律,因此季节性周期中的波峰大体上也是固定的，因此我们只需要找到季节性周期中的最大值就可以确定波峰期。

下面我们来计算一下趋势程度、季节性程度以及季节性波峰期，首先我们需要在数据中删除趋势项和季节项并得到两个新列:detrend和deseasonal，其中detrend列表示

, 而deseasonal表示

#从数据中删除趋势项
df['detrend']=df['#Passengers']-df.trend
#从数据中删除季节项
df['deseasonal']=df['#Passengers']-df.seasonal

接下来我们套用公式来计算趋势和季节性程度：

trend_strength=max(0,1-df.resid.var()/df.deseasonal.var())
seasonal_strength=max(0,1-df.resid.var()/df.detrend.var())
print('trend_strength:',trend_strength)
print('seasonal_strength:',seasonal_strength)

从结果中我们看到数据中的趋势和季节性程度都非常高(接近1)，趋势和季节性程度越高,那说明数据的可预测性越好。接下来我们来计算季节性波峰：

period=12
peak = (np.argmax(df.seasonal) + 1) % period
peak = period if peak == 0 else peak

print("peak:",peak)

波峰值为7，说明改每年的7月为波峰期,这个从数据趋势图中也能得到确认。

总结

今天我们主要介绍了STL的分解的主要参数,和分解的过程，并观察了分解以后残差的分布和均值并确认了残差服从以0为均值的近似正太分布,这说明STL分解是正确的。其次我们还介绍了趋势程度、季节性程度以及季节性波峰的计算方法，这有助于确定数据是否具有良好的可预测性。

参考资料

statsmodels.tsa.seasonal.STL — statsmodels

Seasonal-Trend decomposition using LOESS (STL) — statsmodels

https://www.scb.se/contentassets/ca21efb41fee47d293bbee5bf7be7fb3/stl-a-seasonal-trend-decomposition-procedure-based-on-loess.pdf

Original: https://blog.csdn.net/weixin_42608414/article/details/126064929
Author: -派神-
Title: 时间序列的数据分析(四):STL分解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/730625/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

2022选择了交大，回顾这一年的成长

Datawhale干货作者：王琦，上海交通大学，Datawhale成员 2022年是颇为忙碌的一年，今年我从中国科学院大学毕业、申请上了上海交通大学的博士、参与贡献了开源教程&#…

Python 2023年9月17日
0029
项目在pytest框架下，控制台实时打印print信息+logging日志打印

目录：一、pytest框架下，程序边运行边打印print信息1、调整运行方式2、添加执行语句二、借助logging模块实现日志打印（1、log日志输出到控制台；2、log日志输出到…

Python 2023年9月9日
0087
Python爬虫实战+数据分析+数据可视化（美团美食信息）

一、爬虫部分爬虫说明：1、本爬虫是以面向对象的方式进行代码架构的2、本爬虫爬取的数据存入到MongoDB数据库中3、爬虫代码中有详细注释4、爬虫爬取的美食是以无锡为例代码展示 …

Python 2023年8月15日
0057
【Python】numpy——矩阵matrix

import numpy as np 一、创建矩阵 import numpy as np x = np.matrix([[1,2,3], [4,5,6]]) y = np.matr…

Python 2023年8月23日
0043
笔记HTML

回答1：你好， HTML 是一种超文本标记语言，它用于创建互联网上的网页。它有一系列的标准标记，其中包括标题、段落、图像、链接和表格。网页可以使用CSS（层叠样式表）和JavaS…

Python 2023年9月25日
0045
MySQL 学习笔记（五）–mysqldump

mysqldump 与 –set-gtid-purged 设置 (1) mysqldump The mysqldump client utility performs …

Python 2023年6月9日
0080
kafka的基本使用（更新中）

kafka的安装路径：/usr/local/Cellar/kafka/3.2.0kafka的配置路径：/usr/local/etc/kafka 开启zookeepercd /usr…

Python 2023年6月3日
0064
python打包exe出现RuntimeError: Could not find the matplotlib data files 的解决方法

核心提示：在打包包含matplotlib库时出现RuntimeError: Could not find the matplotlib data files的解决方法。错误提示里面…

Python 2023年9月2日
0033
解决jenkins构建失败，空间不足问题

随着构建次数过多，之后jenkins构建会出现空间不足的问题，解决方式如下：目录 1.配置时，去除旧的构建任务 2.使用脚本，删除历史构建 3.清理磁盘空间 4.重新加载服务器节…

Python 2023年9月29日
0065
0021-python学习笔记：使用os库制作简单的自动执行程序

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年9月24日
0040
CTF_Web：从0学习Flask模板注入（SSTI）

0x01 前言最近在刷题的过程中发现服务端模板注入的题目也比较常见，这类注入题目都比较类似，区别就在于不同的框架、不同的过滤规则可能需要的最终payload不一样，本文将以Fla…

Python 2023年8月11日
0085
Flask服务返回结果时：HTTP Status 500 – Internal Server Error

Flask搭建一个服务，返回结果如果不用string包一下res，就报错，服务不返回内容。代码片段： labels = [] for i in range(len(ctx.scor…

Python 2023年8月12日
0045
基于python pygame实现的雨点动画

这是一个我用来教我7岁小俊马的雨点例程，2022年网络上已经宣传未来小学生都将会python了，那么我们这些爸爸还不赶快学吗？说句实话我本意是觉得小孩子就是先学好数理化就行了，编…

Python 2023年9月18日
0038
Django restframework重写get_serializer_class方法自定义serializer_class

当 view继 承restframework的 generics.ListAPIView的接口后，需要定义 serializer_class实现数据的序列化，…

Python 2023年8月5日
0032
python生成模拟微信气泡图片

0. 起因众所周知，借刀杀人最为致命，聊天也是如此。最近我的群聊画风逐渐变味：当然，这种图片的生产成本很低，只需在设置页关闭昵称显示，把聊天背景重置为灰色，然后利用截图工具截…

Python 2023年8月2日
0043
老油条用什么工具写文档？

写代码，哪个程序员都不害怕。写文档，哪个程序员都害怕！为什么？还不是因为 API 工具不好使，不便捷，同步麻烦，测试看不懂…… 最近调研了身边一些开发…

Python 2023年8月9日
0069

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

时间序列的数据分析(四):STL分解

6.1 主要参数

6.2 分解过程

6.3 趋势性、季节性程度及季节项波峰的计算

大家都在看