时序分析 40 – 时序预测从ARIMA到SARIMAX(九)超参调优与最佳模型

2023年7月8日下午6:58 • 人工智能 • 阅读 83

时序分析 40

从ARIMA到SARIMAX(九)超参调优与最佳模型

接上…

超参调优

我们是否有方法使模型表现得更好呢？
可以使用网格搜索来进行超参数调优，下面我们将针对changepoint_prior_scale 和 seasonality_prior_scale进行参数搜索。前者决定了趋势的灵活性，也就是在趋势改变点上趋势变化多少，而后者控制了季节性的弹性。

import itertools

param_grid = {
    'changepoint_prior_scale': [0.001, 0.01, 0.1, 0.5],
    'seasonality_prior_scale': [0.01, 0.1, 1.0, 10.0],
}

all_params = [dict(zip(param_grid.keys(), v)) for v in itertools.product(*param_grid.values())]
maes = []
mapes = []

for params in all_params:
    m = Prophet(**params).fit(df_store_2_item_28)
    df_cv = cross_validation(m, horizon='90 days')
    df_p = performance_metrics(df_cv, rolling_window=1)
    maes.append(df_p['mae'].values[0])
    mapes.append(df_p['mape'].values[0])

tuning_results = pd.DataFrame(all_params)
tuning_results['mae'] = maes
tuning_results['mape'] = mapes

时序分析 40 - 时序预测从ARIMA到SARIMAX(九)超参调优与最佳模型

…

tuning_results_df = pd.DataFrame(tuning_results)
tuning_results_df.sort_values(['mae','mape'])

tuning_results_df.sort_values(['mape','mae'])

我们选择产生最小的MAPE的参数。

best_params = all_params[np.argmin(mapes)]
print(best_params)

{‘changepoint_prior_scale’: 0.1, ‘seasonality_prior_scale’: 1.0}

最佳模型

m = Prophet(interval_width=0.95, weekly_seasonality=True,
            changepoint_prior_scale=best_params['changepoint_prior_scale'],
            seasonality_prior_scale=best_params['seasonality_prior_scale'])
model = m.fit(df_store_2_item_28)

future = m.make_future_dataframe(periods=90)
forecast = m.predict(future)

df_merge = pd.merge(df_store_2_item_28, forecast[['ds','yhat_lower','yhat_upper','yhat']],on='ds')
df_merge = df_merge[['ds','yhat_lower','yhat_upper','yhat','y']]


y_true = df_merge['y'].values
y_pred = df_merge['yhat'].values
mae_02 = mean_absolute_error(y_true, y_pred)
print('MAE: %.3f' % mae_02)

MAE: 4.270

mape_02 = mean_absolute_percentage_error(y_true, y_pred)
print('MAPE: %.3f' % mape_02)

MAPE: 0.168

似乎经过超参调优的模型和第一个模型并没有什么明显的差别。

df_cv = cross_validation(m, horizon='90 days')

df_p = performance_metrics(df_cv)
df_p.head()

仔细比较一下，

metrics_prophet_01 = [round(mae_01,3),
                 round(mape_01,3)]

metrics_prophet_02 = [round(mae_02,3),
                 round(mape_02,3)]

pd.DataFrame({'metrics':['MAE','MAPE'],
              'Prophet_01':metrics_prophet_01,
              'Prophet_02':metrics_prophet_02,
             })

经过调参的模型比第一个模型有非常小的提高。

最佳模型+节假日

看看如果我们加上节假日这个因素是否可以提高模型的性能，这有些类似于上篇文章中的SARIMAX。

m = Prophet(interval_width=0.95, weekly_seasonality=True,
            changepoint_prior_scale=best_params['changepoint_prior_scale'],
            seasonality_prior_scale=best_params['seasonality_prior_scale'])
m.add_country_holidays(country_name='US')
model = m.fit(df_store_2_item_28)

future = m.make_future_dataframe(periods=90)
forecast = m.predict(future)

df_merge = pd.merge(df_store_2_item_28, forecast[['ds','yhat_lower','yhat_upper','yhat']],on='ds')
df_merge = df_merge[['ds','yhat_lower','yhat_upper','yhat','y']]


y_true = df_merge['y'].values
y_pred = df_merge['yhat'].values
mae_03 = mean_absolute_error(y_true, y_pred)
print('MAE: %.3f' % mae_03)

MAE: 4.269

mape_03 = mean_absolute_percentage_error(y_true, y_pred)
print('MAPE: %.3f' % mape_03)

MAPE: 0.168

df_cv = cross_validation(m, horizon='90 days')

metrics_prophet_03 = [round(mae_03,3),
                 round(mape_03,3)]

pd.DataFrame({'metrics':['MAE','MAPE'],
              'Prophet_01':metrics_prophet_01,
              'Prophet_02':metrics_prophet_02,
              'Prophet_03':metrics_prophet_03,
             })

考虑节假日后，又有了一点点提高。

df_p = performance_metrics(df_cv)
df_p.head()

比较所有模型

prophet_results = pd.DataFrame({'metrics':['MAE','MAPE'],
              'Prophet_01':metrics_prophet_01,
              'Prophet_02':metrics_prophet_02,
              'Prophet_03':metrics_prophet_03,
             })


df_arima_results.merge(prophet_results, on='metrics')

总结

很明显，Prophet的模型的性能指标明显要优于SARIMA模型，这是不是归功于对季节因素的加性建模呢？这个问题留给读者吧。

在这个实践案例中，我们的模型经历了从ARIMA->SARIMA->SARIMAX->Prophet，我们也用了可视化、探索式数据分析、假设检验、参数调优、模型评估等多种工具。但笔者认为实际上这些都不是最重要的，本质问题是每一个模型解决问题的出发点是什么，它的底层逻辑是什么，更好的模型为什么会好，它多考虑了什么因素，多捕获了什么特征和信息。这些问题才是真正值得思考的。其实我们也可以用长短期记忆网络来再对这个案例进行建模，结果可能比Prophet模型又稍微提高一点，但这种提高的意义就不大了。如果复杂的神经网络模型不能显著性的提高模型指标，那么相比之下它必然不会被选择，因为其代价高昂且不可解释。笔者一向不认为神经网络模型是一种革命性的进步，它只不过是由于数据获取的成本降低、算力成本降低的产物（当然还有其他原因、这里不便提及)。笔者还是希望读者更深层次地思考本质问题，也非常欢迎大家和我交流。感谢大家。

Original: https://blog.csdn.net/weixin_43171270/article/details/125124519
Author: Magic Ktwc37
Title: 时序分析 40 – 时序预测从ARIMA到SARIMAX(九)超参调优与最佳模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/679104/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Filterin

问题描述 Filtering是信号处理中的一个重要问题，它指的是根据一定的规则从信号中提取出特定频率的成分。在本问题中，我们将讨论一种常见的滤波方法——低通滤波，即从信号中提取出低…

人工智能 2024年1月2日
0040
R语言lm函数语法、R语言模型公式中（formula）常用符号及其说明（~、+、：、*、

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月16日
0084
Halcon —C#调用时绘制区域为空，出现异常

相同的算子，在Halcon中使用可以得到正常的区域，但是在Visual Studio软件C#语言使用时，得到的区域为空，在VS中区域为空，代码如下：HOperatorSet.Gen…

人工智能 2023年6月22日
0096
数据聚合与分组运算

数据聚合与分组运算分组与聚合的原理分组：使用特定的条件将原数据划分为多个组聚合：对每个分组中的数据执行某些操作（如聚合、转换等），最后将计算的结果进行整合分组和聚合的步骤分…

人工智能 2023年7月7日
0081
(一) 路径规划算法—Astar与C++可视化在RVIZ的三维点云地图

Astar与C++可视化在RVIZ的三维点云地图文章目录 Astar与C++可视化在RVIZ的三维点云地图 * 1.功能包介绍 2.算法功能包的组成与介绍 – 2.1…

人工智能 2023年6月10日
0094
机器学习笔记 – Kornia：结合OpenCV的PyTorch框架

一、Kornia概述 Kornia 是一个可微分库，可将经典计算机视觉集成到深度学习模型中。它由一组例程和可微分模块组成，用于解决通用计算机视觉问题。该软件包的核心是使用 Py…

人工智能 2023年7月19日
00122
机器学习肥胖分类

from collections import Counterimport numpy as npknownData = ((1, 180, 85),(1, 180, 86),(1…

人工智能 2023年7月2日
0075
使用 Transformers 在你自己的数据集上训练文本分类模型

之前只闻 transformers 超厉害超好用，但是没有实际用过。之前涉及到 bert 类模型都是直接手写或是在别人的基础上修改。但这次由于某些原因，需要快速训练一个简单的文本分…

人工智能 2023年6月6日
0084
聚类算法之模型评估

聚类算法之模型评估 1 误差平方和(SSE \The sum of squares due to error)：举例:(下图中数据-0.2, 0.4, -0.8, 1.3, -0…

人工智能 2023年6月2日
00131
【计算机图形学】RGB图像在计算机中存储方式的理解——图形学基础

最近在学习计算机图形学方面的课程，主要是使用opencv来处理图像，这里涉及到了图像存储的方式，方便后续对图像通道分离处理还有滤波的理解。 RGB色彩模式也就是红（Red）、绿（G…

人工智能 2023年6月21日
0098
远场语音交互硬件声学性能测试标准

远场语音交互硬件声学性能测试标准文档版本 V1.8 修改日期2019.11.26 谙声科技声学实验室文档修改记录版本修改日期修改人批准人批准日期描述 V1.0 …

人工智能 2023年5月25日
0075
关于eigen的编译报错：找不到Eigen3Config.cmake 和eigen3-config.cmake

名为 “ ” 或 “ ” 的包配置文件。可能是因为您没有安装库或者安装的位置不正确。您需要检查库的安装情况，并确保其安装位置正确…

人工智能 2023年5月28日
00217
pytorch中的二分类及多分类交叉熵损失函数

本文主要记录一下pytorch里面的二分类及多分类交叉熵损失函数的使用。 import torch import torch.nn as nn import torch.nn.fu…

人工智能 2023年7月2日
00112
.Net Core with 微服务-使用 AgileDT 快速实现基于可靠消息的分布式事务

前面对于分布式事务也讲了好几篇了（可靠消息最终一致性分布式事务 – TCC 分布式事务 – 2PC、3PC），但是还没有实战过。那么本篇我们就来演示下如何…

人工智能 2023年6月6日
0082
粒子群算法（PSO）简介及Python实现

一、概述粒子群算法，也称粒子群优化算法或鸟群觅食算法(Particle Swarm Optimization) ，缩写为PSO.粒子群优化算法是一种进化计算技术(evolutio…

人工智能 2023年7月30日
0058
在Linux服务器上安装cuda11版pytorch

0.预备工作：安装anaconda在清华镜像网站上找到自己想要的安装包，比如我下的是下图红框里的那个：用右键复制链接地址，然后用wget -P指定安装包的安装路径即可： wget …

人工智能 2023年7月21日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

时序分析 40 – 时序预测 从ARIMA到SARIMAX(九)超参调优与最佳模型