时间序列的自回归理论和实现

2023年6月18日上午11:47 • 人工智能 • 阅读 60

将回归应用于时间序列问题

本篇文章结构如下:

自回归-理论和数学
在Python中实现的自动回归
自回归-选择最好的参数值
结论

自回归

术语 AutoRegression (AR) 与来自统计的常规回归密切相关。唯一的问题是 AR 模型使用来自相同输入变量的滞后格式数据——这就是 AutoRegression 的 Auto 部分。

AutoRegression 的预测能力有限，就像简单的移动平均线一样。该算法使用过去值的线性组合来进行未来预测。一般的 AutoRegression 模型用以下公式表示：

其中 c 是常数，phi 是 p 阶以下的滞后系数，epsilon 是不可约误差（白噪声）。

使用 AR 模型时，您只需要指定参数 p 的值。如果 p=1，则 AR 模型公式简化为：

就这么简单！

p 的更高阶数往往会给出更好的预测结果，但仅限于某个点。稍后您将看到如何自动为 p 选择最佳值。但首先，让我们看看如何用 Python 实现 AutoRegression。

; 在 Python 中的实现自回归

您今天将创建自己的数据集。这是一条简单的直线，添加了一点噪音：

import numpy as np
import pandas as pd
from sklearn.metrics import mean_squared_error
from statsmodels.tsa.ar_model import AR

import matplotlib.pyplot as plt
from matplotlib import rcParams
from cycler import cycler

rcParams['figure.figsize'] = 18, 5
rcParams['axes.spines.top'] = False
rcParams['axes.spines.right'] = False
rcParams['axes.prop_cycle'] = cycler(color=['#365977'])
rcParams['lines.linewidth'] = 2.5

np.random.seed(2)
xs = np.arange(0, 500, 5)
ys = [x + np.random.random() * 10 for x in xs]

df = pd.DataFrame(data={
    'x': xs,
    'y': ys
})

plt.title('Random dataset', size=20)
plt.plot(df['y']);

这是它的样子：

下一步是将数据集划分为训练和测试子集。将使用最后 10 个数据点进行测试，并使用其他所有数据进行训练：

Train/test split
df_train = df[:-10]
df_test = df[-10:]

Plot
plt.title('Random dataset train and test sets', size=20)
plt.plot(df_train['y'], label='Training data')
plt.plot(df_test['y'], color='gray', label='Testing data')
plt.legend();

以下是两个数据集的样子：

接下来，将声明一个用于训练和可视化 AR 模型的函数 — train_and_plot(maxlag: int)。此功能在这里是为了方便，以避免一遍又一遍地复制粘贴几乎相同的代码。它在训练集上训练 AR(p=maxlag) 模型，并以图形方式比较预测和测试集。

该函数还会在绘图副标题中打印模型系数，因此您可以根据需要将它们与之前讨论的数学公式联系起来。

这是代码：

def train_and_plot(maxlag):
    model = AR(df_train['y']).fit(maxlag=maxlag, method='mle')
    forecasts = model.predict(
        start=len(df_train),
        end=len(df_train) + len(df_test) - 1,
        dynamic=False
    )

    parameters = model.params.to_dict()
    for k, v in parameters.items():
        parameters[k] = np.round(v, 3)

    plt.title(f'AR({maxlag}) training/testing data and forecasts', size=20, y=1.1)
    plt.suptitle(parameters, y=0.94)
    plt.plot(df_train['y'], label='Training data')
    plt.plot(df_test['y'], color='gray', label='Testing data')
    plt.plot(forecasts, color='orange', label='Forecasts')
    plt.legend();

现在可以使用此函数通过在新单元格中执行 train_and_plot(maxlag=1) 来训练简单的 AR(1) 模型。它显示下图：

将参数 p 更改为想要的任何内容。例如，AR(2) 模型结果如下所示 (train_and_plot(maxlag=2))：

问题仍然存在——这个数据集的最佳 AR 模型顺序是什么？让我们在下一节中回答这个问题。

AutoRegression – 选择最佳参数值

使用 AR(1) 和 AR(2) 获得的预测看起来并不那么有希望。你总是想优化 p 的值。一种方法是绘制自相关图和偏自相关图并对其进行检查，但这工作量太大。

更好的方法是在循环内训练 AR(1) 到 AR(n) 模型，并跟踪测试集的性能。可以使用 RMSE 或任何其他指标来执行此操作。

这是一个简单的代码片段，可以做到这一点：


max_p = 10

errors = {}

for p in range(1, max_p + 1):

    model = AR(df_train['y']).fit(maxlag=p, dynamic=False)
    preds = model.predict(
        start=len(df_train),
        end=len(df_train) + len(df_test) - 1,
        dynamic=False
    )

    error = mean_squared_error(df_test['y'], preds, squared=False)
    errors[f'AR({p})'] = error

以下是 AR(1) 到 AR(10) 模型的误差：

看起来 AR(5) 模型在测试集上的误差最低。以下是数据集和预测在此模型顺序中的样子：

使用 AIC 指标进行评估也很常见，因为它更倾向于简单的模型而不是复杂的模型。这两个指标都表明 AR(5) 是最好的模型。

总结

可以使用 AR 模型来预测简单的数据集。该算法与移动平均模型结合使用时效果最佳，这是我们将在下一篇文章中讨论的主题。

如果您决定将 AR 模型应用于 Airline Passengers 等数据集，则无论模型顺序如何，都不会获得良好的预测结果。使数据集静止可能会有所帮助，但预测仍然不如指数平滑法。

我们将在下一篇文章中探讨将 AutoRegression 和移动平均线组合到单个模型 (ARMA) 是否会有所帮助。

作者：Dario Radečić

Original: https://blog.csdn.net/m0_46510245/article/details/119903645
Author: deephub
Title: 时间序列的自回归理论和实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/634864/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

torch.cuda.is_available()返回false——解决办法

Original: https://blog.csdn.net/qq_46126258/article/details/112708781Author: Nefu_lyhTitle…

人工智能 2023年7月21日
0056
图像去雾算法–暗通道先验去雾算法

图像去雾：在雾天拍摄的图像容易受雾或霾的影响，导致图片细节模糊、对比度低以至于丢失图像重要信息，为解决此类问题图像去雾算法应运而生。图像去雾算法是以满足特定场景需求、突出图片细节…

人工智能 2023年6月16日
0074
pandas Dataframe实现批量修改值

在使用dataframe的时候有时候会碰到需要批量修改数据的时候,今天主要说明两种情况一.使用iloc对某几行某几列进行全部修该二.对数据进行判定后,相互+/-/*某个数,使用…

人工智能 2023年6月19日
0079
AUC的两种计算方式

1.什么是AUC？推荐搜索场景下的auc理解_凝眸伏笔的博客-CSDN博客_搜索auc 随机抽出一对样本（一个正样本，一个负样本），然后用训练得到的分类器来对这两个样本进行预测…

人工智能 2023年7月5日
00104
RocketMq概要

1、Why choose RocketMQ | RocketMQ 来自于RocketMq官网 RocketMQ 最开始来源阿里，在阿里内部用于异步通信、搜索、社交网络活动流、数据管…

人工智能 2023年6月26日
0078
论文中的函数拟合和回归如何写的材料收集

https://www.slideshare.net/plummer48/reporting-a-multiple-linear-regression-in-apa https:/…

人工智能 2023年6月18日
00114
Java.lang.Character类中isLowerCase()方法具有什么功能呢？

转自: 下文笔者将讲述Character类中isLowerCase()方法的功能，如下所示: Java.lang.Character之isLowerCase()方法的功能 isLo…

人工智能 2023年5月30日
0061
R语言为dataframe添加新的数据列（add new columns）：使用R原生方法、data.table、dplyr等方案

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月25日
0086
【经验分享】windows如何配置并且使用显卡GPU

你好! 下面是一段 C++ 获取用户率的代码: cpp #include <</p> <p>.h> #include</p> &…

人工智能 2023年5月23日
0092
yolov7 网络架构深度解析

在美团yolov6刚出来不到一个月，yolov4的官方人马yolov7带着论文和代码高调现身，迅速霸屏，膜拜下速度和精度：四个字”多快好省”， yolov7…

人工智能 2023年7月29日
00126
《MATLAB 神经网络43个案例分析》：第8章 GRNN网络的预测—-基于广义回归神经网络的货运量预测

《MATLAB 神经网络43个案例分析》：第8章 GRNN网络的预测—-基于广义回归神经网络的货运量预测 1. 前言 2. MATLAB 仿真示例一 3. MATLAB…

人工智能 2023年6月18日
0074
BeautifulSoup的基本使用

✅作者简介：大家好我是hacker707,大家可以叫我hacker📃个人主页：hacker707的csdn博客🔥系列专栏：python爬虫💬推荐一款模拟面试、刷题神器👉点击跳转进入…

人工智能 2023年7月4日
0090
TensorFlow安装和下载详细教程-内附多种解决方案

TensorFlow安装和下载详细教程根据网上的多个帖子及自身的成功经验，总结出在Windows平台上安装 TensorFlow 1.3。需要注意以下几点：安装tensorf…

人工智能 2023年7月13日
00364
目标检测数据集之离线数据增强

目录 1.数据增强概述 2.目标检测离线数据增强步骤（一定要先看，便于理解过程） 3.数据增强代码 4.代码运行 5.完整代码 6.结果展示 1.数据增强概述海量数据是目标检测的…

人工智能 2023年6月24日
0075
联邦学习代码解读，超详细

参考文献：[1]Brendan McMahan, H., Moore, E., Ramage, D., Hampson, S., and Agüera y Arcas, B., &…

人工智能 2023年7月5日
00145
DCNv2简述

引言由尺寸，位置，视野，部分变形成为目标识别检测中的一个挑战。DCNv1 介绍了两个模型，（1）可变形卷积：标准卷积网格采样点的位置都是前面预处理feature map学习的偏移…

人工智能 2023年7月10日
00113

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

时间序列的自回归理论和实现

自回归

; 在 Python 中的实现自回归

AutoRegression – 选择最佳参数值

总结

大家都在看