时序分析 27 – 时序预测格兰杰因果关系(上) 理论知识

2023年6月16日下午10:02 • 人工智能 • 阅读 76

时序分析 27 时序预测

格兰杰因果关系(上) 理论知识

本文主要阐述Granger Causality，即格兰杰因果关系在时间序列预测中的应用。

背景与回顾

本系列前面的文章中，我们讨论过了时序分析预测的多种方法，包括单变量时序问题和多变量时序问题。我们也讨论过了时序的分解：趋势、周期和随机噪声。预测时序在未来某个时间点的值是时序预测问题的常见问题，时序预测问题经常会使用机器学习方法，在金融、天气预报、医疗、商务和零售等领域都有很多应用。

在实际问题中，时序预测问题通常涉及多个变量，而各个变量之间经常存在依赖关系。这种依赖关系经常会对预测结果产生严重的影响，尤其是业界常用的多元回归方法，人们通常会被误导，结果的决定性系数很高，但实际上所训练的模型是非常不可靠的。为了进一步理解这种误导所带来的问题，让我们看一个例子：

线性回归通常会揭示变量之间的线性关系，但很可能实际上这种关系根本不存在。领域知识会告诉我们预测模型完全无用，这种现象称为伪回归。请见下图：

从上图中可以看到，鸡肉的消费量和原油的出口呈现很强的相关性，但这是完全不符合逻辑的。

伪回归中经常会呈现明显的趋势、非平稳时序和较高的决定性系数。我们需要在构建模型时消除伪回归，因为所得出的结果既没有相关性也不具备因果性。可能有的读者会说，在构建多元回归模型时需要观察变量之间的相关矩阵，如果出现两个自变量之间的相关系数较高，那么会留下一个变量而剔除另外一个以达到消除自变量之间的依赖关系。但是这种方式并不能完全解决这个问题，因为如果时序数据中的时间是一个干扰因素(confounding factor)或者潜在变量(lurking variable)，那么前面所说的计算的相关系数很可能存在时间区间限制问题，换句话说就是它只是测量了两个自变量之间的关系而已，并没有充分考虑它们与时间的关系。为了清晰解释这个问题，请看下面维基百科上的图:

上图中，时序X对时序Y显然有很直接的影响，但是它们大概差了5个时间点。这种情况下，相关系数失效。

; 格兰杰因果关系(Granger Causality)

注：本文中会提到一些时序分析的基本概念，读者可自行查阅其他文档或参见本人时序分析其他系列文章。

格兰杰因为发展了因果概念来提高经济学上的时序预测的效果而在2003年获得了诺贝尔经济学奖，但这个因果概念依然不是人类逻辑学上的因果关系，而是预测上的因果关系(predictive causality)，所以才会被称为格兰杰因果关系。

我们首先从直观上理解一下：如果一个时序变量X是另外一个时序变量Y的格兰杰因(Granger-Causes, 又称为G-Causes)，那么说明利用Y过去的信息和X过去的信息来预测Y的效果要好于只使用Y过去的信息。也就是说，X现在和过去的信息包含了关于Y的某种信息。
格兰杰因果关系有两个原则：

原因(X)发生在效果(Y)之前
原因(X)包含有关效果(Y)的未来的独特信息

我们给出格兰杰因果关系的数学定义:
如果有一下两个自回归建模的时序变量,
X 1 ( t ) = ∑ j = 1 p A 11 , j X 1 ( t − j ) + ∑ j = 1 p A 12 , j X 2 ( t − j ) + E 1 ( t ) X_1(t) = \sum_{j=1}^p{A_{11,j}X_1(t-j)} + \sum_{j=1}^p{A_{12,j}X_2(t-j)+E_1(t)}X 1 (t )=j =1 ∑p A 1 1 ,j X 1 (t −j )+j =1 ∑p A 1 2 ,j X 2 (t −j )+E 1 (t )
X 2 ( t ) = ∑ j = 1 p A 21 , j X 1 ( t − j ) + ∑ j = 1 p A 22 , j X 2 ( t − j ) + E 2 ( t ) (1) \tag{1}X_2(t) = \sum_{j=1}^p{A_{21,j}X_1(t-j)} + \sum_{j=1}^p{A_{22,j}X_2(t-j)+E_2(t)}X 2 (t )=j =1 ∑p A 2 1 ,j X 1 (t −j )+j =1 ∑p A 2 2 ,j X 2 (t −j )+E 2 (t )(1 )
上式中， 𝑝 是自回归阶数， 𝐴 为系数矩阵， 𝐸 为残差。
如果在 X 1 X_1 X 1 的自回归模型中加入了 X 2 X_2 X 2 ,而导致了 E 1 E_1 E 1 的方差的减少，那么我们说 X 2 X_2 X 2 是 X 1 X_1 X 1 的格兰杰原因，即G-Causes。换句话说，如果系数 A 12 A_{12}A 1 2 具有统计显著意义地区别于0，那么说 X 2 X_2 X 2 是 X 1 X_1 X 1 的格兰杰原因。可以通过F检验来进行假设检验(请看下节)。

格兰杰因果关系检验(Granger Causality Test)

格兰杰因果检验(Granger Causality test)，是一种统计检验法用来检验一个时序变量是否对预测另一个时序变量有显著意义，或者说是否存在G-Causes关系。它有一个先决条件就是时序必须是平稳的。下面简单介绍一下这种检验法的基本原理。

假设我们时序数据中有三个变量𝑋𝑡,𝑌𝑡,𝑊𝑡，考虑下面三种情况：

1.基于 𝑋𝑡 预测 𝑋𝑡+1
2.基于 𝑋𝑡 和 𝑌𝑡 来预测 𝑋𝑡+1
3.基于 𝑋𝑡、𝑌𝑡 和 𝑊𝑡 来预测 𝑋𝑡+1，这里 𝑌𝑡 直接依赖于 𝑊𝑡
这里情况1是一个单变量自回归模型，数学模型为
X t = α + γ 1 X t − 1 + γ 2 X t − 2 + ⋯ + γ p X t − p X_t = \alpha + \gamma_1 X_{t-1} + \gamma_2X_{t-2} + ⋯ + \gamma_pX_{t-p}X t =α+γ1 X t −1 +γ2 X t −2 +⋯+γp X t −p

，这里 𝑝 为阶数。
情况2中 𝑌 的数据蕴含了预测 𝑋𝑡+1 的信息，如果这是事实，那么说 Y t Y_t Y t 是 X t + 1 X_{t+1}X t +1 的G-Causes。数学模型如下：
X t = α + γ 1 X t − 1 + γ 2 X t − 2 + ⋯ + γ 𝑝 X t − p + α 1 Y t − 1 + ⋯ + α 𝑝 Y t − p X_t = \alpha + \gamma_1 X_{t-1} + \gamma_2X_{t-2} + ⋯ + \gamma_𝑝X_{t-p} + \alpha_1Y_{t-1}+ ⋯ + \alpha_𝑝 Y_{t-p}X t =α+γ1 X t −1 +γ2 X t −2 +⋯+γp X t −p +α1 Y t −1 +⋯+αp Y t −p ，自由度为 2 p 2p 2 p 。

如果 Y t Y_t Y t 是 X t X_t X t 的G-Causes，那么 Y Y Y 必定走在 X X X的前面并且意味着：

Y Y Y 的以前的时间点的值，或称为滞后值，应该是与X X X的值具有显著的统计相关性。
X X X 的滞后值不应该与Y Y Y 具有显著的统计相关。
情况3并不适合于发现格兰杰因果关系，因为 𝑌𝑡 是被 𝑊𝑡 所影响的。

假设检验

原假设（H 0 H_0 H 0 )：Y t Y_t Y t 对 X t + 1 X_{t+1}X t +1 不存在格兰杰因果关系，或者说 α 1 = α 2 = ⋯ = α 𝑝 = 0 \alpha_1 = \alpha_2 = \dots = \alpha_𝑝 = 0 α1 =α2 =⋯=αp =0
备选假设（H A H_A H A ）：Y t Y_t Y t 对 X t + 1 X_{t+1}X t +1 存在格兰杰因果关系，或者说至少有一个滞后值具备统计显著意义。
计算F统计量：
F p , n − 2 p − 1 = 可解释方差不可解释方差 F_{p,n-2p-1} = \frac{可解释方差}{不可解释方差}F p ,n −2 p −1 =不可解释方差可解释方差
F p , n − 2 p − 1 = ( S S E R M − S S E U M ) p S S E U M ( n − 2 p − 1 ) F_{p,n-2p-1} = \frac{\frac{(SSE_{RM}-SSE_{UM})}{p}}{\frac{SSE_{UM}}{(n-2p-1)}}F p ,n −2 p −1 =(n −2 p −1 )S S E U M p (S S E R M −S S E U M )
这里 n n n 是观察值的个数，SSE是Sum of Squared Errors。
S S E R M SSE_{RM}S S E R M 是情况1下的SSM，S S E U M SSE_{UM}S S E U M 是情况2下的SSM。
可以尝试不同的阶数 p p p ，通过BIC( Bayesian Information Criterion )和AIC（Akaike Information Criterion）来决定。

局限性

格兰杰因果关系并不是真实的因果分析，也就是说它不意味着人类逻辑学上的因果关系。
如果存在类似前面所说的情况3的情景，或者更为复杂的依赖关系，格兰杰因果测试失效。
格兰杰因果只是检验两个变量之间的关系，但真实的依赖关系往往有多个变量存在依赖关系。
最后，值得一提的是格兰杰因果关系存在很多扩展方法。例如对多变量结合向量回归、基于GARCH方法、非堆成因果测试和结合傅里叶变换与微积分等较为复杂的数学工具。

Original: https://blog.csdn.net/weixin_43171270/article/details/124024710
Author: Magic Ktwc37
Title: 时序分析 27 – 时序预测格兰杰因果关系(上) 理论知识

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/626915/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Torchservedocker模型部署超详篇

1.模型打包 torch-model-archiver –model-name roadcross –version 1.0 –model-file model.py –s…

人工智能 2023年7月24日
0050
Elasticsearch：Bucket script 聚合

Bucket script 聚合是一个父管道（parent pipeline）聚合，它执行一个脚本，该脚本可以对父多桶聚合中的指定指标执行每个桶的计算。指定的指标必须是数字，并且…

人工智能 2023年6月30日
0070
哪款蓝牙耳机性价比最高？四款高性价比蓝牙耳机点评

随着不少旗舰级智能手机取消了3.5mm耳机孔，各种真无线蓝牙耳机出现在耳机市场中。以至于在同质化的环境中，很难找到一款拥有自己的风格和特点，适合运动的真无线蓝牙耳机。一、南卡A2…

人工智能 2023年5月25日
0051
深度学习卷积神经网络即插即用的小插件

卷积神经网络即插即用的小插件前言卷积神经网络设计技巧小插件 * STN ASPP Non-local SE CBAM DCN v1&v2 BlurPool RFB A…

人工智能 2023年7月13日
0065
ICASSP 2022 语音合成和语音识别简报

语音合成领域统计列表请访问http://yqli.tech/page/tts_paper.html，语音识别领域论文统计请访问http://yqli.tech/page/asr_p…

人工智能 2023年5月23日
0080
什么是contrastive learning？

阅读更多，欢迎关注公众号：论文收割机（paper_reader）因为排版问题，很多图片和公式无法直接显示，欢迎关注我们的公众号点击目录来阅读原文。引言对比学习最近特别火，为了…

人工智能 2023年7月13日
0073
padding(卷积中的填充)

文章目录 * – 情景（步长s为1）： – 另外一种情景（步长不为1）： – 卷积存在问题 – 填充 – Valid卷积…

人工智能 2023年6月25日
0099
深度学习图像去噪

最近几个月的项目中图像噪声一直是我最大的困扰，能够找到一种好并且快的去噪方式对于项目的进度与最终效果都起着关键的作用。最近几年深度学习去噪也是一个热门的方向，有着许多显著的研究成果…

人工智能 2023年6月16日
0054
语义分割系列15-UPerNet（pytorch实现）

UPerNet：《Unified Perceptual Parsing for Scene Understanding》发布于2018ECCV。引文人类在识别物体上往往是通过…

人工智能 2023年5月26日
0090
linux服务器python环境配置+pycharm连接服务器操作

普天同庆！！！从原来啥也不懂一直拖着想着等返校后问同学怎么操作，到现在迫于无奈需要训练只能自己配置，耗时半天终于搞明白了！！！（大神永远不懂小白的痛）目录 1.linux服务器环…

人工智能 2023年7月21日
0054
本周最新文献速递20211114

本周最新文献速递20211114 一、精细解读文献一文献题目： Mapping the proteo-genomic convergence of human diseases…

人工智能 2023年6月5日
0085
Lite Pose: Efficient Architecture Design for 2D Human Pose Estimation 阅读笔记

Lite-Pose：2D人体姿态估计的高效架构设计论文链接代码链接摘要：姿态估计在以人为中心的视觉应用中发挥关键作用。但由于高昂的计算成本（每帧超过150个GMACs（一个 G…

人工智能 2023年5月26日
0087
在DataFrame中根据索引值进行排序：sort_index()函数

【小白从小学Python、C、Java】【Python-计算机等级考试二级】【Python-数据分析】在DataFrame中根据索引值进行排序：sort_index()函数 [太阳…

人工智能 2023年7月6日
0083
【初学者入门】零基础入门NLP – 新闻文本分类

序言从今天开始入门学习NLP，虽然有点晚，但是我觉得任何时候都值得开始，尤其是面对你去感兴趣的事情。今天的任务是【零基础入门NLP – 新闻文本分类】，这是天池大…

人工智能 2023年7月1日
0078
毕业设计opencv 图像识别指纹识别 – python

文章目录 0 前言 1 课题背景 2 效果展示 3 具体实现 * 3.1 图像对比过滤 3.2 图像二值化 3.3 图像侵蚀细化 3.4 图像增强 3.5 特征点检测 4 Open…

人工智能 2023年7月30日
0062
为什么Diffusion Models钟爱U-net结构？

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月24日
0083

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

时序分析 27 – 时序预测 格兰杰因果关系(上) 理论知识