时间序列基础-序列分解与序列预测

2023年6月19日下午6:47 • 人工智能 • 阅读 98

时间序列分析就是发现时间序列的变动规律并使用该规律来预测的统计技术。时间序列分析基于以下三个假设：

假设事物发展规律趋势会延续到未来。
预测所依据的数据没有不规则性。
不考虑事物发展之间的因果关系。

时间序列分析主要包括两方面内容：第一是 序列分解；第二是 序列预测。

代码及数据地址：https://github.com/SeafyLiang/machine_learning_study/tree/master/time_series

时间序列基础-序列分解与序列预测

*
– 一、时间序列分解
–
+ 1.1 非季节性时间序列分解
+
* MA（Moving Average）
* SMA（Simple Moving Average）
* WMA（Weighted Moving Average）
+ 1.2 季节性时间序列
– 二、序列预测
–
+ 2.1 不平稳时间序列转换成平稳的时间序列
+
* 差分（Integrated）
* 单位根检验法
+ 2.2 自回归模型-AR
+ 2.3 移动平均模型-MA
+ 2.4 自回归移动平均模型-ARMA
+ 2.5 时序预测代码-AR, MA, ARMA

一、时间序列分解

一个时间序列包含三种影响因素：

长期趋势：在一个相当长的时间内表现为一种近似直线的持续向上、向下或平稳的趋势。
季节变动：受季节变化影响所形成的一种长度和幅度固定的短期周期波动，”季节”指的是周期，可以是周、月、年等。
不规则变动：受偶然因素的影响所形成的不规则波动，如股票市场受利好或者利空信息的影响，使得股票价格产生的波动。

时间序列按照季节性来分类，分为季节性时间序列和非季节性时间序列。

1.1 非季节性时间序列分解

MA（Moving Average）

移动平均是一种简单平滑技术，它通过在时间序列上逐项推移取一定项数的均值，来表现指标的长期变化和发展趋势。

SMA（Simple Moving Average）

简单移动平均将时间序列上前n个数值做简单的算术平均。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data = pd.read_csv('data/非季节性时间序列.csv', encoding='utf8', engine='python')

original_data = data['公司A']

def sma_demo():

    sma_data = original_data.rolling(3).mean()
    plt.plot(
        data.index, original_data, 'k-',
        data.index, sma_data, 'g-'
    )
    plt.show()

    random_error = original_data - sma_data
    plt.plot(
        data.index, original_data, 'k-',
        data.index, sma_data, 'g-',
        data.index, random_error, 'r-'
    )
    plt.show()

if __name__ == '__main__':
    sma_demo()

WMA（Weighted Moving Average）

加权移动平均在基于简单移动平均的基础上，对时间序列上前n期的每一期数值赋予对应的权重。
它的基本思想是，提升近期的数据并减弱远期数据对当前预测值的影响，使平滑值更贴近最近的变化趋势。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data = pd.read_csv('data/非季节性时间序列.csv', encoding='utf8', engine='python')

original_data = data['公司A']

def wma_demo():

    wl = 3

    ww = [1 / 6, 2 / 6, 3 / 6]

    def wma(window):
        return np.sum(window * ww)

    sma_data = original_data.rolling(wl).aggregate(wma)
    random_error = original_data - sma_data
    plt.plot(
        data.index, original_data, 'k-',
        data.index, sma_data, 'g-',
        data.index, random_error, 'r-'
    )
    plt.show()

if __name__ == '__main__':
    wma_demo()

1.2 季节性时间序列

季节性时间序列，是指在一个时间序列中，若经过n个时间间隔后，呈现出相似的波动，则称该序列具有以n为周期的季节性特性。

import pandas as pd
import statsmodels.api
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']

data = pd.read_csv('data/季节性时间序列.csv', encoding='utf8', engine='python')

total_sales = data['总销量'].values

'''
statsmodels.api.tsa.seasonal_decompose(x, freq=None)
x：要分解的季节性时间序列
freq：时间序列的周期，需要自己根据业务来判断数据的周期
'''
tsr = statsmodels.api.tsa.seasonal_decompose(
    total_sales, period=7
)

trend = tsr.trend

seasonal = tsr.seasonal

random_error = tsr.resid

fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2)

ax1.set_title('总销量')
ax1.plot(
    data.index, total_sales, 'k-'
)

ax2.set_title('趋势部分')
ax2.plot(
    data.index, trend, 'g-'
)

ax3.set_title('季节性部分')
ax3.plot(
    data.index, seasonal, 'r-'
)

ax4.set_title('随机误差')
ax4.plot(
    data.index, random_error, 'b-'
)
plt.show()

二、序列预测

时间序列预测，是根据时间序列反映出来的 发展过程、方向和趋势，进行类推或延伸，借以预测下一段时间或以后若干周期内可能达到的水平。

时间序列预测使用时间序列的 均值、方差和协方差这三个统计量来刻画时间序列的本质特征。若这些统计量的值在过去和未来仍保持不变，则为平稳的时间序列。

2.1 不平稳时间序列转换成平稳的时间序列

如果时间序列不平稳，则需要通过差分等技术手段，把它转换成平稳的时间序列，然后再进行预测。

差分（Integrated）

在pandas模块中，使用diff函数，即可对数据进行差分。

单位根检验法

可以使用单位根检验法来检验一个时间序列的平稳性。其中的p-value代表有多大的概率不是一个平稳的时间序列。

import pandas as pd
import matplotlib.pyplot as plt

import statsmodels.tsa.stattools as ts

plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
'''
一个平稳的时间序列指的是，未来的时间序列，它的均值、方差和协方差必定与现在的时间序列相等。
若时间序列不平稳，则需要通过差分等技术手段，把它转换成平稳的时间序列，然后再进行预测。
'''
data = pd.read_csv('data/时间序列预测.csv', encoding='utf8', engine='python')

data.index = pd.to_datetime(data.date, format='%Y%m%d')

del data['date']
plt.figure()
plt.plot(data, 'r')
plt.show()

def tagADF(t):
    result = pd.DataFrame(index=[
        "Test Statistic Value",
        "p-value", "Lags Used",
        "Number of Observations Used",
        "Critical Value(1%)",
        "Critical Value(5%)",
        "Critical Value(10%)"
    ], columns=['value']
    )
    result['value']['Test Statistic Value'] = t[0]
    result['value']['p-value'] = t[1]
    result['value']['Lags Used'] = t[2]
    result['value']['Number of Observations Used'] = t[3]
    result['value']['Critical Value(1%)'] = t[4]['1%']
    result['value']['Critical Value(5%)'] = t[4]['5%']
    result['value']['Critical Value(10%)'] = t[4]['10%']
    return result

adf_data = ts.adfuller(data.value)

adfResult = tagADF(adf_data)
print(adfResult)

diff = data.value.diff(1).dropna()

plt.figure()
plt.plot(diff, 'r')
plt.show()

adf_diff = ts.adfuller(diff)

adfResult = tagADF(adf_diff)
print(adfResult)

2.2 自回归模型-AR

自回归模型本质是一个线性回归模型，”自”描述的是当前值与历史值之间的关系。通过一个超参数p，把时间序列格式的样本转换为线性回归模型的样本。

2.3 移动平均模型-MA

移动平均模型描述的是自回归模型部分的累计误差。
移动平均模型的意义在于，找到较少参数的移动平均模型，来替代较多参数的自回归模型。

2.4 自回归移动平均模型-ARMA

ARMA模型就是AR模型和MA模型的组合，将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。

; 2.5 时序预测代码-AR, MA, ARMA

import statsmodels.api as sm
import pandas as pd
import matplotlib.pyplot as plt
import warnings

warnings.filterwarnings("ignore")
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']

data = pd.read_csv('data/时间序列预测.csv', encoding='utf8', engine='python')

data.index = pd.to_datetime(data.date, format='%Y%m%d')

del data['date']

diff = data.value.diff(1).dropna()

plt.figure()
plt.plot(diff, 'r')
plt.show()

def ar_demo():
    '''
    自回归
    :return:
    '''

    arModel = sm.tsa.AR(
        diff
    )

    p = arModel.select_order(
        maxlag=30,
        ic='aic'
    )
    print(p)

    arModel = arModel.fit(maxlag=p)

    delta = arModel.fittedvalues - diff
    score = 1 - delta.var() / diff.var()
    print(score)

def sma_demo():
    '''
    简单移动平均
    :return:
    '''
    sma_data = diff.rolling(3).mean()
    plt.plot(
        diff.index, diff, 'k-',
        diff.index, sma_data, 'g-'
    )
    plt.show()

def arma_demo():

    order = (6, 6)

    armaModel = sm.tsa.ARMA(
        diff, order
    ).fit()

    delta = armaModel.fittedvalues - diff
    score = 1 - delta.var() / diff.var()
    print(score)

    p = armaModel.predict(
        start='2016-03-31',
        end='2016-04-10'
    )

    def revert(diffValues, *lastValue):
        for i in range(len(lastValue)):
            result = []
            lv = lastValue[i]
            for dv in diffValues:
                lv = dv + lv
                result.append(lv)
            diffValues = result
        return diffValues

    r = revert(p, 10395)

    plt.figure()
    plt.plot(
        diff, 'r',
        label='Raw'
    )
    plt.plot(
        armaModel.fittedvalues, 'g',
        label='ARMA Model'
    )
    plt.plot(
        p, 'b', label='ARMA Predict'
    )
    plt.legend()
    plt.show()

    r = pd.DataFrame({
        'value': r
    }, index=p.index
    )
    plt.figure()
    plt.plot(
        data.value, c='r',
        label='Raw'
    )
    plt.plot(
        r, c='g',
        label='ARMA Model'
    )
    plt.legend()
    plt.show()

if __name__ == '__main__':
    ar_demo()
    sma_demo()
    arma_demo()

Original: https://blog.csdn.net/SeafyLiang/article/details/124160665
Author: SeafyLiang
Title: 时间序列基础-序列分解与序列预测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/639998/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

nnUNet推理与预测（手把手一步一步实现。接上文用自己的数据训练）

如上图所示，当我们训练了大概几轮之后会在nnUNet_trained_models文件下生成nnUNet以及2d的模型文件，我们可以看到fold_4里面会有model_best.m…

人工智能 2023年6月17日
0073
常用的高光谱遥感影像数据集（详细介绍+下载链接）

常用的高光谱遥感影像数据集前言数据集 * Indian Pines Salinas Pavia Centre and University – Pavia Cent…

人工智能 2023年7月16日
0077
Pytorch cifar100数据集的简单理解与用法

https://pytorch.org/vision/stable/generated/torchvision.datasets.CIFAR100.html#torchvision…

人工智能 2023年7月21日
0070
多个卷积层间合并的分析

假设输入数据为 channel1 × nh × nw 经过一个 kh × kw 的卷积核，步长为 s，padding为 p，则输出的空间维度为 ⌊( n h − k h +…

人工智能 2023年6月6日
0093
【手撕Transformer】Transformer输入输出细节以及代码实现（pytorch）

文章目录举例讲解transformer的输入输出细节 * encoder – padding Padding Mask Positional Embedding at…

人工智能 2023年7月20日
0055
机器视觉系列5：C++部署pytorch模型onnxruntime

系列文章目录第一章：Visual Studio 2019 动态链接库DLL建立第二章：VS动态链接库DLL调试第三章：VS2019 OpenCV环境配置第四章：C++部署p…

人工智能 2023年7月27日
0070
【Keras+计算机视觉+Tensorflow】DCGAN对抗生成网络在MNIST手写数据集上实战（附源码和数据集超详细）

需要源码和数据集请点赞关注收藏后评论区留言私信~~~ 一、生成对抗网络的概念生成对抗网络(GANs，Generative Adversarial Nets),由Ian Goodf…

人工智能 2023年7月31日
0062
【深度学习】7-矩阵乘法运算的反向传播求梯度

🚩 前言本节以较简单的例子来理解矩阵乘法下的反向传播过程。为了稍微形象一些，这里同样会用到计算图来进行描述。矩阵乘法下的反向传播，其实和标量计算下的反向传播区别不大，只是我们…

人工智能 2023年6月16日
00118
Python识别二维码的两种方法

人生苦短，快学Python！大家好，我是朱小五最近在搜寻资料时，发现了一则10年前的新闻：二维码将成线上线下关键入口。从今天的移动互联网来看，支付收款码/健康码等等与我们息息相…

人工智能 2023年5月26日
0070
时间序列—相关性和滞后性分析_python

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月18日
0057
40. Pandas怎样实现groupby聚合后字符串列的合并

Pandas怎样实现groupby聚合后字符串列的合并需求：计算每个月的最高温度、最低温度、出现的风向列表、出现的空气质量列表数据输入 ; 数据输出读取数据 import …

人工智能 2023年7月7日
0065
2019未来杯高校AI挑战赛-跨设备说话人识别

赛事简介语音可以用作生物特征识别的一种形式。通过采样说话人的声音，我们验证了说话人的身份。它在语音助手、安防等领域有着广泛的应用。与基于文本的说话人识别相比，文本无关的验证更具挑…

人工智能 2023年5月27日
0087
python之dict3—— 用dict 将dataframe 聚类；根据一列，对另一列进行分类/聚类

用dict 将dataframe 聚类。根据一列，对另一列进行分类/聚类比如：对以下这个idc的dataframe，选取各大指数成分股先在dataframe中根据一列选取另一…

人工智能 2023年7月1日
0076
OpenCV每日函数相机校准calibrateCamera函数

一、什么是相机校准估计相机参数的过程称为相机校准。这意味着我们拥有相机所需的所有信息（参数或系数），以确定现实世界中的3D 点与其在该校准相机捕获的图像中对应的 2D 投影（像…

人工智能 2023年6月19日
00158
吴恩达深度学习第一章第二周编程作业

文章目录前言一、题目描述。二、相关库三、编程步骤 * 1.数据预处理 2.模型的封装 3.模型的调用 4.结果展示总结前言本人处于初学阶段，编程能力有限，代码的编写参…

人工智能 2023年6月15日
0074
阿里天池数据分析入门利用Pandas分析数据

pd.read_csv用法 ccl = pd.read_csv("1_usa_candidate/ccl.txt", sep = ‘|’,names=[‘CAN…

人工智能 2023年7月9日
0086

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

时间序列基础-序列分解与序列预测

时间序列基础-序列分解与序列预测

一、时间序列分解

1.1 非季节性时间序列分解

MA（Moving Average）

SMA（Simple Moving Average）

WMA（Weighted Moving Average）

1.2 季节性时间序列

二、序列预测

2.1 不平稳时间序列转换成平稳的时间序列

差分（Integrated）

单位根检验法

2.2 自回归模型-AR

2.3 移动平均模型-MA

2.4 自回归移动平均模型-ARMA

; 2.5 时序预测代码-AR, MA, ARMA

大家都在看