Python时间序列分析–ARIMA模型实战案例

2023年7月26日上午5:53 • 人工智能 • 阅读 84

Python时间序列分析–ARIMA模型实战案例,利用ARIMA模型对时间序列进行分析的经典案例（详细代码）

本文将介绍使用Python来完成时间序列分析ARIMA模型的完整步骤与流程,绘制时序图，平稳性检验，单位根检验，白噪声检验，模型定阶，参数估计，模型检验等完整步骤。Python建立时间序列分析–ARIMA模型实战案例时间序列指的是将带有同一指标单位的数值按照产生时间的先后顺序排成的数列，对时间序列分析的主要目的是对目前已有的数据对未来进行预测。本文将使用将差分移动自回归模型(ARIMA)来对中国区域CH4浓度未来变化趋势做预测。
步骤：**
（1）首先判断时间序列数据是否平稳，若平稳，则进行下一步，若不平稳，就通
过差分处理将序列变为平稳，为保证数据的准确性，差分次数应该不超过2。
（2）判断时间序列是否是白噪声序列，如果是白噪声序列，那么该不序列并不适合ARIMA 模型分析，若不是，则进行下一步。
（3）模型定阶，通过自相关函数 ACF 和偏自相关函数 PACF 来决定模型的阶数
P、Q,也可以通过Bayesian Information Criterion（贝叶斯信息量BIC）准则来确定。
（4）建模并进行残差分析和白噪声检验。
（5）对时间序列数据使用训练完成的 ARIMA 模型进行预测，并对差分的数据进
行还原。

参考文章：
https://blog.csdn.net/qq_45176548/article/details/111504846#comments_14302892
https://blog.csdn.net/weixin_41013322/article/details/111221251
https://blog.csdn.net/u010414589/article/details/49622625

所用csv文件形式，只用这一列即可。

第一步导包

import decimal
import sys
import os
import statsmodels
from math import sqrt
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score
import warnings
import seaborn as sns
import matplotlib as matplotlib
import math
import matplotlib
from keras.losses import mean_squared_error, mean_absolute_error
from pasta.augment import inline
from sklearn.metrics import r2_score
import matplotlib.pyplot as plt
warnings.filterwarnings("ignore")
import pandas as pd
import numpy as np
from arch.unitroot import ADF
import matplotlib.pylab as plt

from matplotlib.pylab import style
style.use('ggplot')
import statsmodels.api as sm
import statsmodels.formula.api as smf
import statsmodels.tsa.api as smt
from statsmodels.tsa.stattools import adfuller
from statsmodels.stats.diagnostic import acorr_ljungbox
from statsmodels.graphics.api import qqplot
pd.set_option('display.float_format', lambda x: '%.5f' % x)
np.set_printoptions(precision=5, suppress=True)
"""中文显示问题"""
plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']
pd.set_option('display.width', 10000)

导入csv文件
这里是将CSV文件与python代码放在同一目录下，data1为一阶差分的序列

data = pd.read_csv('LSTM-01.csv',parse_dates=True)
dc=data["ch4"]
data1 = data["ch4"].diff(1)
data1.dropna(inplace=True)
print(data.head())

检查平稳性
ADF 单位根检验法是一种严格的统计检验方法，原理是指时间序列中是否存在单位根，如果是非平稳序列则存在单位根，反之是平稳序列则不存在单位根。本研究中使用ADF单位根检验法。

 print("原始单位根检验:\n")
 print(ADF(data["ch4"].dropna()))

检查平稳性
这里结果求得p值为0.995，大于0.05，可以直接判定该序列为非平稳序列

然后对其进行一阶差分，再使用ADF检验
P 值为 0.002，远小于0.05，并且 Τ 统计量都小于 1%，5%，10%的临界值，可以直接判定该序列为平稳序列，符合时间序列模型。确定d=1

data["diff1"] = data["ch4"].diff(1).dropna()
print("一阶单位根检验:\n")
print(ADF(data.diff1.dropna()))

判断是不是非白噪声序列，前一步的平稳性检验证明了该序列是平稳的，下面要判断该序列是否是白噪声序列，白噪声序列是没有研究意义的。所以需要对该序列进行白噪声检验，保证该序列是有研究意义的。白噪声检验结果的 P 值均小于0.05，可以判定该时序序列为非白噪声序列。

 from statsmodels.stats.diagnostic import acorr_ljungbox
 lb=acorr_ljungbox(data["ch4"].diff(1).dropna(), lags = [i for i in range(1,12)],boxpierce=True)
 print("白噪声检验")
 print(lb)

建立ARIMA模型，求得合适P,Q值

建立 ARIMA 模型首先要确定模型阶数，也就是要确定(P,D,Q)的值，在前一步已经确定差分次数为 1，所以 D 的值为 1。为找到适合模型的最佳阶数 P，Q 的值，将通过BIC 信息准则来进行判断。
data1为一阶差分的序列

train_results = sm.tsa.arma_order_select_ic(data1, ic=['aic', 'bic'], max_ar=4, max_ma=4)
print('AIC', train_results.aic_min_order)
print('BIC', train_results.bic_min_order)

ARIMA 模型的检验
确定了模型之后，要对拟合的模型进行检验，主要是对模型的显著性检验，检验模型的有效性，一个良好的模型的观察值序列中的样本信息应该是一个纯随机序列，即白噪声序列。如果残差序列是白噪声序列，说明序列中已经剔除了能对预测结果产生干扰的因素，残差序列就是不想关的，相反，如果不是白噪声序列，残差序列相关可能会造成预测结果的失真。
德宾-沃森（Durbin-Watson）检验。德宾-沃森检验,简称D-W检验，是目前检验自相关性最常用的方法，但它只使用于检验一阶自相关性。因为自相关系数ρ的值介于-1和1之间，所以 0≤DW≤４。并且DW＝O＝＞ρ＝１即存在正自相关性
DW＝４＜＝＞ρ＝－１即存在负自相关性
DW＝２＜＝＞ρ＝０即不存在（一阶）自相关性
因此，当DW值显著的接近于O或４时，则存在自相关性，而接近于２时，则不存在（一阶）自相关性。这样只要知道ＤＷ统计量的概率分布，在给定的显著水平下，根据临界值的位置就可以对原假设Ｈ０进行检验。

首先观察连续残差是否（自）相关，进行D-W检验。求得DW的值为#1.0077473271396427说明不存在自相关性。

 print('dwwwwwwwwwwww的值为')
 print(sm.stats.durbin_watson(result.resid.values))

LB检验

Ljung-Box test是对randomness的检验,或者说是对时间序列是否存在滞后相关的一种统计检验。对于滞后相关的检验，我们常常采用的方法还包括计算ACF和PCAF并观察其图像，但是无论是ACF还是PACF都仅仅考虑是否存在某一特定滞后阶数的相关。LB检验则是基于一系列滞后阶数，判断序列总体的相关性或者说随机性是否存在。
时间序列中一个最基本的模型就是高斯白噪声序列。而对于ARIMA模型，其残差被假定为高斯白噪声序列，所以当我们用ARIMA模型去拟合数据时，拟合后我们要对残差的估计序列进行LB检验，判断其是否是高斯白噪声，如果不是，那么就说明ARIMA模型也许并不是一个适合样本的模型。

 r,q,p = sm.tsa.acf(resid.values.squeeze(), qstat=True)
 print(r[1:])
 print('---------')
 print(q)
print('-------p值为--')
 print(p)
 print('ssssss')

统计量的 P 值大于 0.05 的显著性水平，通过了显著性检验，结果说明 ARIMA(3,1,2)，模型的残差序列为白噪声序列，模型显著有效

模型预测
利用ARIMA模型进行预测，预测已有的228个数据，预测未来的200个数据。

model1 = sm.tsa.ARIMA(data1, order=(3, 1, 2))
result=model1.fit()
predict_data = result.predict(0, 227)
print('预测数据')
print(predict_data)
forecast_data = result.forecast(200)

`bash

绘制图像

plt.plot(dc, label='原数据')
plt.plot(predict_data, label='预测数据')
plt.plot(forecast_data, label='未来数据')
plt.legend()
plt.show()
print('----------预测未来值')
print(forecast_data)

以下可以求一些用于评价模型标准的值


mse=mean_squared_error(dc,pred)

rmse = math.sqrt(mean_squared_error(dc,pred))

mae=mean_absolute_error(dc,pred)

r_square=r2_score(dc,pred)
print('均方误差MSE: %.6f' % mse)
print('均方根误差RMSE: %.6f' % rmse)
print('平均绝对误差MAE: %.6f' % mae)
print('R_square: %.6f' % r_square)

11.

Original: https://blog.csdn.net/unique_sir/article/details/127038895
Author: 21级研究生
Title: Python时间序列分析–ARIMA模型实战案例

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/716387/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ResNet网络结构详解（Tensorflow2.6.0实现网络结构）

文章目录 * – 1.ResNetX网络结构表 – + （1）论文地址： + （2）ResNet18网络结构： + （3）ResNet34网络结构： &#8…

人工智能 2023年7月5日
0084
【公共数据集】经典道路提取公共数据集及下载方式

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月9日
0089
Java图像处理——美颜相机项目核心

美颜相机项目或者Photoshop的核心就是图像处理。想要处理图像，首先需要了解图片是怎么在计算机中实现的，即图片原理。图片原理一张图片是由很多具备色彩种类、亮度等级等信息的…

人工智能 2023年6月20日
0071
网上商城项目（购物车下单、支付）

目录一、购物车结算前端功能实现 1.购物车页面实现结算功能，主要是拿到传入后台的gids 二、购物车结算后端功能实现 1.跳转订单页后台，主要是拿到订单页展示数据 2.订单页前台…

人工智能 2023年6月29日
0073
自然语言处理NLP星空智能对话机器人系列：深入理解Transformer自然语言处理 T5 Bill of Rights Sample

自然语言处理NLP星空智能对话机器人系列：深入理解Transformer自然语言处理 T5 Bill of Rights Sample 目录 T5 Bill of Rights S…

人工智能 2023年5月30日
0099
【离散数学】集合与关系

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月26日
0098
RK3399Pro-硬件编解码器MPP库快速上手–（三）MPP编码关键代码讲解

为了方便配置功能，我们一般将Mpp配置的关键参数定义为结构体: struct MPP_ENC_DATA { uint32_t frm_eos; uint32_t pkt_eos; …

人工智能 2023年6月20日
00108
集成学习是AI算法中常见的细节问题之一。通过将多个模型的预测结果进行集成，可以提升算法的性能和鲁棒性。常见的集成方法包括投票、平均等

集成学习（Ensemble Learning）的介绍集成学习是一种通过将多个模型的预测结果进行集成来提升算法性能和鲁棒性的方法。它在机器学习和人工智能中被广泛应用，能够有效地解决…

人工智能 2024年1月6日
0074
还在烦恼大屏难做？这4张银行酷炫可视化大屏收好了

作为最经常和报表打交道的行业，数据分析对金融业来说可谓是家常便饭。在对企业的数据进行分析和整理之后，我们需要将数据通过特别的方式来展示让人们一目了然的理解其背后的含义，这就是我们经…

人工智能 2023年6月11日
00200
安卓部署：手机端Anchor-free的目标检测模型Nanodet

Nanodet 深度学习目标检测已经发展了许多年，从Two-stage到One-stage，从Anchor-base到Anchor-free，再到今年的用Transformer做目…

人工智能 2023年7月12日
0054
微信原生组件｜基于小程序实现音视频通话

1 微信小程序原生推拉流组件功能简介本文将介绍如何使用微信小程序原生推拉流组件由于微信小程序原生推拉流组件使用起来比较复杂，推荐开发者使用即构封装的音视频SDK 2 实现微信小…

人工智能 2023年6月3日
00163
sklearn聚类算法之DBSCAN

基本思想聚类是很多观察值紧密聚集在一起的区域，DBSCAN算法就是受这一点的启发而来的，它对于聚类的形状没有做任何假设。具体来说，DBSCAN算法有如下几步： DBSCAN对象需…

人工智能 2023年6月15日
0088
机器学习之分类与回归的常见评价指标

在人工智能领域，机器学习的模型及效果如何需要用各种指标来评价。本文将简单介绍几种机器学习中无监督学习的常用评价指标。无监督学习主要分为两类：分类问题与回归问题。分类问题又分为二分…

人工智能 2023年7月15日
0068
图像的梯度

梯度计算 Sobel算子 Scharr算子 laplacian算子三种算子结果比较 Canny边缘检测 * 高斯滤波器梯度和方向非极大值抑制双阈值检测代码 Sobel算子…

人工智能 2023年5月28日
0087
LightCAKE: A Lightweight Framework for Context-Aware Knowledge Graph Embedding

研究问题提出了一个轻量级的知识图谱嵌入模型框架，可以用有限的参数有效利用实体和关系的上下文信息，并可以直接用来提升仅基于嵌入的老模型的效果背景动机论文首先提出了实体上下文和关…

人工智能 2023年6月1日
0090
人工智能实验——八数码难题

人工智能实验——八数码难题人工智能实验——八数码难题人工智能实验——八数码难题 * 八数码难题简介八数码难题所用到的算法简介代码实现解释运行结果显示代码附件程序可视化…

人工智能 2023年7月4日
0093

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python时间序列分析–ARIMA模型实战案例

Python时间序列分析–ARIMA模型实战案例,利用ARIMA模型对时间序列进行分析的经典案例（详细代码）

LB检验

大家都在看