数据挖掘实战（3）——时间序列预测ARIMA模型（附踩坑日志）

2023年6月19日上午10:59 • 人工智能 • 阅读 60

文章目录

1 导包
2 数据准备
3 可视化
4 构建ARIMA模型
5 预测
6 踩坑日志

1 导包

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
from statsmodels.tsa.stattools import adfuller as ADF
from statsmodels.stats.diagnostic import acorr_ljungbox
from statsmodels.tsa.arima_model import ARIMA

2 数据准备


sns.set(style='darkgrid', color_codes=True)

plt.rcParams['font.sans-serif'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False

df = pd.read_excel('../data/shop.xlsx', index_col='日期')

3 可视化

时序图


plt.figure(figsize=(12, 6))
plt.plot(df)
plt.show()

自相关图&平稳性检验
自相关

统计相关性总结了两个变量之间的关系强度。我们可以假设每个变量的分布都符合高斯(钟形曲线)分布。如果是这样，我们可以使用皮尔逊相关系数（Pearson
correlation coefficient）来总结变量之间的相关性。
皮尔逊相关系数是-1和1之间的数字分别描述负相关或正相关。值为零表示无相关。
我们可以使用以前的时间步长来计算时间序列观测的相关性。由于时间序列的相关性与之前的相同系列的值进行了计算，这被称为序列相关或自相关。
一个时间序列的自相关系数被称为自相关函数，或简称ACF。这个图被称为相关图或自相关图。


plot_acf(df)
plt.show()

print('原始序列的ADF检验结果为:\n', ADF(df['销量']))

原始序列的ADF检验结果为:
 (1.8137710150945274, 0.9983759421514264, 10, 26, {'1%': -3.7112123008648155, '5%': -2.981246804733728, '10%': -2.6300945562130176}, 299.46989866024177)

差分时序图


d_data = df['销量'].diff().dropna()
d_data.columns = ['销量差分']
plt.plot(d_data, label='销量差分')
plt.legend(loc='best')
plt.show()

差分自相关图&平稳性检验


plot_acf(d_data)
plt.show()

print('差分序列的ADF检验结果为:\n', ADF(d_data))

差分序列的ADF检验结果为:
 (-3.1560562366723537, 0.022673435440048798, 0, 35, {'1%': -3.6327426647230316, '5%': -2.9485102040816327, '10%': -2.6130173469387756}, 287.5909090780334)

一阶差分后时序图在均值附近平稳波动，自相关图有较强的短期相关性，P值小于0.05，所以一阶差分后的序列是平稳序列
差分序列白噪声检验


print('差分序列的白噪声检验结果为:\n', acorr_ljungbox(d_data, lags=1))

p值小于0.05，说明是平稳且非白噪声序列

差分序列的白噪声检验结果为:
 (array([11.30402222]), array([0.00077339]))

差分序列偏自相关系数PACF


plot_pacf(d_data)
plt.show()

4 构建ARIMA模型

ARIMA模型

ARIMA模型（英语：Autoregressive Integrated Moving Average model），差分整合移动平均自回归模型，又称整合移动平均自回归模型（移动也可称作滑动），是时间序列预测分析方法之一。ARIMA(p，d，q)中，AR是”自回归”，p为自回归项数；MA为”滑动平均”，q为滑动平均项数，d为使之成为平稳序列所做的差分次数（阶数）。”差分”一词虽未出现在ARIMA的英文名称中，却是关键步骤。

定阶


df['销量'] = df['销量'].astype(float)
pmax = int(len(d_data) / 10)
qmax = int(len(d_data) / 10)
bic_matrix = []
for p in range(pmax + 1):
    tmp = []
    for q in range(qmax + 1):
        try:
            tmp.append(ARIMA(df, (p, 1, q)).fit().bic)
        except:
            tmp.append(None)
    bic_matrix.append(tmp)

bic_matrix = pd.DataFrame(bic_matrix)

bic_matrix

p, q = bic_matrix.stack().idxmin()
print('BIC最小的p值和q值为:%s. %s' % (p, q))

p, q = bic_matrix.stack().idxmin()
print('BIC最小的p值和q值为:%s. %s' % (p, q))

BIC最小的p值和q值为:0. 1

建立模型


model = ARIMA(df, (p, 1, q)).fit()
model.summary(2)

5 预测


model.forecast(5)

返回预测结果、标准误差、置信区间

(array([4873.96648392, 4923.92248997, 4973.87849602, 5023.83450207,
        5073.79050812]),
 array([ 73.08574325, 142.3267917 , 187.54280953, 223.80280422,
        254.95702569]),
 array([[4730.72105936, 5017.21190847],
        [4644.96710419, 5202.87787574],
        [4606.30134378, 5341.45564826],
        [4585.18906616, 5462.47993798],
        [4574.08392017, 5573.49709607]]))

6 踩坑日志

初次运行时，报错

TypeError: reduction operation 'argmin' not allowed for this dtype

查看bic矩阵，发现全是None

百度发现，原因时statsmodels版本更新了，之前的模板代码不能使用，只好降级到0.11.1，并使用清华源加速

pip install statsmodels==0.11.1 -i https://pypi.tuna.tsinghua.edu.cn/simple

后续，定阶计算p、q时，报错

C:\Users\leejack\.conda\envs\pytorch\lib\site-packages\statsmodels\tsa\base\tsa_model.py:159: ValueWarning: No frequency information was provided, so inferred frequency D will be used.

原因未知

Original: https://blog.csdn.net/m0_46275020/article/details/126326203
Author: 热爱旅行的小李同学
Title: 数据挖掘实战（3）——时间序列预测ARIMA模型（附踩坑日志）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/638907/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

时空数据挖掘一（城市计算）

Robust Spatio-Temporal Purchase Prediction via Deep Meta Learning 购买预测是线上和线下零售行业的一项重要任务，特别…

人工智能 2023年6月19日
0072
计算机视觉算法面试必备知识点（2022）

去年面试字节的时候，准备了一些算法常用的面试知识点，事实证明，准备的还不错。现在分享给大家，希望自己求职路也顺利些。目录优化算法，Adam, Momentum, Adagard…

人工智能 2023年5月26日
0097
Android Studio实现一个简单的健身系统

文章目录一、系统背景二、系统概述三、开发环境四、系统结构五、详细设计 * 5.1、RecycleView 5.2、ViewPager 5.3、OkHttp 六、运行演示 …

人工智能 2023年5月30日
0071
Unity用代码写行走移动（第一人称）

利用代码写物体移动,首先我们要知道按键检测一般按键检测if (Input.GetKey(KeyCode.按键值)) 比如说我按W触发就是 if (Input.GetKey(Key…

人工智能 2023年7月31日
0055
[ 音频篇 ] 29 – 调试智能音箱中音频通路的回采(Ref信号)

项目场景：项目基于BCM6755平台为基础，通过一系列的语音算法完成实现语音交互场景。这次遇到的问题主要是AEC效果差，如上图所示，设备播放音乐的场景，会出现唤醒困难的想象。实际…

人工智能 2023年5月27日
00149
基于TensorFlow卷积神经网络与MNIST数据集设计手写数字识别算法

随着数字化的普及和信息技术的发展，在编号处理、数量读取、价格统计等场合，手写数字识别系统的应用需求越来越强烈，如何将数字方便、快速地输入到计算机中已成为关系到计算机技术普及的关键问…

人工智能 2023年5月25日
0074
数据分析之滚动窗口pandas.DataFrame.rolling方法

本文使用pandas 1.3.5 , python 3, numpy 1.22.0库文章目录前言一、rolling使用公式二、python实现前言 pandas.Dat…

人工智能 2023年6月19日
0093
UNIX SHELL常用数据表的行和列特定输出处理

数据表处理过程常用的特定行列的删除或提取，在此利用shell unix语言进行处理进行学习分享 ### 按行提取数据 sed 使用 sed s 替换脚本命令 sed [选项] [脚…

人工智能 2023年6月11日
0045
猿创征文｜时间序列分析算法之平稳时间序列预测算法和自回归模型(AR)详解+Python代码实现

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月16日
0068
YOLO V5源码详解

1.数据读取首先读取图片以及标签路径，并将标签存入缓存，对单标签情况、特定类别、以及是否保持长方形等情况分别进行处理。如果需要进行mosaic 数据增强，首先找到中心点，将图片…

人工智能 2023年7月5日
00101
个人博客系统(附源码)

前面学习了那么多的理论知识,一直比较枯燥,今天就做个小项目,来检验一下前面的学习成果吧!有需要源代码的小伙伴可以来看看:个人博客系统;这个小项目主要是模仿CSDN做的,但是功能还是…

人工智能 2023年7月31日
0055
图像聚类算法

目录一、分类与聚类 * 1、分类 2、聚类 – 聚类样本间的属性聚类的常见算法二、K-Means聚类 * 1、定义、优点 2、k-means聚类算法的分析流程：…

人工智能 2023年7月27日
0061
Jupyter 是什么

1. 先说说 Jupyter 怎么读。虽然我们知道，读书时不必发出声音，甚至不需要在心里默默阅读，但我们可以快速阅读。 [En] Although we know that we…

人工智能 2023年5月23日
00128
【论文笔记】A Survey of Visual Transformers（完结）

声明：本人是来自 γ 星球的外星人为了学习地球的深度学习知识的，好回去建设自己的家乡每周不定期更新自己的论文精读笔记，中心思想是两个字 — 易懂没啥事的兄弟姐妹们，…

人工智能 2023年5月28日
0070
一个项目的整个流程

1.基本配置基础配置包括 1.Vuex————作用:存储公共的数据 2.Vue-router——&#821…

人工智能 2023年6月2日
0095
OpenCV图像融合的两种方法

1. 使用ROI进行图像融合 1.1 定义ROI 方法一：用矩形区域Rect，指定矩形框的左上角点和宽高。 Mat ImgROI = src(Rect(20, 20, logo….

人工智能 2023年7月19日
0060

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

数据挖掘实战（3）——时间序列预测ARIMA模型（附踩坑日志）

文章目录

大家都在看