【ML】使用支持向量回归器进行时间序列预测

2023年6月16日下午10:11 • 人工智能 • 阅读 98

🔎大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流🔎
📝个人主页－Sonhhxg_柒的博客_CSDN博客📃
🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝
📣系列专栏 – 机器学习【ML】自然语言处理【NLP】深度学习【DL】

🖍foreword

✔说明⇢本人讲解主要包括Python、机器学习（ML）、深度学习（DL）、自然语言处理（NLP）等内容。
如果你对这个系列感兴趣的话，可以关注订阅哟👋

介绍

在本课中，您将发现一种使用SVM构建模型的特定方法：支持向量机进行回归，或SVR ：支持向量 回归器。

时间序列中的SVR

在了解 SVR 在时间序列预测中的重要性之前，这里有一些您需要了解的重要概念：

回归：监督学习技术，从给定的一组输入中预测连续值。这个想法是在具有最大数据点数的特征空间中拟合一条曲线（或直线）。点击这里了解更多信息。
支持向量机 (SVM)：一种用于分类、回归和异常值检测的监督机器学习模型。该模型是特征空间中的一个超平面，在分类的情况下充当边界，在回归的情况下充当最佳拟合线。在 SVM 中，通常使用核函数将数据集转换为更高维数的空间，以便它们易于分离。单击此处了解有关 SVM 的更多信息。
支持向量回归器 (SVR)：一种 SVM，用于找到具有最大数据点数的最佳拟合线（在 SVM 的情况下是超平面）。

为什么选择 SVR？

在上一课中，您了解了 ARIMA，这是一种非常成功的预测时间序列数据的统计线性方法。然而，在许多情况下，时间序列数据具有 非线性，线性模型无法映射。在这种情况下，SVM 考虑回归任务数据中非线性的能力使得 SVR 在时间序列预测中取得成功。

练习 – 建立 SVR 模型

数据准备的前几个步骤与上一课ARIMA的步骤相同。

打开本课中的 /working文件夹，找到 _notebook.ipynb_文件。

运行笔记本并导入必要的库：

import sys
sys.path.append('../../')
import os
import warnings
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import datetime as dt
import math

from sklearn.svm import SVR
from sklearn.preprocessing import MinMaxScaler
from common.utils import load_data, mape

将文件中的数据加载 /data/energy.csv到 Pandas 数据框中并查看： 2

energy = load_data('../../data')[['load']]

绘制从 2012 年 1 月到 2014 年 12 月的所有可用能源数据：2

energy.plot(y='load', subplots=True, figsize=(15, 8), fontsize=12)
plt.xlabel('timestamp', fontsize=12)
plt.ylabel('load', fontsize=12)
plt.show()

创建训练和测试数据集

现在您的数据已加载，因此您可以将其分成训练集和测试集。然后，您将重塑数据以创建 SVR 所需的基于时间步长的数据集。您将在训练集上训练您的模型。模型完成训练后，您将评估其在训练集、测试集和完整数据集上的准确性，以查看整体性能。您需要确保测试集覆盖训练集的较晚时间段，以确保模型不会从未来时间段2中获取信息（这种情况称为 过度拟合）。

为训练集分配从 2014 年 9 月 1 日到 10 月 31 日两个月的时间段。测试集将包括 2014 年 11 月 1 日至 12 月 31 日这两个月的时间：2

train_start_dt = '2014-11-01 00:00:00'
test_start_dt = '2014-12-30 00:00:00'

可视化差异：2

energy[(energy.index < test_start_dt) & (energy.index >= train_start_dt)][['load']].rename(columns={'load':'train'}) \
    .join(energy[test_start_dt:][['load']].rename(columns={'load':'test'}), how='outer') \
    .plot(y=['train', 'test'], figsize=(15, 8), fontsize=12)
plt.xlabel('timestamp', fontsize=12)
plt.ylabel('load', fontsize=12)
plt.show()

准备训练数据

现在，您需要通过对数据执行过滤和缩放来准备训练数据。过滤您的数据集以仅包含您需要的时间段和列，并进行缩放以确保将数据投影在 0,1 区间内。

过滤原始数据集以仅包括上述每组时间段，并且仅包括所需的列”负载”加上日期：

train = energy.copy()[(energy.index >= train_start_dt) & (energy.index < test_start_dt)][['load']]
test = energy.copy()[energy.index >= test_start_dt][['load']]

print('Training data shape: ', train.shape)
print('Test data shape: ', test.shape)

Training data shape:  (1416, 1)
Test data shape:  (48, 1)

将训练数据缩放到 (0, 1):

scaler = MinMaxScaler()
train['load'] = scaler.fit_transform(train)

现在，您缩放测试数据：

test['load'] = scaler.transform(test)

创建具有时间步长的数据

对于 SVR，您将输入数据转换为 [batch, timesteps]. 所以，你重塑了现有的 train_data， test_data这样就有了一个新的维度，它指的是时间步长。

Converting to numpy arrays
train_data = train.values
test_data = test.values

对于这个例子，我们取 timesteps = 5. 因此，模型的输入是前 4 个时间步的数据，输出将是第 5 个时间步的数据。

timesteps=5

使用嵌套列表推导将训练数据转换为 2D 张量：

train_data_timesteps=np.array([[j for j in train_data[i:i+timesteps]] for i in range(0,len(train_data)-timesteps+1)])[:,:,0]
train_data_timesteps.shape

(1412, 5)

将测试数据转换为 2D 张量：

test_data_timesteps=np.array([[j for j in test_data[i:i+timesteps]] for i in range(0,len(test_data)-timesteps+1)])[:,:,0]
test_data_timesteps.shape

(44, 5)

从训练和测试数据中选择输入和输出：

x_train, y_train = train_data_timesteps[:,:timesteps-1],train_data_timesteps[:,[timesteps-1]]
x_test, y_test = test_data_timesteps[:,:timesteps-1],test_data_timesteps[:,[timesteps-1]]

print(x_train.shape, y_train.shape)
print(x_test.shape, y_test.shape)

(1412, 4) (1412, 1)
(44, 4) (44, 1)

实施 SVR

现在，是时候实施 SVR 了。要阅读有关此实现的更多信息，您可以参考此文档。对于我们的实施，我们遵循以下步骤：

通过调用 SVR()和传入模型超参数来定义模型：kernel、gamma、c 和 epsilon
fit()通过调用函数为训练数据准备模型
predict()调用函数进行预测

现在我们创建一个 SVR 模型。这里我们使用RBF 内核，并将超参数 gamma、C 和 epsilon 分别设置为 0.5、10 和 0.05。

model = SVR(kernel='rbf',gamma=0.5, C=10, epsilon = 0.05)

在训练数据上拟合模型1

model.fit(x_train, y_train[:,0])

SVR(C=10, cache_size=200, coef0=0.0, degree=3, epsilon=0.05, gamma=0.5,
kernel=’rbf’, max_iter=-1, shrinking=True, tol=0.001, verbose=False)

进行模型预测1

y_train_pred = model.predict(x_train).reshape(-1,1)
y_test_pred = model.predict(x_test).reshape(-1,1)

print(y_train_pred.shape, y_test_pred.shape)

(1412, 1) (44, 1)

你已经建立了你的 SVR！现在我们需要评估它。

评估您的模型

为了评估，首先我们将数据缩减到原始规模。然后，为了检查性能，我们将绘制原始和预测的时间序列图，并打印 MAPE 结果。

缩放预测和原始输出：

undefined

Scaling the predictions
y_train_pred = scaler.inverse_transform(y_train_pred)
y_test_pred = scaler.inverse_transform(y_test_pred)

print(len(y_train_pred), len(y_test_pred))
Scaling the original values
y_train = scaler.inverse_transform(y_train)
y_test = scaler.inverse_transform(y_test)

print(len(y_train), len(y_test))

检查训练和测试数据的模型性能

我们从数据集中提取时间戳以显示在绘图的 x 轴上。请注意，我们将第一个 timesteps-1值用作第一个输出的输出输入，因此输出的时间戳将在那之后开始。

train_timestamps = energy[(energy.index < test_start_dt) & (energy.index >= train_start_dt)].index[timesteps-1:]
test_timestamps = energy[test_start_dt:].index[timesteps-1:]

print(len(train_timestamps), len(test_timestamps))

1412 44

绘制训练数据的预测：

plt.figure(figsize=(25,6))
plt.plot(train_timestamps, y_train, color = 'red', linewidth=2.0, alpha = 0.6)
plt.plot(train_timestamps, y_train_pred, color = 'blue', linewidth=0.8)
plt.legend(['Actual','Predicted'])
plt.xlabel('Timestamp')
plt.title("Training data prediction")
plt.show()

为训练数据打印 MAPE

print('MAPE for training data: ', mape(y_train_pred, y_train)*100, '%')

MAPE for training data: 1.7195710200875551 %

绘制测试数据的预测

plt.figure(figsize=(10,3))
plt.plot(test_timestamps, y_test, color = 'red', linewidth=2.0, alpha = 0.6)
plt.plot(test_timestamps, y_test_pred, color = 'blue', linewidth=0.8)
plt.legend(['Actual','Predicted'])
plt.xlabel('Timestamp')
plt.show()

打印 MAPE 用于测试数据

print('MAPE for testing data: ', mape(y_test_pred, y_test)*100, '%')

MAPE for testing data: 1.2623790187854018 %

🏆您在测试数据集上取得了非常好的结果！

检查完整数据集1上的性能

Extracting load values as numpy array
data = energy.copy().values

Scaling
data = scaler.transform(data)

Transforming to 2D tensor as per model input requirement
data_timesteps=np.array([[j for j in data[i:i+timesteps]] for i in range(0,len(data)-timesteps+1)])[:,:,0]
print("Tensor shape: ", data_timesteps.shape)

Selecting inputs and outputs from data
X, Y = data_timesteps[:,:timesteps-1],data_timesteps[:,[timesteps-1]]
print("X shape: ", X.shape,"\nY shape: ", Y.shape)

Tensor shape: (26300, 5)
X shape: (26300, 4)
Y shape: (26300, 1)

undefined

Make model predictions
Y_pred = model.predict(X).reshape(-1,1)

Inverse scale and reshape
Y_pred = scaler.inverse_transform(Y_pred)
Y = scaler.inverse_transform(Y)
plt.figure(figsize=(30,8))
plt.plot(Y, color = 'red', linewidth=2.0, alpha = 0.6)
plt.plot(Y_pred, color = 'blue', linewidth=0.8)
plt.legend(['Actual','Predicted'])
plt.xlabel('Timestamp')
plt.show()

undefined

print('MAPE: ', mape(Y_pred, Y)*100, '%')

MAPE: 2.0572089029888656

🏆非常漂亮的图，显示了一个准确度很高的模型。做得好！

Original: https://blog.csdn.net/sikh_0529/article/details/126961734
Author: Sonhhxg_柒
Title: 【ML】使用支持向量回归器进行时间序列预测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/626933/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

瑞芯微RV1109平台交叉编译踩坑

背景最近的一个工作任务是将之前在联咏平台上做的一个人脸识别的项目移植过去。之前这个项目主要是做的，移植的事情自然落到我身上了。组里也没人搞过瑞芯微的，开始踩坑淌水。交叉编译工具…

人工智能 2023年6月21日
0052
粒子群算法(PSO)优化的BP神经网络预测

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月25日
0046
ML之ME/LF：机器学习中回归预测模型评估指标之“调整确定系数R2”的简介、代码实现之详细攻略

ML之ME/LF：机器学习中回归预测模型评估指标之” 调整确定系数R2″的简介、代码实现之详细攻略回归预测模型中常用的评估指标”调整确定系数R…

人工智能 2023年6月17日
00128
如何在 Python 中创建DataFrame

DataFrame是数据的二维集合。它是一种数据结构，其中数据以表格形式存储。数据集按行和列排列；我们可以在DataFrame中存储多个数据集。我们可以执行各种算术运算，例…

人工智能 2023年7月6日
0071
tensorflow,神经网络理论知识_2

学习神经网络的优化过程，使用正则化减少过拟合，并使用优化器更新网络参数。 [En] Learn the neural network optimization process, u…

人工智能 2023年5月25日
0045
使用IEC62380和SN29500进行半导体功能安全基础失效率估计

摘要国际电工委员会(IEC)615081和国际标准化组织(ISO)26262等功能安全标准，要求半导体设备制造商解决系统性和随机性硬件失效。其中系统性失效通过遵循严格的开发流程…

人工智能 2023年7月28日
0074
OpenCV中blobFromImage函数详细解释

OpenCV中blobFromImage函数详细解释在 OpenCV 3.3之后的版本中，支持调用训练好的深度学习框架，其中有一些重要的函数，今天先总结一下blobFromIma…

人工智能 2023年6月19日
0081
入行数据分析要知道什么是数据&数据分析

大家好，我是Mr数据杨。想象一下，在《三国演义》的世界里，诸葛亮、周瑜和郭嘉等谋士们都懂数据分析，那将会发生什么呢？诸葛亮知道”数据的重要性”，他不仅凭直…

人工智能 2023年7月16日
0043
Faster_Rcnn误检解决方案—强制负样本策略

1.概述误检是目标检测领域的一大难点，现有的检测算法都存在误检情况．误检一般分成两类１．固定特征的误检．误检对象与正样本存在相似的特征，如将集装箱误检为卡车．２．没有规律的误检…

人工智能 2023年7月12日
0072
人脸生成对抗+人脸识别流程+insightface

一、人脸生成对抗传统的DeepFake 需要大量的原始数据，并且要经过好几天的训练才能达到高质量的效果。黎颢团队提出，将DeepFake和他此前做的怕GAN结合到一起，做了一个新…

人工智能 2023年7月28日
0064
OpenCV C++安装和配置

最新版的OpenVINO 2022.1 版本不在默认附带OpenCV工具，所以我们需要额外安装OpenCV工具。下载并安装OpenCV 访问OpenCV官网 https://op…

人工智能 2023年6月18日
0077
Swin Transformer详解: Hierarchical Vision Transformer using Shifted Windows

这篇文章结合了CNN的归纳偏置，基于局部窗口做注意力，并且逐步融合到深层transformer层中构建表征，来达到扩大感受野，并且极大降低了计算量。是一个特征提取的主干网络，bac…

人工智能 2023年7月26日
0047
python数据分析day4

目录 pandas 1.pandas的基础概念 2.pandas和numpy的区别 3.pandas的数据结构 4.series相关操作 5.DataFrame 6.pandas读…

人工智能 2023年7月18日
0067
AI遮天传 ML-KNN

我们之前学习的方法如决策树、回归分析、贝叶斯分析都可以看作是三步走的学习方法，即：估计问题的特征(如分布) 做出模型假设(LSE、Decision、Tree、MAP、MLE …

人工智能 2023年7月27日
0040
如何用OpenCV改变图片的大小？

改变图片的大小(resize)是一项很有用的基本技能，它能让图片拥有我们想要的大小。比如在初学阶段，我们在实践时所用的图片的太大，屏幕上显示时观感不好，可以利用这一项技能把图片变小…

人工智能 2023年6月18日
0063
用于低分辨率图像和小物体的新 CNN 模块SPD-Conv

🌟想了解YOLO系列算法更多进阶教程欢迎订阅我的专栏🌟 基础不好的同学可以试试看一下我的《目标检测蓝皮书》🚀 ，里面包含超多目标检测实用知识，想速通目标检测，看这本就对了！想了解…

人工智能 2023年6月25日
0077

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【ML】使用支持向量回归器进行时间序列预测

🖍foreword

介绍

时间序列中的SVR

为什么选择 SVR？

练习 – 建立 SVR 模型

创建训练和测试数据集

准备训练数据

创建具有时间步长的数据

实施 SVR

评估您的模型

检查完整数据集1上的性能

大家都在看