时间序列分类几种方法解读

2023年7月1日下午9:42 • 人工智能 • 阅读 95

主要挑战：

KPI 通常是周期性的，取决于应用程序和系统，它们的周期可以从数天到数周。因此，每个 KPI 通常有数千个点需要完全捕捉才能刻画它在一段时间内的行为。但是因为一些不可避免的因素会导致时间序列有一些显著的形状变化，从而影响时间序列的分类。

噪音和异常：噪音和异常在 KPI 中很常见。噪音通常是指小围绕 KPI 中预期值的随机波动，而异常是显着的波动，通常更大超过 2 个标准差。噪音和异常可能会误导聚类方法，因为它们会扭曲KPI 之间的相似性。我们通过滑动平均，分段聚合（PAA）以及压缩聚合等一些手段可以有效降低噪音的影响，而对于异常值的处理我们可以通过4分位，3sgima等方式进行解决。

幅度差异：KPI 可以采用不同的尺度。例如，对两个密切相关但又不同的同一服务的模块可能看起来像（下图幅度变化1），但如果我们去除幅度差异这些 KPI 具有相似的模式并且可以作为一个组进行分析（下图幅度变化2）。而通过Z-score等标准化数据的方式可以有效解决这个问题。

相位偏移：相移是指在两个 KPI 之间全局水平的便宜。例如，同一系统上的一组 KPI调用链可能具有相似的形状，但具有时滞性。相位偏移可能使找到类似的 KPI 变得困难。为了解决这个问题，我们从距离度量和算法两个维度上解决这个问题：例如替代传统的欧式距离，改用NCC-SBD,DTW距离度量的方式，使用DBSCAN算法进行聚类等等。

高纬诅咒：高维诅咒是指随着数据维度的提升，很多我们在低纬度认为相当然的现象，在高纬度空间里面都不成立了，例如我们这相邻之间的点全部都变得很远。这在有数千个点的时间序列里是十分常见的问题。我们可以通过设置L1的距离度量替换L3及以上的距离度量解决这个问题。

图 1 时序数据分类的挑战

几种方式:

基于统计的时间序列分类：在对数据做一定的时间差分后，如果方差很小，可以判定为有时间周期性。否则为无时间周期性。该方法实现简单，缺点是只能分成2类。

图3.1 时间差分前图3.2 时间差分后

无监督的聚类：Yading[1]是一种大规模的时序聚类方法，有别于K-Means和K-Shape采用互相关统计方法，它采用PAA降维和基于密度聚类的方法实现快速聚类，且在计算距离时尽量保留了时间序列的形状。Rocka[2]是另一种大规模的时序聚类方法，在Yading的基础上，Rocka提出通过滑动平均+NCC-SBD的方式进行噪声提出和距离度量。无监督的聚类方法无需标签数据即可进行多个类别的分类，但是相对于监督学习准确度会稍低。

图4: 无监督聚类

监督学习的分类方法：主要包括Logistics、SVM，CNN[3]等。监督学习的分类方法准确度会比无监督的聚类方法跟高，但是需要大量的标签数据。

图3: CNN时间序列分类

参考论文：

[1] Ding R, Wang Q, Dang Y, et al. Yading: fast clustering of large-scale time series data[J]. Proceedings of the VLDB Endowment, 2015, 8(5): 473-484.

[2] Robust and rapid clustering of kpis for large-scale anomaly detection. 2018

[3] Tom Brander. Time series classification with Tensorflow[EB/OL]. https://burakhimmetoglu.com/2017/08/22/time-series-classification-with-tensorflow, 2017-08-22.

[4] Metis is a learnware platform in the field of AIOps[EB/OL]. https://github.com/Tencent/Metis, 2018-10-12.

Original: https://blog.csdn.net/Liao_Wenzhe/article/details/119776817
Author: Liao_Wenzhe
Title: 时间序列分类几种方法解读

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/664114/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习之分类算法-k近邻、朴素贝叶斯、决策树与随机森林、逻辑回归，回归算法-线性回归、岭回归，k-means

文章目录 * – 引入： – + 1.机器学习算法分类 + 2.机器学习开发流程 + 3.sklearn数据集 + 4.转换器与估计器 + 5.精确率与召回…

人工智能 2023年7月2日
00150
pytorch生成图像标签数据集的三种方式

使用CV2,skimage,PIL三种图像库做图像标签数据集的方法 1）方法一：利用opencv-python库生成图像标签数据集2）方法二：利用scikit-image库生成图像…

人工智能 2023年5月26日
0074
深入浅出Pandas：利用Python进行数据处理与分析 (李庆辉) 读书笔记

df = pd.read_excel（”地址”,io, sheet_name=0, header=0, names=None, index_col=None…

人工智能 2023年7月8日
0068
Python数据分析教程02：Pandas的常见用法及案例

numpy已经可以帮助我们进行数据的处理了，那么学习pandas的目的是什么呢? numpy能够帮动我们处理的是数值型的数据，当然在数据分析中除了数值型的数据还有好多其他类型的数据…

人工智能 2023年7月6日
0089
【论文阅读笔记】《Attention is All You Need》——Attention机制和Transformer

Self-Attention 原理计算两个向量之间的相关性α 输入的向量分别乘矩阵 W q 和 W k 得到 q ( q u e r y ) 和 k ( k …

人工智能 2023年5月31日
0082
大学生HTML作业节日网页 HTML作业节日文化网页期末作业 html+css+js节日网页 HTML学生节日介绍 HTML学生作业网页视频

🎉精彩专栏推荐 💭文末获取联系✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年6月27日
0088
数学建模竞赛2022美赛

文章目录前言一、中文底稿 * 摘要 1、问题重述 – 1.1 问题的背景 1.2 问题的重述 2、问题分析 – 2.1 问题一分析 2.2 问题二分析 …

人工智能 2023年7月17日
0055
【Docker】单机容器网络的实现原理

近期在复习容器网络的相关知识，将单机容器网络到跨主机网络通信的实现方法做以总结。这里是第一篇，后面还会发布其他笔记：跨主通信实现方法：UDP、VXLAN、host-gw 不同容…

人工智能 2023年6月30日
0082
解析WeNet云端推理部署代码

摘要：WeNet是一款开源端到端ASR工具包，它与ESPnet等开源语音项目相比，最大的优势在于提供了从训练到部署的一整套工具链，使ASR服务的工业落地更加简单。本文分享自华为云…

人工智能 2023年5月25日
00121
PMP每日一练 | 考试不迷路-11.12（包含敏捷+多选）

11.27PMP考试倒计时 15天每日5道PMP习题助大家上岸PMP！题目1-2： 1.在项目的中途，产品负责人从发起人那里了解到：有一个主要组件，它已经完成了 20%，但…

人工智能 2023年6月27日
0072
自编码器（AutoEncoder）对数据的降维和去噪及与PCA之间的联系

PCA（主成分分析）原理简介 PCA将复杂事情简单化，通过降维映射和线性变换来寻找一个”方差最大”、”误差最小”变量来表征数据特征。…

人工智能 2023年6月15日
0077
【大道至简】机器学习算法之EM算法(Expectation Maximization Algorithm)详解(附代码)—通俗理解EM算法。

☕️ 本文来自专栏：大道至简之机器学习系列专栏 🍃本专栏往期文章：逻辑回归(Logistic Regression)详解(附代码)—大道至简之机器学习算法系列——非常通…

人工智能 2023年7月28日
0061
【OpenCV 例程200篇】100. 自适应局部降噪滤波器

【OpenCV 例程200篇】100. 自适应局部降噪滤波器欢迎关注『OpenCV 例程200篇』系列，持续更新中欢迎关注『Python小白的OpenCV学习课』系列，持续更…

人工智能 2023年7月19日
0064
PaddleNLP基于ERNIR3.0文本分类以CAIL2018-SMALL数据集罪名预测任务为例【多标签】

NLP专栏简介：数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等专栏详细介绍：NLP专栏简介：数据增强、智能标注…

人工智能 2023年5月30日
0094
特斯拉阀：被遗忘的天才之阀

特斯拉阀是特斯拉发明的一个让人疑惑的物品，之所以让人疑惑，是因为它长得很奇怪，它长这样（如视频所示）按特斯拉的说法，这个东西既能当水管又能做阀门，是一个两用的天才设计。工作原理如…

人工智能 2023年6月4日
0072
解决huggingface中模型无法自动下载或者下载过慢的问题

项目场景：调用hugging face公开模型数据集中的transformers模型。问题描述：默认源在国内下载模型过慢，甚至不开始下载。原因分析：部分博客解决方案为：在…

人工智能 2023年7月22日
00129

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

时间序列分类几种方法解读

大家都在看