时序数据库研究现状

2023年5月31日上午11:53 • 人工智能 • 阅读 58

广义认为是按照时间顺序存储的一系列数据。

常用场景：

电力行业、化工行业、气象行业、地理信息等各类型实时监测、检查与分析设备所采集、产生的数据

特点：

1）产生频率快（每一个监测点一秒钟内可产生多条数据）
2）严重依赖于采集时间（每一条数据均要求对应唯一的时间）
3）测点多信息量大（常规的实时监测系统均有成千上万的监测点，监测点每秒钟都产生数据，每天产生几十GB的数据量）
4）数据不可变：一旦插入到数据库之中，在过期或删除之前，数据点不会进行任何修改。

时序数据库的数据量很大，采集数据频繁，一般不支持对于历史高精度数据的查询（查询成本太高，且一般不具有规律性，不能提供参考意义）

1.基于统计的聚类

这类方法从时序数据中抽取统计特征，如平均值、方差、倾斜度，以及一些高阶特征等，如ARIMA模型的系数、分形度量（fractal measures）等。或是划分窗口，在每个窗口内计算这些统计特征，再进行汇总。

关注不同序列在统计特性上的差异，那么可以提取时序的统计特征，基于提取的统计等特征进行计算欧式距离的KMeans的聚类。

2.基于形状的聚类

许多时序数据往往具有相同的变化模式（如上升、下降、上升等），因此可以根据这些时序数据的形状相似性将变化模式相似的序列聚在同一个类，可以忽略数据在整幅、时间尺度等的差异。

关注形状的相似，那么可以使用执行SBD计算距离的k-shape聚类。

3.基于深度学习的聚类

该类方法主要基于autoencoder模型将时序数据转换为低维的隐空间，现有的变分自编码器（variational autoencoder）等虽然能够在一定程度上容忍噪声、异常值等。

想要捕捉时序的动态特性，可以使用深度学习的seq2seq对隐式向量进行聚类。

4.时间序列聚类的特征

（1）时间序列的聚类和普通的横截面数据聚类不一样；

（2）时间序列聚类的难点在于如何衡量两个时间序列之间的距离（相似性）；

（3）使用欧式距离等传统的距离衡量方式去衡量时间序列之间的距离是不可靠的；

（4）可以使用DTW（动态时间规整）的方法去衡量时间序列的距离（相似性）；

（5）当求出了时间序列之间的距离矩阵后，用啥聚类方法就问题不大了，层次聚类都行。

1.批处理

批处理是使用 pull 的方式查询时序原始数据，预先进行聚合运算获取数据结果写入时序数据库，当进行聚合查询时直接返回预处理后数据结果。时序数据库定期轮询规则，根据采样窗口创建预处理任务，任务根据规则信息形成多个任务队列。队列内任务顺序执行，队列间任务并发执行，多任务队列保证了多租户对计算资源共享。

优点：支持对历史时序数据的处理，实现简单

缺点：查询数据量大，非实时

2.流式处理

当数据时间戳到达采样窗口时，在内存中实时计算，写入时序数据库。相当于对时序数据库进行实时计算。

优点：数据实时计算，无需查询原始数据

缺点：需要特殊处理写入的历史数据，也需要处理运算过程中崩溃的计算单元

以上整合了目前查到的时序数据库与自己所需相关的内容。

Original: https://blog.csdn.net/m0_49423868/article/details/123696677
Author: 这男人可真帅
Title: 时序数据库研究现状

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/550834/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

[因果推断] 倾向得分Propensity Score 原理(二)

目录一前置知识干预效果 Treatment Effect Randomized Controlled Trials（RCT） Observational Studies AT…

人工智能 2023年7月28日
0063
蚁群聚类算法

%– Unknown date –% else p(:,j)=0; end; if maxp(1)蚁群算法.mat’) matlab7 Ori…

人工智能 2023年6月2日
0064
C++图书借阅信息管理系统

C++图书借阅信息管理系统二、图书借阅信息管理系统1.基于动态数组或者链表实现图书借阅信息的管理LibraryMIS,可以使用STL的vector或者list。2.图书信息主要包…

人工智能 2023年6月27日
0091
【javaSE】初始类与对象

文章目录一、什么是面向对象？二、类的定义与使用三、类和对象的关系四、this关键词五、对象的构造及初始化一、什么是面向对象？ Java是一门纯面向对象的语言(Objec…

人工智能 2023年6月29日
0044
dseo13b打开自动消失_抖音怎么自动生成字幕？动态字幕有哪几种？

点击蓝字关注，回复 2 添加助教即可领取抖音资料大礼包 [En] Add teaching assistants to receive the Douyin material g…

人工智能 2023年5月27日
00105
Ubuntu16.04系统之——安装Anaconda和Tensorflow

💂 个人主页: 同学来啦 🤟 版权: 本文由【同学来啦】原创、在CSDN首发、需要转载请联系博主 💬 如果文章对你有帮助、欢迎关注、点赞、收藏(一键三连) 和订阅专栏哦文章目…

人工智能 2023年5月24日
00106
Transformer模型中应用的各类位置编码

六种位置编码的代码实现及性能实验 1、位置编码的意义对于序列数据，目前存在三种主流的建模方式：卷积操作、循环操作和自注意力。其中，卷积和循环操作都具有局部性，即只作用目标元素的若…

人工智能 2023年6月15日
0071
研一NLP学习笔记1

截至到二月上旬，给自己研一上和寒假的学习做一个总结。目前学完了transformer模型，后面看bert模型。首先把李宏毅的机器学习课程看一遍，用xmind做一下笔记. 然后可以…

人工智能 2023年5月28日
0087
OpenCV学习笔记（十一）——图像噪声的生成（椒盐噪声、高斯噪声）

目录 1 椒盐噪声 2 高斯噪声图像在获取和传输过程种会受到随机信号的干扰从而产生噪声，例如电阻引起的热噪声、光子噪声、暗电流噪声以及光响应非均匀性噪声等，由于噪声会影响对图像的…

人工智能 2023年6月17日
0072
sklearn分类指标函数sklearn.metrics.classification_repor的用法详解（含源码）

sklearn.metrics.classification_report * – 调整方法及参数： – 参数说明 – + parameters…

人工智能 2023年7月17日
0051
图像分类/识别 VGG

VGG有很多个版本，也算是比较稳定和经典的model。它的特点也是连续conv多，计算量巨大（比前面几个都大很多）。（参数量：GoogleNet < AlexNet <…

人工智能 2023年7月2日
0061
sql实战-电商订单数据分析

SQL项目实战 1.数据集介绍来源：kaggle 本数据集包含了2016年至2018年近10万条交易记录。本次分析用到五张表： olist_orders_dataset：包含订…

人工智能 2023年7月15日
0085
中文文本纠错模型

重磅推荐专栏《Transformers自然语言处理系列教程》手把手带你深入实践Transformers，轻松构建属于自己的NLP智能应用！文本纠错任务是一项NLP基础任务，其输…

人工智能 2023年5月27日
0091
你用过猿如意吗？猿如意可以使用ChatGPT哦，这里详细介绍了猿如意的功能，为什么我建议你使用猿如意，来看看吧

文章内容介绍你是否还在为为每次安装IDE（集成开发工具）要去各种网站找教程而烦恼？你是否还在为各种文本格式转换而头痛？你是否在为斗图都不过兄弟们而卑微？你是否在为互联网中庞…

人工智能 2023年7月31日
0057
论文笔记 EMNLP 2021|Treasures Outside Contexts: Improving Event Detection via Global Statistics

文章目录 * – 1 简介 – + 1.1 动机 + 1.2 创新 – 2 方法 – + 2.1 语义特征提取器 + 2.2 统计特…

人工智能 2023年5月28日
0059
pytorch报错（4）forward() missing 1 required positional argument: ‘x‘或者‘NoneType‘ object is not callable

解决：TypeErro: ‘NoneType’ object is not callable/forward()TypeErro: forward() mi…

人工智能 2023年6月16日
00122

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30