【MERLIN】

MERLIN

一、文献相关信息

  1. 文献名
    《MERLIN: Parameter-Free Discovery of Arbitrary Length
    Anomalies in Massive Time Series Archives》
  2. 作者:
    Takaaki Nakamura,Makoto Imamura,Ryan Mercer,Eamonn Keogh
  3. 发表会议
    ICDM
  4. 发表日期
    2020年

二 、重要定义

  1. 非自匹配:给定一个时间序列T,其中包含一个从p位置开始长度为L的子序列C和一个从q位置开始的匹配子序列M,如果∣ p − q ∣ ≥ L |p-q|≥L ∣p −q ∣≥L,则称M是在D i s t ( M , C ) Dist(M,C)D i s t (M ,C )距离处与C的非自匹配。
  2. 时间序列Discord:给定一个时间序列T,如果 D与其 最近的非自匹配的距离最大,则从位置i开始长度为L的子序列 D称为T的Discord。

三、论文拟解决的主要问题

  1. 解决Discord的效用会由于用户选择的子序列长度的敏感性而降低的问题
  2. 在大量的时间序列集中有效并准确地找到所有可能长度的Discord(异常)

四、论文的主要研究内容

  1. 正式定义了时间序列Discord
  2. 介绍了一种可伸缩性的算法——MERLIN
  3. 回顾了SOTA异常发现算法,文本的算法重复的使用了该算法,并且说明了参数r(异常的范围)的设置至关重要
  4. 展示了本文想法的通用性,并表明MERLIN可以发现一些微妙的异常

五、论文使用的算法

  1. MERLIN算法:
    【MERLIN】
    1~ 6:对于试图发现的第一个Discord的长度,可以设置r = 2 𝐿 r=2\sqrt𝐿r =2 L ​,并一直将其减半,直到成功;7~ 14:在这里,可以使用之前的Discord距离减去一个距离,比如1%。在不太可能的情况下,这太保守,导致失败,可以继续减去1%,直到成功;15 ~ 24:计算平均值M、标准差S,利用r = M − 2 S r =M-2S r =M −2 S来预测一个好的r值,直到成功。

; 六、实验评估

1. 发现超细微的异常现象

例子1 :
下图为一名51岁男性的心电图(ECG),在大约一半的位置处有一个明显的异常。

【MERLIN】
假设只考虑中心静脉压(CVP)数据,则聚氯乙烯异常在CVP中并不明显,但MERLIN可清楚地显示了该异常的位置,如下图所示:
【MERLIN】

例子2:
下图为来自火星科学实验室(MSL)探测器好奇号的数据片段:

【MERLIN】
由上图可知:MERLIN能够发现数据中的微妙异常。

2. 不同尺度的异常

例子1:
先重新访问一下纽约市的出租车需求数据集,下图显示了该数据的一个子集,只有从5小时到4天的每个长度的前1个motif:

【MERLIN】
MERLIN在上图中发现了长达4天的异常现象,反映了在正常日子所包围的情况下,感恩节是异常的。

例子2:
台北新建区办公地铁站类似但更长的客运量数据集:

【MERLIN】
搜索了10小时到10天的范围,只发现了7个异常,一些是自然原因,一些是文化文物,下图显示了其中4个异常:
【MERLIN】

例子3:
墨尔本市来自城市各地点一个月的行人交通量数据如下:

【MERLIN】
MERLIN发现的异常如上图所示,发现的最短的异常在语义上是有意义的,它对应于一个快闪舞表演的视频::https://www.youtube.com/watch?v=gLzDFjiRQE8.

【MERLIN】

3. 可伸缩性
为了测试MERLIN算法的可伸缩性,比较了MERLIN和SCRIMP、D R A G M L DRAG_{ML}D R A G M L ​,结果如下所示:

【MERLIN】
对于短时间序列,所有算法的性能都很相似,但随着时间序列长度的增加,SCRIMP的二次复杂度开始显示出来,D R A G M L DRAG_{ML}D R A G M L ​所花时间也逐渐增大,只有MERLIN随着时间序列长度的增加,其所花时间比较稳定,证明了其具有很好的可伸缩性。

4. Yahoo基准
例子1:

【MERLIN】
由上图中图可知,如果只考虑5到64,将得到完美的结果。只有当考虑一个不现实的值大于65时,才得到一个假阳性;由上图底图可知,可以检测到7个异常中的6个异常,并且没有假阴性。

5. NASA基准
扫描所有的数据集,寻找那些人眼在5秒内无法明显解决的例子。排除接近冗余的示例外,只有 三个数据集通过了该测试,在它们上运行MERLIN的结果如下图所示:

【MERLIN】
结果表明,除了上图中心中一个小的假阳性区域外,在三个数据集上都获得了完美的结果(找到了异常)。

6. 汽油基准
下图展示了在两个更具挑战性的示例上运行MERLIN的结果:

【MERLIN】
C temperature T 中的单一异常很容易发现,但可能有一个小区域,本文报告了假阳性;RT_level中的单一异常很容易被发现。

; 七、LSTM和MERLIN

  1. LSTM需要训练数据,并仔细设置8个参数
  2. MERLIN没有训练数据的情况下发现了微妙的异常,只需考虑MinL(异常下界长度)和MaxL(异常上界长度)

八、论文的创新点

  1. 首次提出了MERLIN算法
  2. 在大量的时间序列中发现所有长度的异常

Original: https://blog.csdn.net/qq_41307208/article/details/124150276
Author: Nicole 可
Title: 【MERLIN】

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/697536/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球