QVHIGHLIGHTS: Detecting Moments and Highlightsin Videos via Natural Language Queries

Abstract
在自然语言用户查询的情况下，从视频中检测定制的时刻和亮点是一个重要但研究不足的话题。追求这一方向的挑战之一是缺乏注解数据。为了解决这个问题，我们提出了基于查询的视频亮点（QVHIGHLIGHTS）数据集。它由1万多个YouTube视频组成，涵盖了广泛的主题，从生活方式视频中的日常活动和旅行到新闻视频中的社会和政治活动。数据集中的每个视频都有注释。 (1)人类编写的自由形式的NL查询，(2)视频中与查询相关的时刻，以及(3)所有与查询相关的片段的五分法显著性得分。这种全面的注释使我们能够开发和评估为不同的、灵活的用户查询检测相关时刻和突出亮点的系统。我们还为这项任务提出了一个强有力的基准，即Moment-DETR，这是一个转化器编码器-解码器模型，它将时刻检索视为一个直接的集合预测问题，将提取的视频和查询表征作为输入，并对时刻坐标和显著性分数进行端到端预测。虽然我们的模型没有利用任何人类先验，但我们表明，与精心设计的架构相比，它的表现具有竞争力。通过使用ASR字幕的弱监督预训练，Moment-DETR的表现大大超过了以前的方法。最后，我们介绍了Moment-DETR的几种表现和可视化。
1 Introduction
互联网视频正以前所未有的速度增长。使用户能够高效地搜索和浏览这些海量视频集合对于改善在线视频平台的用户体验至关重要。虽然在基于自然语言查询的视频搜索完整视频（即文本到视频检索 [35,36,15]）领域已经做了大量工作，但返回整个视频并不总是可取的，因为它们可以相当长（例如，从几分钟到几小时）。相反，用户可能希望在视频中找到与其查询最相关的精确时刻或一目了然地查看亮点，以便他们可以轻松跳到视频的相关部分。
许多数据集 [12,6,16,14,26] 已被提出用于”时刻检索”的第一个任务——在给定用户查询的情况下定位视频中的时刻。然而，据报道，大多数数据集 [4,16] 具有强烈的时间偏差，在视频开始时出现的时刻比在结束时出现的时刻多。同时，对于每个视频查询对，所有数据集仅提供一个时刻的注释。实际上，通常有多个时刻，即视频中的多个不相交时刻，与给定的查询相关。对于”亮点检测”的第二个任务，许多数据集 [32,11,30,7] 是查询不可知的，其中检测到的亮点不会因不同的输入用户查询而改变。 [19,37] 是两个现有的数据集根据用户查询收集亮点。可是对于一小组帧或剪辑被注释（[19] 中 331 秒长视频中的 20 帧或 [37] 中 60 秒视频中大约 10 秒剪辑），限制了它们准确学习和评估高光检测方法的能力。最后，虽然时刻检索和亮点检测这两个任务具有许多共同特征（例如，两者都需要学习用户文本查询和视频剪辑之间的相似性），但它们通常是分开研究的，主要是由于缺乏在单个数据集中支持这两个任务的注释.

为了解决这些问题，我们收集了 QVHIGHLIGHTS，这是一个统一的基准数据集，支持基于查询的视频时刻检索和高光检测。基于超过 10,000 个涵盖各种主题的 YouTube 视频（从日常活动和生活方式视频博客视频中的旅行到新闻视频中的社会和政治活动），我们为这两项任务收集了高质量的注释。图 1 显示了来自 QVHIGHLIGHTS 的两个示例。对于时刻检索，我们为视频中的查询提供一个或多个不相交时刻，从而能够对时刻检索方法进行更真实、准确且偏差较小（参见第 3.2 节）的评估。在带注释的时刻，我们还为每个 2 秒剪辑提供了一个五点李克特量表（从”非常好”到”非常差”）显着性/高亮度得分注释。这种全面的显着性注释为设计和评估基于查询的视频高光检测方法提供了更多空间。
接下来，为了为这项任务提供强大的初始模型，我们从最近的工作中汲取灵感，例如用于对象检测的 DETR [3]，并提出了 Moment-DETR，这是一种端到端的转换器编码器-解码器架构，将时刻检索视为直接设置预测问题。使用这种方法，我们有效地消除了对矩检索方法中常见的任何手动设计的预处理（例如，proposalgeneration）或后处理（例如，非最大抑制）步骤的需要。我们进一步在编码器输出之上添加了一个显着性排名目标，用于高亮检测。虽然 Moment-DETR 在其设计之前没有对任何人类进行编码，但我们的实验表明，与高度工程化的架构相比，它仍然具有竞争力。此外，通过 ASR 字幕的额外弱监督预训练，Moment-DETR 大大优于这些强大的方法。最后，我们还提供了详细的消融和可视化，以帮助了解 Moment-DETR 的内部工作原理。
总体而言，我们的贡献有 3 个方面：（i）我们收集了包含超过 10,000 个视频的 QVHIGHLIGHTS 数据集，并用人工编写的自然语言查询、相关时刻和显着性评分进行了注释。 (ii) 我们建议 Moment-DETR 作为我们数据集的强大基线。通过弱监督预训练，Moment-DETR 大大优于几个基线。 (iii) 我们提供了详细的数据集分析、模型消融和可视化。我们希望我们的工作能够激励和鼓励未来朝着这个重要方向的工作。

QVHIGHLIGHTS: Detecting Moments and Highlightsin Videos via Natural Language Queries

2 Related Work
数据集和任务。时刻检索 [12,6,16] 需要从给定自然语言查询的视频中定位时刻。各种数据集 [12,6,16,14,26] 已被提议或重新用于该任务。然而，如 [12,4,16] 所示，其中许多具有强烈的时间偏差，时刻位于视频的开头而不是结尾。在第 3.2 节中，我们显示 QVHIGHLIGHTS 中的时刻几乎均匀分布在视频上。同时，虽然这些数据集只收集每个查询视频对的一个时刻，但我们收集一个或多个时刻。高亮检测是我们数据集中的另一项重要任务。大多数现有数据集 [32,11,30,7] 是查询不可知的，它们不为特定用户查询提供定制的亮点。 [19,37] 是根据用户查询收集亮点的两个已知数据集。然而，他们只注释一小组帧或剪辑，限制了他们准确学习和评估高光检测方法的能力。相比之下，我们为与查询相关的所有剪辑提供了全面的五点李克特量表显着性/高亮度评分注释。此外，虽然这两个任务有一些共同的特征，但它们通常使用不同的基准数据集单独处理。在这项工作中，我们收集 QVHIGHLIGHTS 作为支持这两个任务的统一基准。在 5.2 节中，我们还证明了联合检测显着性有利于检索矩。
方法。已经开发了多种方法来解决时刻检索和高光检测任务。对于高光检测，先前的方法 [32,19,11,18,28] 通常是基于排名的，其中训练模型以通过铰链损失、交叉熵损失或强化方法为高光帧或剪辑提供更高的分数。对于矩检索，有一些工作试图对生成的矩建议进行评分 [12,29,4,41,39,34]，预测矩开始-结束索引 [8,16,17,38,40] 或回归矩坐标 [6] .然而，它们中的大多数需要手工制作的预处理（例如，提案生成）或后处理步骤（例如，非最大抑制），因此不是端到端可训练的。在这项工作中，从最近关于对象检测的工作 [3] 中汲取灵感，我们提出了 Moment-DETR，将时刻检索视为一个直接的集合预测问题。 Moment-DETR 将视频和用户查询表示作为输入，并直接端到端地输出时刻坐标和显着性分数，因此无需任何人工设计的人工事先步骤的预处理或后处理。
3 Dataset Collection and Analysis
我们的 QVHIGHLIGHTS 数据集包含超过 10,000 个用人工书写的自由格式查询注释的视频。每个查询都与相应视频中的一个或多个可变长度时刻相关联，以及时刻中每个剪辑的综合 5 点李克特尺度标注。在下文中，我们描述了我们的数据收集过程并提供了各种数据分析。
3.1 Data Collection
收集视频。我们想收集一组编辑较少，包含有趣和多样化内容的视频供用户注释。我们从 YouTube 上用户创建的生活方式视频博客开始。这些视频由来自世界各地的用户创建，展示了他们生活的各种事件和方面，从日常活动到旅行和观光等。这些视频是通过不同的设备拍摄的（例如，智能手机或 GoPro）具有不同的视角（例如，第一人称或第三人称），对计算机视觉系统提出了重要挑战。为了进一步增加数据集的多样性，我们还考虑了包含大部分”原始素材”的新闻视频。这些视频往往涵盖更严重的世界事件主题，例如自然灾害和抗议活动。为了收集这些视频，我们使用查询列表，例如”每日视频博客”、”旅行视频博客”、”新闻飓风”等。然后我们从 YouTube 的搜索结果中下载时长为 5-30 分钟的热门视频，保留以下视频： 2016 年后上传以获得更好的视觉质量，并过滤掉观看次数低于 100 或不喜欢比例非常高的视频。然后将这些原始视频分割成 150 秒的短视频进行注释。
收集用户查询和相关时刻。为了收集视频中自由形式的自然语言查询及其相关时刻，我们在 Amazon Mechanical Turk 上创建了一个注释任务。在这个任务中，我们向工作人员展示了一个视频，并要求他们观看视频和用标准英语写一个查询，描述视频中的有趣活动。接下来，我们向同一个工作人员展示从视频中分割出来的 2 秒长剪辑的网格，并要求他们从与查询相关的网格中选择所有剪辑。通过单击以选择单个剪辑和单击并拖动以选择连续剪辑，可以非常有效地完成选择。这种 2 秒剪辑注释协议允许比使用 [12] 中的 5 秒剪辑更精确的注释。此外，与之前的工作 [12,6,16,14,26] 不同，之前的工作只能为查询视频对选择一个时刻，用户可以在我们的设置中选择多个不相交的时刻。为了验证时刻注释的质量，我们使用了一组 600 个查询视频对，并从不同的工作人员中为每个查询收集了 3 组时刻。

然后，我们计算为同一查询注释的每对矩之间的交集（IoU），并取 3 个 IoU 分数的平均值来检查用户间协议。我们发现，对于大约 90% 的查询，它们的时刻的平均 IoU 分数高于 0.9，这表明通过我们的注释过程收集的时刻具有很高的用户间一致性，因此质量很高。
标注显着性分数。上一步中的相关时刻标注告诉我们视频中的哪些剪辑对应于用户查询。尽管所有选定的剪辑都与查询相关，但它们的显着性、它们对查询的代表性或它们是否会很好地突出显示，它们可能仍然存在很大差异。例如，我们希望具有适当摄像机角度和光照的剪辑比对所查询的活动有很多遮挡的剪辑更好，因此是视频的更好亮点。因此，我们创建了第二个注释任务，旨在收集每个相关剪辑的显着性分数。我们不会要求工作人员只选择一小组片段作为亮点 [37]，因为许多片段可能看起来相似并且同样显着。因此，强迫人们从这些相似的剪辑中只挑选几个剪辑会导致混淆并降低注释质量。具体来说，我们将第一个任务中所有选定的剪辑连同查询一起呈现给另一组工作人员。对于每个剪辑，工作人员需要在李克特量表系统 1 中对它们进行评分，其中有五个选项，”非常好”、”好”、”一般”、”差”、”非常差”。由于高亮度可能是主观的，我们从 3 个不同的工作人员那里收集评分，并将所有评分用于评估。
质量控制。为保证数据质量，我们只允许完成500个以上HIT且批准率95%的工人参与我们的注释任务。我们也按照[16]设置资格考试。我们的测试包含七个多项选择题（示例参见补充文件），工人必须正确回答所有问题才能获得任务资格。共有543名工人参加考试，合格率为48%。这种限定确保了高数据质量——如本小节前面提到的，我们观察到用户间高度一致的矩注释。
3.2 Data Analysis
我们总共收集了 10,310 个与 10,148 个视频中的 18,367 个时刻相关的查询。这些视频来自三个主要类别，每日视频博客、旅游视频博客和新闻事件。在表 1 中，我们显示了每个类别中的查询数量以及查询中排名靠前的动词和名词。这些热门词汇反映了视频中发生的主要活动。例如，在daily 和travelvlog 视频中，排名靠前的独特动词大多与”cook”和”clean”等日常活动相关，而在新闻视频中，它们更多地与”report”、”gather”、”gather”等严肃的活动有关。 ‘反对’。表 2 显示了 QVHIGHLIGHTS 与现有时刻检索和高亮检测数据集之间的比较。 QVHIGHLIGHTScan 有多个不相交时刻与单个查询配对（视频中每个查询平均 1.8 个时刻），而所有时刻检索数据集只能有一个时刻。这是一种更现实的设置，因为与视频中的查询相关的内容可能会被不相关的内容分隔开。它还可以实现更准确的评估，因为单个视频的注释是详尽和干净的，即所有相关时刻都被正确选择并且没有选择不相关时刻。在图 2 中，我们显示了矩长度和归一化（按视频持续时间）矩中心时间戳的分布。我们的数据集具有丰富多样的时刻，它们的长度差异很大。大约 38% 的时刻长度等于或小于 10 秒，而大约 23% 的时间超过 30 秒。时刻几乎均匀地分布在整个视频中，中间有一个小峰值（一些时刻跨越整个视频），这表明我们的数据集受到其他时刻检索数据集中常见的时间偏差的影响较小 [12, 16] – 其中时刻往往发生在更接近视频的开头。
表 2 中的大多数高光检测数据集 [32,11,30] 侧重于与查询无关的高光检测，而 QVHIGHLIGHTS 侧重于与查询相关的高光检测。 Click-Through [19] 和 ActivityThumbnails [37] 也有针对查询的高亮注释，但它们的注释并不全面：对于一个视频，ClickThrough 只注释了 20 个关键帧，而 ActivityThumbnails 将高亮限制在少于 5 个剪辑。相比之下，我们对所有相关剪辑采用了具有综合 5 级显着性评分的两阶段注释过程，使其更有助于开发有效模型，更准确地评估模型性能。
4 Methods: Moment-DETR
我们的目标是同时定位自然语言查询中的时刻和检测视频中的亮点。给定一个由Lqtoken组成的自然语言查询q和一个由Lvclips序列组成的视频，我们的目标是定位一个或多个时刻{mi}（一个时刻是一个连续的片段子集），以及预测片段的显著性分数S∈RLv（得分最高的片段被选择为亮点）。受最近使用变换器进行物体检测（DETR[3]）的启发，在这项工作中，我们为我们的QVHIGHLIGHTS数据集提出了一个强大的基线模型，”Moment-DETR”，一个端到端的变换器编码器-解码器架构，用于联合时刻检索和亮点检测。Moment-DETR删除了许多手工制作的组件，例如，建议生成模块和非最大抑制，通常用于传统方法[12,29,4,41,39,34]，并将时刻定位视为一个直接的集合预测问题。鉴于一组学习过的时刻查询，Moment-DETR对视频中片段的全局时间关系进行建模，并输出momentpan坐标和显著性分数。在下文中，我们将详细介绍Moment-DETR。
4.1 架构图3显示了Moment-DETR的整体架构。在下文中，我们将对其进行详细解释。输入表示法。转化器编码器的输入是投影视频和查询文本特征的连接。对于视频，我们使用SlowFast[5]和CLIP[25]的视频编码器（ViT-B/32）来提取每2秒的特征。然后，我们对这两个特征进行归一化处理，并在隐藏维度上将其连接起来。得到的视频特征表示为Ev∈RLv×2816。对于查询文本，我们使用CLIP文本编码器来提取标记级的特征，Eq∈RLq×512。下一步，我们使用单独的2层感知器，用分层规范[13]和剔除[13]将视频和查询特征投射到一个共享的大小嵌入空间。投射的特征在长度维度上被串联起来，作为转化器编码器的输入，表示为Einput∈RL×d,L=Lv+Lq。

Transformer Encoder-Decoder。视频和查询输入序列使用Ttransformer 编码器层堆栈进行编码。每个编码器层都具有与之前工作 [33,3] 相同的架构，具有多头自注意力层和前馈网络 (FFN)。由于transformerarchitecture 是置换不变的，因此在[3] 之后，将固定位置编码[23,1] 添加到每个注意力层的输入中。编码器的输出是Eenc∈RL×d。变压器解码器与 [33,3] 中的相同，具有一堆 Ttransformer 解码器层。每个解码器层由一个多头自注意层、一个交叉注意层（允许编码器输出和解码器输入之间的交互）和一个 FFN 组成。解码器的输入是一组 Ntrainable positionalembeddings 的大小，称为时刻查询。2这些嵌入被添加到每个注意力层的输入中，就像在编码器层中一样。解码器的输出是Edec∈RN×d。
变换器编码器-解码器。视频和查询输入序列是用一个堆叠的变换器编码器层进行编码的。每个编码器层的结构与以前的工作[33,3]相同，有一个多头自注意层和一个前馈网络（FFN）。由于变换器的结构是不变的，因此按照[3]的做法，在每个注意层的输入中加入了固定的位置编码[23,1]。编码器的输出是Eenc∈RL×d。变换器解码器与[33,3]相同，有一个堆叠的变换器解码器层。每个解码器层由一个多头自注意层、一个交叉注意层（允许编码器输出和解码器输入之间的互动）和一个FFN组成。解码器的输入是一组可训练的大小位置嵌入，被称为时刻查询2，这些嵌入被添加到每个注意力层的输入中，如同编码器层一样。解码器的输出是Edec∈RN×d。
预测头。给定编码器输出Eenc，我们使用线性层来预测输入视频的显着性分数S∈RLv。给定解码器 outputEdec，我们使用带有 ReLU [10] 的 3 层 FFN 来预测归一化矩中心坐标和宽度 w.r.t。输入视频。我们还遵循 DETR [3] 使用带有 softmax 的线性层来预测类标签。在 DETR 中，该层使用对象类标签进行训练。在我们的任务中，由于类标签不可用，对于预测的时刻，如果它与基本事实匹配，我们将其分配给前景标签，否则分配给背景标签。
4.2 Matching and Loss Functions
通过二分匹配设置预测。我们表示ˆy={ˆyi}Ni=1作为来自时刻查询的N个预测的集合，y={yi}Ni=1作为具有背景∅padding的地面真实时刻的集合。注意Ni是时刻查询的数量并且是大于真实时刻的数量。由于预测和真实时刻没有一一对应，为了计算损失，我们需要首先找到预测和真实时刻之间的分配。我们定义预测和真实时刻之间的匹配成本Cmatch为：

Moment-DETR 是使用端到端转换器编码器-解码器架构定义的，无需任何人工先验或手工制作的组件。这样的模型通常需要一个更大规模的数据集来进行训练以释放其真正的力量，而通过人工标记获得这些数据的成本将高得令人望而却步。因此，我们还尝试在视频中使用来自自动语音识别 (ASR) 的字幕进行弱监督预训练。尽管非常嘈杂，但 ASR 字幕已被证明可以提高视觉识别和文本到视频检索的性能 [22,21,17]。具体来说，我们从 YouTube 下载 ASR 字幕，并将这些字幕句子用作查询，训练模型预测它们对应的时间戳。我们总共收集了 236K 个与 5406trainvideos 相关的字幕-时间戳对。对于预训练，模型架构和学习目标与标准训练相同，只是我们删除了显着性损失（等式 3）中的第一项，因为显着性分数注释不可用。
5 实验和结果
5.1 实验设置数据和评估指标。我们将 QVHIGHLIGHTS 分成 70% 的训练、15% 的验证和 15% 的测试部分。为了评估具有多个时刻的时刻检索，我们使用平均精度 (mAP) 和 IoU 阈值 0.5 和 0.75，以及多个 IoU 阈值 [0.5: 0.05:0.95] 上的平均 mAP，类似于 [2] 中的动作检测。我们还报告了使用单时刻检索的标准度量 Recall@1 (R@1)，如果它具有高 IoU (>= 0.7) 和一个真实时刻，我们将预测定义为正。对于高光检测，我们使用 mAP 作为主要指标。我们还按照 [19] 使用 HIT@1 来计算得分最高的剪辑的命中率。与 [19] 类似，如果一个片段的分数为”非常好”，我们将其定义为正片段。由于我们有来自 3 个用户的真实显着性分数，我们评估每个用户的性能，然后取平均值。
实现细节。我们的模型是在 PyTorch [24] 中实现的。我们设置hidden sized=256,#layers inencoder/decoderT=2,#moment queriesN=10。我们对transformerlayers 使用0.1 的dropout，对输入投影层使用0.5 的dropout。我们将损失超参数设置为λL1=10,λiou=1,λcls=4,λs=1,∆=0.2。模型权重使用 Xavier init [9] 进行初始化。我们使用 AdamW [20] 的初始学习率为 1e-4，权重衰减 1e-4 来优化模型参数。模型训练了 200 epochs，批大小为 32。对于预训练，我们使用相同的设置，除了我们用批大小 256 训练模型 100 epochs。训练/微调和预训练都在 RTX 2080Ti GPU 上进行，训练/微调采取12 小时，预训练 2 天。
5.2 结果和分析与基线比较。我们在QVHIGHLIGHTStest split上比较Moment-DETR与各种矩检索和高光检测方法；结果如表 3 所示。对于矩检索，我们提供了三个基线、两个基于建议的方法 MCN [12] 和 CAL [4]，以及一个跨度预测方法 XML [16]。对于高光检测，我们提供了两个基线，BeautyThumb [30] 仅基于帧质量，DVSE [19] 基于剪辑查询相似性
由于 XML 还向用户查询输出剪辑相似度分数，因此我们也为此模型提供了高亮检测结果。原始 XML 模型的容量比 Moment-DETR 小，因此为了公平起见，我们通过添加更多层来增加其容量，并将其训练与 Moment-DETR 相同的时期数。此外，为了利用 QVHIGHLIGHTS 中的显着性注释，我们还为其添加了辅助显着性损失（称为”XML+”）。这些增强功能将原始 XML 模型提高了 2.76 个平均 mAP。

与最佳基线 XML+ 相比，Moment-DETR 在矩检索上的表现更具竞争力，它在较低的 IoU 阈值（即 R1@0.5 和 mAP@0.5（>7% 绝对改进）上获得显着更高的分数，但在更高的 IoU 阈值，即 R1@0.7 和 mAP@0.75。我们假设这是因为 L1 和广义 IoU 损失仅对预测和真实时刻之间的大不匹配（即小 IoU）给予大惩罚。这个属性鼓励 Moment-DETR 更关注具有小 IoU 和真实情况的预测，而对于那些具有相当大的 IoU（例如，0.5）的人则较少。此观察结果与用于对象检测的 DETR [3] 相同，在 AP50 中它显示出比基线显着改进，但在 AP75 中落后。对于高光检测，Moment-DETR 的性能与 XML+ 类似。如第 4.3 节所述，Moment-DETR 的设计没有人工先验或手工制作的组件，因此可能需要更多的训练数据来从数据中学习这些先验。因此，我们还使用 ASR 字幕进行弱监督预训练。通过预训练，Moment-DETR 在这两个任务上都大大优于基线，显示了我们方法的有效性。
损失消融。在表 4 中，我们通过一次关闭一个损失来显示损失的影响。当关闭显着性损失时，我们观察到高光检测和令人惊讶的时刻检索的性能显着下降。我们假设矩跨度预测损失（L1 和 IoU）和分类（CLS）损失不能为学习输入文本查询与其相关剪辑之间的相似性提供强大的监督，而显着性损失则提供了学习这种相似性的直接信号。在我们的框架下，这也表明联合检测显着性有利于检索矩。当关闭一个跨度预测损失（L1 或 IoU）时，我们看到时刻检索性能显着下降，而亮点检测性能保持相似，表明这两种损失对于时刻检索都很重要。

图 4：对于 Moment-DETR 解码器中的所有 10 个时刻查询槽，QVHIGHLIGHT Svalsplit 上所有 1550 个视频的所有时刻跨度预测的可视化。 x 轴表示归一化力矩跨度中心坐标 w.r.t.在视频中，y 轴表示归一化的力矩跨度宽度（也用颜色表示）。我们观察到每个槽都学会了预测不同时间位置和不同宽度的时刻。例如，第一个时隙主要预测视频开头附近的短片，而第二个时隙主要预测视频结尾附近的短片。

时刻查询分析。在图 4 中，我们可视化了所有 1550QVHIGHLIGHTSvalvideos 的时刻跨度预测，对于 Moment-DETR 解码器中的 10 个时刻查询槽。如图所示，每个槽学习预测不同模式的时刻，即不同的时间位置和不同的宽度。例如，一些时隙学习预测视频开头或结尾附近的短片（例如前两个时隙），而一些时隙学习预测中心附近的短片和长片（例如第三个时隙）。总体而言，大多数插槽学习预测短时刻，而只有少数插槽学习预测长时刻，可能是因为 QVHIGHLIGHTS 中的短时刻多于长时刻（请参阅我们在第 3.2 节中的数据分析）。
预测可视化。图 5（上）显示了 Moment-DETR 的正确预测。我们可以看到，该模型能够正确定位与用户查询相关的两个不相交时刻。同时，显着性分数也与真实分数曲线（通过平均 3 个注释者的分数获得）非常吻合。毫不奇怪，这个显着性得分曲线也与时刻预测相匹配——我们看到局部区域的得分高于外部区域。图 5（底部）显示了一个失败案例，它错误地定位了家庭所在的部分真实时刻（第二帧）在球场上打球，但不打篮球。更多例子见附录。
6 Conclusion
我们收集 QVHIGHLIGHTS 数据集用于从自然语言查询中检索时刻和高亮检测。这个新数据集由 10,000 多个不同的 YouTube 视频组成，每个视频都使用自由格式查询、相关时刻时间戳和剪辑显着性分数进行注释。提供了详细的数据分析，将收集的数据与以前的作品进行比较。我们进一步提出了 Moment-DETR，这是一种编码器-解码器转换器，可以联合执行时刻检索和高亮检测。我们表明，这种新模型与基线方法相比具有竞争力。此外，它还可以有效地从嘈杂的数据中学习。通过使用 ASR 字幕的弱监督预训练，Moment-DETR 大大优于以前的方法，为未来的工作设置了强大的优先级。最后，我们提供了 Moment-DETR 的消融和预测可视化。

Original: https://blog.csdn.net/learning5201/article/details/120745744
Author: learning112358
Title: QVHIGHLIGHTS: Detecting Moments and Highlightsin Videos via Natural Language Queries

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/532021/

转载文章受原作者版权保护。转载请注明原作者出处！

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

QVHIGHLIGHTS: Detecting Moments and Highlightsin Videos via Natural Language Queries

大家都在看