双流网络学习笔记

2023年7月13日上午6:08 • 人工智能 • 阅读 62

1.视频理解学习笔记

1.视频理解学习笔记
1.1.视频理解概述
1.2.双流网络的诞生
1.3.双流网络论文讲解

1.1.视频理解概述

为什么要选择视频？视频相对于图片所拥有的信息更多，利用这些不同方面的信息，可以完成多种信息提取，比如说从视频可以提取到时序性信息、从视频单个帧可以提取到视觉信息，如果将视觉、时序、听觉等方面结合起来，就是我们所说的 多模态。

同时，视频相较于图片其实更能够体现人的视觉机制，因为我们人类的视觉本质上其实一张张连续图片构成的”视频”，而并非单个的一张图片。

过去十年来。计算机视觉在2D上完成了众多壮举，但是这远远不够，视频对于图片形式更加多样，内容也非常多样，所以视频理解的研究前景非常可观。

1.2.双流网络的诞生

其实在之前，DeepVideo已经将深度学习的卷积神经网络运用到了视频分类领域，但是相较于人工特征提取进行分类，效果还没有人格特征提取的效果好，所以slowfast——双流神经网络的提出就是为了改变这个现状。

它的主要成就就是让深度学习在视频分类这一块站稳了脚跟，它可以和当时最好的人工特征提取方法达成平手。

1.3.双流网络论文讲解

文章标题为 Two-Stream Convolutional Nets for Action Recognition in Videos，从中我们不难发现，这个网络主要针对于视频中的行为识别。在一段视频中，我们其实更加关心的是人的动作，所以说在视频中做这个行为识别是非常有价值的。

1.3.1.双流网络主要思想

在最开始的时候，也就是DeepVideo那个时代，我们常常使用的是将一个视频：

抽取关键帧数，将这些帧图片一个一个通过卷积神经网络；
要么就是将这些帧图片叠起来，当作一个整体输入然后扔给神经网络。

但是这些工作的效果都不非常好。

双流网络的作者认为，以往的卷积神经网络更容易学习局部的特征，但是对于时空上的物体的动作运动信息，它不能够很好地处理。

那么双流网络的作者就想：那就干脆再设计一条神经网络让其学习从”输入光流(Temporal Stream)”到”动作类别”的一个映射，也就是说这里的输入贯穿了整个时间序，现在就需要两条神经网络分别学习”空间上的信息”到”种类”的映射和”时间上的信息”到”种类”的映射。

这里的空间信息我们用Spatial stream——空间流来表示，时间信息则使用光流这个概念来定义。

两条神经网络的前向传播的输出有两个概率，那么只需要将这两个概率取得加权平均值就可以得到一个汇总的概率值了。

可以看到，双流神经网络就是把最重要的”时序”信息给补上了，让CNN也能够学习到时间变化时，物体的变化特征。

事实上，作者也在双流网络原论文中讲到了：双流网络提出的启发主要来自元人类的视觉中枢的工作原理——也是有两条路的：dorsal stream and ventral stream，前者完成对运动信息的处理，后者完成对空间信息的识别。

; 1.3.2.关于光流(Optical flow)

所谓的光流，就是描述光的流动规律，具体一些就是描述视频中物体的运动状态变化规律。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

例如，上面的的图片是由两张帧图片叠加在一起形成的，所以有些”残影”。

如果要更形象一些，我们可以这样表示(这两张不一样哦)：

可以看到黑色的地方的像素值就是接近于0的，也就是说黑色部位的变化值为接近于0，也就是说这个部位没有发生运动，而白色的部位则是说明这个人的头进行了一定的运动。

由于拍摄用的是手机，所以就算人静止，也会有相对位移。

因此，我们提取到的光流特征就是一个忽略了其他因素，完全考虑物体运动的特征信息。

1.3.3.双流法的继承

事实上，我们今天所说的 双流法来自于之前的”基于光流轨迹”的手工特征提取方法，而如今的3D卷积网络来自于之前的”局部的时空学习”手工特征提取。

基于光流轨迹的手工特征提取方法其实和双流法类似——利用视频前后帧，来提取点对点的关系。

至于之前的研究工作，以DeepVideo为代表的一些列深度学习视频分类工作，利用了非常庞大的数据集(10亿张视频帧图片)，讲视频分帧后叠加在一起然后扔给卷积神经网络。

作者在论文中也介绍到了：如果把视频帧一张一张扔给2D卷积神经网络与把视频帧叠加在一起然后扔给3D卷积神经网络，两者的效果是一样的。也就是文章开头的一句话，这些学习都没有抓住如何提取出 运动信息特征信息。

1.3.4.双流神经网络的结构

视频可以被拆分为空间部分和时间部分，二者描述的特征类别不同。那么就让空间神经网络去学习空间特征，而时间神经网络去学习时间特征，两者互不打扰，到最后进行一个late fusion合并信息即可。

1.3.4.1.空间流神经网络

这个网络分支就是完成一个普通的图像分类，从静止的图片中提取出空间特征并利用全连接层映射为一个预测的特征向量。

; 1.3.4.2.时间流神经网络以及如何利用光流

1.3.4.2.1.光流及其具体表示

如图所示，a、b就是视频的连续的两个帧数，d、e分别为两个方向维度上的光流。

首先这两张帧图片维度为:
( h e i g h t , w i d t h , c h a n n e l ) (height,width,channel)(h e i g h t ,w i d t h ,c h a n n e l )
不管使用什么光流算法，你最后生成的图c为:
( h e i g h t , w i d t h , d i m s ) (height,width,dims)(h e i g h t ,w i d t h ,d i m s )
其中dims为x、y两个方向上的光流，因此d、e图形状为:
( h e i g h t , w i d t h , 1 ) (height,width,1)(h e i g h t ,w i d t h ,1 )

; 1.3.4.2.2.如何使用光流

要注意的是，如果我们直接将我们的光流图输入到卷积神经网络中去，那么我们本质上还是在做一个图像分类，因此，我们需要改变一下策略。

以往的手工特征提取方法是同时处理了多张光流图，这样理解：光流可以理解为一个动作的变化，那么我们不能通过一个变化就能猜出一个人在干什么，所以我们需要多个变化，所以以往的方法一次性处理的都是10-16帧图片。放在这里，我们需要将多个光流图叠加在一起再输入。

也就是说，时间流神经网络的输入叠加的光流图，那么如何叠加效果要好一些呢？该论文有提出了两种方法：

但是，最后实验发现第二种基于轨迹的实验效果要差一些。

关于光流的使用，作者还使用了一种trick——前向”追踪”+后向”追踪”，也就是说，你一个物体从A点到B我可以认出你在干什么，你反过来其实我还是可以认出来你在干什么？所以说假如是有L个光流图，我们最后输入的是L个前向光流图+L个后向光流图，总共2L个光流图。

1.3.4.2.3.关于时间流卷积神经网络的输入

前面我们都知道了时间流神经网络的输入是叠加的光流图片，那么具体叠加又是怎么叠加的呢？

论文里面给定的是现将水体方向的光流图进行叠加，然后再进行竖直方向的叠加。

那么最后可以得到的叠加为:
( h e i g h t r e s i z e , w i d t h r e s i z e , 2 L ) (height_{resize},width_{resize},2L)(h e i g h t r e s i z e ,w i d t h r e s i z e ,2 L )

1.3.4.3.最后的输出

上方、下方的网络输出的是一个:
( n u m c l a s s e s , 1 ) (num_{classes},1)(n u m c l a s s e s ,1 )
的特征向量，那么现在只需要进行一个权重相加并进行argmax即可。

到这里的话，双流神经网络的结构就完成了。

1.3.5.测试过程

训练我们已经介绍了，在测试的时候，需要把一段视频分成指定数目的视频帧，然后再将每一张帧图片进行 ten-crop操作，也就是将图片分为两个部分，一个部分进行随机翻转，另一个不变，分别对这两个图片进行如下操作：

以一定长度取得四个边角图片
以相同长度取得中间的图片。

对于一个fps为f的长度为t秒的视频，我指定分为25帧，那么间隔为:
f × t 25 \frac{f\times t}{25}2 5 f ×t
每一张帧图片有10个小图片，那么进一步就是250个图片。

对于光流来说也是一样的，要取得25帧图片后，并从这25帧的位置开始往后面连续取得L帧光流，然后将这些光流图送入时间流神经网络。

最后将取得的两个输出，进行late-fusion，从而得到最终结果。

; 1.3.6.如何计算光流

论文中采用的是一种使用了GPU计算的光流计算方法，引用论文下标为2，计算一帧光流图大概需要0.06秒。

但是，对于大型的数据集，耗时间是非常大的，将近一个月。并且，光流表示是密集数据，也就是对于一对图片，光流需要表示每个像素的变化，因此存储空间也是非常大。针对于这个存储空间需求大的问题，作者类别图像分类的归一化，将光流图的像素值也进行归一化到了[0,255]这个区间内部，并存储为JPEG格式图片，让存储空间从1.5TB缩减为27GB，但是光流对于大型数据所需的存储空间还是非常大。

因此，后续的工作主要是针对于光流的改进或者是直接另寻方法——3D卷积神经网络。

学习资料:

B站视频

Original: https://blog.csdn.net/Killer_kali/article/details/123643785
Author: 收尾人VEM
Title: 双流网络学习笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/689234/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据分析入门：数据类型+分析方法+分析过程，看这篇就够了

在互联网时代，没有一家公司的成功离得开数据分析，甚至没有一个团队的成功不需要数据分析，即便你只是一个自媒体博主，你依然需要通过分析数据来判断，哪些内容受众喜欢看。对企业来说，通过数…

人工智能 2023年7月16日
0043
手写笔迹鉴别系统(1)

本系统的主要功能是通过手写笔迹能够鉴别手写者的具体身份，主要是基于python和tensorflow来对系统和算法进行的实现，本文搭建了三个神经网络对手写笔迹有良好的鉴别效果。本…

人工智能 2023年5月24日
0065
SLAM–intel realsense2在ORB SLAM2 和 ORB SLAM3下建图和重定位（ubuntu 20.04, opencv 4.2.0 以上）

用intel 的realsense相机实现orb-slam2 和 orb_slam3(ubuntu 20.04系统): github上原版的ORB_SLAM3不能完成建图任务，只能…

人工智能 2023年6月2日
0058
分类问题的评价指标：多分类【Precision、 micro-P、macro-P】、【Recall、micro-R、macro-R】、【F1、 micro-F1、macro-F1】

一、混淆矩阵对于二分类的模型，预测结果与实际结果分别可以取0和1。我们用N和P代替0和1，T和F表示预测正确和错误。将他们两两组合，就形成了下图所示的混淆矩阵（注意：组合结果都是…

人工智能 2023年7月25日
0059
机器学习学习整理（二）对数几率回归与支持向量机

文章目录前言对数几率回归支持向量机 * 感知机支持向量机 – 线性可分近似线性可分线性不可分总结前言欢迎大家来看我的机器学习第二章，hhh这其实是第二…

人工智能 2023年6月17日
0061
QT编程：QT5.12.1+OpenCV(含Contrib)环境搭建（完整版）

Qt若要能处理图片和视频，则必须安装 OpenCV, OpenCV 中很多高级功能如人脸识别等皆包含在 Contrib扩展模块中，需要将 Contrib OpenCV 起联合编译。…

人工智能 2023年7月18日
0073
华为机试-第二题

知识图谱是一种结构化的语义网络，用于描述物理世界中的概念及其实例的相关关系。可以把知识图谱看成是一种有向图，图中的点是概念或实例，图中的边是概念及其实例的相关关系。现定义一种简单…

人工智能 2023年6月10日
0064
2021-11-23-GPU版本Tensorflow+Keras环境安装与配置

前言本文仅供备案使用，方便您日后查阅。已标记内容引用和引用。 [En] this article is only for record use, which is conveni…

人工智能 2023年5月24日
0095
深度学习—卷积神经网络（CNN）全笔记，附代码

本文内容为哔站学习笔记【卷积神经网络-CNN】深度学习（唐宇迪带你学AI）：卷积神经网络理论详解与项目实战，计算机视觉，图像识别模块实战_哔哩哔哩_bilibili 目录深度学习…

人工智能 2023年6月16日
0072
Pandas之Series和DateFrame详解

文章目录 1. 什么是Pandas? 2. 为什么要学习pandas 3. Series * 3.1 Series的创建 – 3.1.1 通过列表或者一维数组创建 3….

人工智能 2023年7月6日
0057
Python Dataframe 分组排序和 Modin

1、按照其中一列进行排序在dataframe中，按照其中的一列排序：比如q值倒排 2、按照其中多列进行排序在dataframe中，按照其中的多列排序：比如q值倒排、经纪人uci…

人工智能 2023年6月2日
0043
卷积层中的填充是什么，为什么需要使用填充

问题：卷积层中的填充是什么，为什么需要使用填充？详细介绍：在深度学习中，卷积神经网络（Convolutional Neural Network，CNN）是一种广泛应用于计算机视…

人工智能 2024年1月3日
0023
Numpy中多维数组创建及其基本属性（一）

数组创建及其基本属性前言一、怎么判断维度？ * – + 1.一维: 2.二维: 3.三维: 二、多维数组(ndarray)创建的方法有主要哪些？ * &#8211…

人工智能 2023年6月11日
0069
我的NLP

环境安装我在重新安装这个环境，总是遇到transformers的包的问题，建议下次装环境时，保持网络通畅而且创建环境时，不要声明python版本下面是我创建的环境 name…

人工智能 2023年5月28日
0058
OpenCV每日函数使用OpenCV的solvePnP函数和Dlib估计头部姿势

一、姿势估计概述在许多应用中，我们需要知道头部是如何相对于相机倾斜的。例如，在虚拟现实应用程序中，可以使用头部的姿势来渲染场景的右视图。在驾驶员辅助系统中，在车辆中观察驾驶员面部…

人工智能 2023年6月17日
0067
论文阅读—Solving multi-instance problems with classifier ensemble based on constructive clustering

多示例学习：传统的机器学习将单个示例作为一个目标对象，为其分配标签，而多实例学习将多个示例作为一个包，并将一个包作为一个目标对象，为其分配标签。原文使用将包映射为向量的方式来实…

人工智能 2023年6月2日
0067

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30