1. Two-Stream Convolutional Networks-2014NIPS

概述:基于 RGB 视频的动作识别方法中 Two Stream 的开山之作
关键词:Two Stream , optical flow ,
论文地址:https://arxiv.org/pdf/1406.2199.pdf
论文翻译地址:https://blog.csdn.net/liuxiao214/article/details/78377791

主要贡献

  • 首先,论文提出了 two-stream 结构的 CNN,由空间和时间两个维度的网络组成。
  • 其次,作者提出了利用网络训练多帧密度光流,以此作为输入,能在有限训练数据的情况下取得不错的结果。
  • 最后,采用多任务训练的方法将两个行为分类的数据集联合起来,增加训练数据,最终在两个数据集上都取得了更好的效果。(作者提到,联合训练也可以去除过拟合的可能)

原理图

网络架构

对与两个分支使用了相同的 2D CNN 网络结构,其网络结构见下图

  • 在空间部分,以单个帧上的外观形式,携带了视频描绘的场景和目标信息。 其自身静态外表是一个很有用的线索,因为一些动作很明显地与特定的目标有联系。
  • 在时间部分,以多帧上的运动形式,表达了观察者(摄像机)和目标者的运动。

什么是 optical flow?

(a)、(b):一对连续的视频帧,用青色矩形勾勒出移动的手周围的区域。
(c): 轮廓区域密集光流的特写镜头,表示一个 optical flow。
(d):位移矢量场的水平分量 dxo(高强度对应正值,低强度对应负值)。
(e):垂直分量 dy。注意(d)和(e)如何突出移动的手和弓。

optical flow 是由一些 displacement vector fields(位移矢量场)(每个 vector 用 dt 表示)组成的,其中 dt 是一个向量,表示第 t 帧的 displacement vector,是通过第 t 和第 t+1 帧图像得到的。dt 包含水平部分 dtx 和竖直部分 dty,可以看 Figure2 中的(d)和(e)。因此如果一个 video 有 L 帧,那么一共可以得到 2L 个 channel 的 optical flow,然后才能作为上图中 temporal stream convnet 网络的输入。

optical flow stacking 和 trajectory stacking?

作者在这里讨论了几种输入方式,虽然都是计算多帧之间光流场。

  • optical flow stacking : 光流栈,或者叫做光流的简单叠加。简单的来说就是计算每两帧之间的光流,然后简单的 stacking。
  • trajectory stacking: 顾名思义,轨迹叠加就是假设第一帧的某个像素点,我们可以通过光流来追踪它在视频中的轨迹。而简单的光流场叠加并没有追踪,每个都是计算的某帧 T+1 中某个像素点 P 相对于 T 帧中对应像素点 q 的位移,如上图所示,光流场叠加最终得到的是每个像素点的两帧之间的光流图

基本原理

  1. 对视频序列中每两帧计算密集光流,得到密集光流的序列(即 temporal 信息)。
  2. 然后对于视频图像(spatial)和密集光流(temporal)分别训练 CNN 模型, 两个分支的网络分别对动作的类别进行判断,
  3. 最后直接对两个网络的 class score 进行 fusion(包括直接平均和 svm 两种方法),得到最终的分类结果。

结果对比

2. Convolutional Two-Stream Network Fusion-2016CVPR

概述:对论文 1 的改进:CNN 网络进行了 spatial 以及 temporal 的融合
关键词:Two Stream , fusion,
论文地址:https://arxiv.org/pdf/1604.06573.pdf
论文翻译地址:https://blog.csdn.net/weixin_42164269/article/details/80689653
源码:https://github.com/feichtenhofer/twostreamfusion

3. (TSN)Temporal Segment Networks: Towards Good Practices for Deep Action Recognition-2016ECCV

概述:
关键词:
论文地址:
论文翻译地址:
源码:

4. (UntrimmedNets)UntrimmedNets for Weakly Supervised Action Recognition and Detection-2017CVPR

概述:
关键词:
论文地址:
论文翻译地址:
源码:https://github.com/wanglimin/UntrimmedNet