论文-时空双流Two Stream及衍生方法
1. Two-Stream Convolutional Networks-2014NIPS
概述:基于 RGB 视频的动作识别方法中 Two Stream 的开山之作关键词:Two Stream , optical flow ,论文地址:https://arxiv.org/pdf/1406.2199.pdf论文翻译地址:https://blog.csdn.net/liuxiao214/article/details/78377791
主要贡献
首先,论文提出了 two-stream 结构的 CNN,由空间和时间两个维度的网络组成。
其次,作者提出了利用网络训练多帧密度光流,以此作为输入,能在有限训练数据的情况下取得不错的结果。
最后,采用多任务训练的方法将两个行为分类的数据集联合起来,增加训练数据,最终在两个数据集上都取得了更好的效果。(作者提到,联合训练也可以去除过拟合的可能)
原理图网络架构对与两个分支使用了相同的 2D CNN 网络结构,其网络结构见下图
在空间部分,以单个帧上的外观形式,携带了视频描绘的场景和目标信息。 其自身静态外表是一个很有用的线索,因为一些动作 ...
论文-3D卷积 C3D 及衍生方法
1. (C3D)Learning spatiotemporal features with 3d convolutional networks-2015ICCV-facebook
概述:采用 3D 卷积和 3D Pooling 构建了网络。 通过 3D 卷积,C3D 可以直接处理视频(或者说是视频帧的 volume)关键词:C3D,速度快,模型简单论文地址:https://arxiv.org/pdf/1412.0767.pdf论文翻译地址:https://www.jianshu.com/p/09d1d8ffe8a4caff 源码:https://github.com/facebook/C3D
主要贡献1)与 2DCNN 相比,3DCNN 更适合时空特征学习;
2)对于 3D ConvNet 而言,在所有层使用 3×3×3 的小卷积核效果最好;
3)我们通过简单的线性分类器学到的特征名为 C3D(Convolutional 3D),在 4 个不同的基准上优于现有的方法,并在其他 2 个基准上与目前最好的方法相当。
此外,特征是紧凑的:在 UCF101 数据集上得到 52.8%的准确 ...