注意力机制-Attention
注意力机制-Attention今天从四个方面来介绍注意力机制。首先是我们为什么要引入注意力机制,深度学习对于特征提取近年来取得了巨大的成功,但是他还有什么不足呢? 其次,我将从Encoder-Decoder框架(一种深度学习领域的研究模式,应用场景异常广泛)来介绍注意力机制;接着,总结一下目前注意力机制研究的的分类与应用;最后,切入到计算机视觉CV领域来介绍注意力机制。
为什么要引入注意力机制?我们知道深度学习近年来在计算机视觉,自然语言处理等领域取得了巨大的成功,使用多层的深度神经网络逐层进行特征提取,获取更加高级的语义特征。但这样,伴随着两个缺陷
• 计算能力的限制:当要记住很多“信息“,模型就要变得更复杂,然而目前计算能力依然是限制神经网络发展的瓶颈
• 优化算法的限制:虽然局部连接、权重共享以及pooling等优化操作可以让神经网络变得简单一些,有效缓解模型复杂度和表达能力之间的矛盾;但是,如循环神经网络中的长距离以来问题,信息“记忆”能力并不高。卷积神经网络中,虽然能通过堆叠卷积层来获得更大的感受野,但不断地池化也会丢失长距离依赖的语义信息。
因此,注意力机制的出现就是为了 ...
论文-PD-Net(2020)
Polysemy Deciphering Network for Human-Object Interaction Detection
概述:
关键词:
源码: https://github.com/MuchHair/PD-Net
主要贡献现有模型假设同一动词在不同的 HOI 范畴中具有相似的视觉特征,忽略了动词的不同语义(在不同的场景下,相同的动作的视觉特征有很大差别,如下图所示,对于不同的物体,动词可以呈现实质上不同的语义和视觉特征。这种语义差异可能非常大,导致同一类型视觉特征的重要性随着感兴趣物体的变化而发生巨大变化)。本文提出一种多义词解码网络 PDNet,通过 3 种方式对动词的视觉多义进行解码以进行 HOI 检测。首先,PDNet 利用语言先验信息增强人类的姿态和空间特征进行 HOI 检测,使动词分类器能够接收到减少同一动词类内变异的语言提示。其次,提出了一种新的多义注意模块(PAM),该模块可以指导 PDNet 根据语言优先级对更重要的特征类型进行决策。最后,将上述两种策略应用于动词识别的两种分类,即 SH-VCM 和 SP-VCM(object-shared an ...
Mask R-CNN 演变笔记
前言目标检测分为两种方法:一阶段法和两阶段法。一阶段法的代表算法为YOLO,SSD,具有速度快的优势。所谓两阶段法就是先找出图像中的region proposal ,再分别对每个proposal进行回归和分类,它的优势则是精确度高,Mask R-CNN则是这一方法,从一开始的R-CNN到Fast R-CNN再到Faster R-CNN,FPN,到最后的Mask R-CNN,演进过程中的一些方法依旧用于其他的机器视觉任务中,所以这个路线中的网络架构和方法非常值得我们去学习。
Sliding windows
这是目标检测的最早期的算法——滑动窗口法,很好理解,就是固定一个窗口(不同的size 和长宽比)从左向右,从上到下的去滑动,对每个窗口的图像进行目标识别与分类。这种方法可想而知,非常耗时。
R-CNN2014年的时候随着深度学习的兴起,R-CNN横空出世了。与滑动窗口法不同,这里使用selective search 这种 region proposal method 来提取图像的RoIs (感兴趣区域)。这里我们可以看下这种方法的思想,相似的像素、纹理或者是灰度等会被归为一个区域,并得 ...
iCAN (BMVC2018)
文献-iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection
概述:人或物体实例的外观包含上下文线索,利用这些信息可以注意到图像中可以促进交互预测的部分。为了利用这些线索,研究者提出了一个以实例为中心的注意力模块,学习根据每个实例的外观动态突出显示图像中的区域。这种基于注意力的网络允许研究者选择性地聚合与识别 HOI相关的特征。在InteractNet上做的改进,达到了 V-COCO 45.3%。
关键词:注意力机制
论文地址:https://www.yuque.com/ugdongzhou/io8kmc/1661063
源码: https://github.com/vt-vl-lab/iCAN 和DRG2020同属vt-vl-lab实验室
网络结构
主要贡献
引入了一个以实例为中心的注意力模块,它允许网络动态突出信息区域以改进 HOI 检测。
在由h或者o计算a的分数时,不止用它们本身的特征,还concat了context特征,contex特征则是根据intance产生 ...
HICO-DET数据集
文献-Learning to Detect Human-Object Interaction
概述:2018年由密歇根大学和华盛顿大学共同提出HICO-DET数据集
关键词:数据集
论文地址:https://www.yuque.com/ugdongzhou/io8kmc/1661139
数据集: http://www-personal.umich.edu/~ywchao/hico/
主要贡献
提出一个新的benchmark ——HICO-DET,提供了超过150,000个标注后的人类-物体组合,包含600个HOI类别,即每个HOI类别平均250个组合实例。
提出了基于人-物区域的卷积神经网络HO-RCNN。分两步,1. 使用最先进的人体和物体检测器生成人体-物体区域对的proposal;2. 将每个人-物框proposal送入CNN,以生成HOI分类分数。
数据集三个benchmark
Full—— 所有的600个HOI分类
Rare ——138个HOI类别(少于10个训练实例)
Non-Rare ——462个HOI类别(大于等于10个训练实例)
两种评估方法
Known ...
论文-时空双流Two Stream及衍生方法
1. Two-Stream Convolutional Networks-2014NIPS
概述:基于 RGB 视频的动作识别方法中 Two Stream 的开山之作关键词:Two Stream , optical flow ,论文地址:https://arxiv.org/pdf/1406.2199.pdf论文翻译地址:https://blog.csdn.net/liuxiao214/article/details/78377791
主要贡献
首先,论文提出了 two-stream 结构的 CNN,由空间和时间两个维度的网络组成。
其次,作者提出了利用网络训练多帧密度光流,以此作为输入,能在有限训练数据的情况下取得不错的结果。
最后,采用多任务训练的方法将两个行为分类的数据集联合起来,增加训练数据,最终在两个数据集上都取得了更好的效果。(作者提到,联合训练也可以去除过拟合的可能)
原理图网络架构对与两个分支使用了相同的 2D CNN 网络结构,其网络结构见下图
在空间部分,以单个帧上的外观形式,携带了视频描绘的场景和目标信息。 其自身静态外表是一个很有用的线索,因为一些动作 ...
论文-3D卷积 C3D 及衍生方法
1. (C3D)Learning spatiotemporal features with 3d convolutional networks-2015ICCV-facebook
概述:采用 3D 卷积和 3D Pooling 构建了网络。 通过 3D 卷积,C3D 可以直接处理视频(或者说是视频帧的 volume)关键词:C3D,速度快,模型简单论文地址:https://arxiv.org/pdf/1412.0767.pdf论文翻译地址:https://www.jianshu.com/p/09d1d8ffe8a4caff 源码:https://github.com/facebook/C3D
主要贡献1)与 2DCNN 相比,3DCNN 更适合时空特征学习;
2)对于 3D ConvNet 而言,在所有层使用 3×3×3 的小卷积核效果最好;
3)我们通过简单的线性分类器学到的特征名为 C3D(Convolutional 3D),在 4 个不同的基准上优于现有的方法,并在其他 2 个基准上与目前最好的方法相当。
此外,特征是紧凑的:在 UCF101 数据集上得到 52.8%的准确 ...