论文-PD-Net(2020)
Polysemy Deciphering Network for Human-Object Interaction Detection
概述:
关键词:
源码: https://github.com/MuchHair/PD-Net
主要贡献现有模型假设同一动词在不同的 HOI 范畴中具有相似的视觉特征,忽略了动词的不同语义(在不同的场景下,相同的动作的视觉特征有很大差别,如下图所示,对于不同的物体,动词可以呈现实质上不同的语义和视觉特征。这种语义差异可能非常大,导致同一类型视觉特征的重要性随着感兴趣物体的变化而发生巨大变化)。本文提出一种多义词解码网络 PDNet,通过 3 种方式对动词的视觉多义进行解码以进行 HOI 检测。首先,PDNet 利用语言先验信息增强人类的姿态和空间特征进行 HOI 检测,使动词分类器能够接收到减少同一动词类内变异的语言提示。其次,提出了一种新的多义注意模块(PAM),该模块可以指导 PDNet 根据语言优先级对更重要的特征类型进行决策。最后,将上述两种策略应用于动词识别的两种分类,即 SH-VCM 和 SP-VCM(object-shared an ...
iCAN (BMVC2018)
文献-iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection
概述:人或物体实例的外观包含上下文线索,利用这些信息可以注意到图像中可以促进交互预测的部分。为了利用这些线索,研究者提出了一个以实例为中心的注意力模块,学习根据每个实例的外观动态突出显示图像中的区域。这种基于注意力的网络允许研究者选择性地聚合与识别 HOI相关的特征。在InteractNet上做的改进,达到了 V-COCO 45.3%。
关键词:注意力机制
论文地址:https://www.yuque.com/ugdongzhou/io8kmc/1661063
源码: https://github.com/vt-vl-lab/iCAN 和DRG2020同属vt-vl-lab实验室
网络结构
主要贡献
引入了一个以实例为中心的注意力模块,它允许网络动态突出信息区域以改进 HOI 检测。
在由h或者o计算a的分数时,不止用它们本身的特征,还concat了context特征,contex特征则是根据intance产生 ...
HICO-DET数据集
文献-Learning to Detect Human-Object Interaction
概述:2018年由密歇根大学和华盛顿大学共同提出HICO-DET数据集
关键词:数据集
论文地址:https://www.yuque.com/ugdongzhou/io8kmc/1661139
数据集: http://www-personal.umich.edu/~ywchao/hico/
主要贡献
提出一个新的benchmark ——HICO-DET,提供了超过150,000个标注后的人类-物体组合,包含600个HOI类别,即每个HOI类别平均250个组合实例。
提出了基于人-物区域的卷积神经网络HO-RCNN。分两步,1. 使用最先进的人体和物体检测器生成人体-物体区域对的proposal;2. 将每个人-物框proposal送入CNN,以生成HOI分类分数。
数据集三个benchmark
Full—— 所有的600个HOI分类
Rare ——138个HOI类别(少于10个训练实例)
Non-Rare ——462个HOI类别(大于等于10个训练实例)
两种评估方法
Known ...