Polysemy Deciphering Network for Human-Object Interaction Detection

主要贡献

现有模型假设同一动词在不同的 HOI 范畴中具有相似的视觉特征,忽略了动词的不同语义(在不同的场景下,相同的动作的视觉特征有很大差别,如下图所示,对于不同的物体,动词可以呈现实质上不同的语义和视觉特征。这种语义差异可能非常大,导致同一类型视觉特征的重要性随着感兴趣物体的变化而发生巨大变化)。
image.png
本文提出一种多义词解码网络 PDNet,通过 3 种方式对动词的视觉多义进行解码以进行 HOI 检测。首先,PDNet 利用语言先验信息增强人类的姿态和空间特征进行 HOI 检测,使动词分类器能够接收到减少同一动词类内变异的语言提示。其次,提出了一种新的多义注意模块(PAM),该模块可以指导 PDNet 根据语言优先级对更重要的特征类型进行决策。最后,将上述两种策略应用于动词识别的两种分类,即 SH-VCM 和 SP-VCM(object-shared and object-specific verb classifiers),二者的结合进一步解决了动词多义问题。

网络结构

image.png)image.png
(1)基础部分:
给定一幅图像,使用 Faster R-CNN 获得人和物体的 proposal。每个人类提议 h 和物体提议 o 将组合成对作为交互分类的 proposal。然后提取人特征、物体特征、空间特征以及姿态信息( H w s 、 O w s 、 P w s 和 S w s ) (H^{ws}、O^{ws}、P^{ws}和 S^{ws})(_Hws_、_Ows_、PwsSws)传入后续网络。
(2)动词多义处理部分:lue

PD-Net 首先为每个 proposal 对生成一组动词分类分数。然后将多标签交互分类问题转化为一组二元分类问题(动词-名词两两组合)。然后依次通过语言先验增强(LPA)、多义注意模块(PAM)、物体共享动词分类模块(SH-VCM)和特定于物体的动词分类模块(SP-VCM)来执行 HOI 检测。SH-VCM 和 SP-VCM 分别包含一组共享物体二元分类器和特定物体二元分类器。

效果

image.png
image.png