WSDDN

Weakly Supervised Deep Detection Networks

– 牛津大学 2016

基于弱监督学习的目标检测是图像理解中的一个重要问题，目前还没有令人满意的解决方案。在本文中，我们通过利用在大规模图像级分类任务（如：ImageNet 1K）中预先训练的深度卷积神经网络的能力来解决这个问题。

我们提出了一种弱监督深度检测体系结构，它修改了一个这样的网络以在图像区域级别操作，同时执行区域选择和分类。作为一个训练有素的图像分类器，该架构隐含地学习对象检测器，比PASCAL VOC数据上的替代弱监督检测系统更好。该模型是一种简单而优雅的端到端架构，在图像级分类任务中，其性能也优于标准的数据增强和微调技术。

WSDDN分为三步：

获取在ImageNet 1K上预训练的CNN
构建WSDDN模型

在目标数据集上仅使用图像级标注训练/fine-tune WSDDN，达到当时的state-of-the-art

Method

给定预先训练的CNN，我们通过引入三个修改将其转换为WSDDN：

首先，我们用一个实现空间金字塔池化(SPP)的层来替换紧接着最后一个卷积块中的ReLU层的最后一个池化层(也分别称为relu5和pool5)

First, we replace the last pooling layer immediately following the ReLU layer in the last convolutional block (also known as relu5 and pool5, respectively) with a layer implementing SPP.

$\phi(x;R)=\phi_{SPP}(.;R)\circ\phi_{relu5}(x)$

图像级分类分数 = 建议区域分类分数求和