object detection based on region decomposition and assembly
作者 | 文永亮
学校 | 哈尔滨工业大学(深圳)
研究方向 | 目标检测、gan
推荐理由:
这是一篇发表于aaai2019的paper,文章提出了一种r-dad的方法来对rcnn系列的目标检测方法进行改进。
研究动机:
目前主流的目标检测算法分为1 stage和2 stage的,而2 stage的目标检测方法以faster-rcnn为代表是需要rpn(region proposals network)生成roi(region of interests感兴趣区域)的,文章认为正是因为被遮挡了的或者不精确的region proposals导致目标检测算法的不准确。作者的想法动机其实很简单,就是假如一辆车的左边被人遮挡了,那么这辆车的右边带来的信息其实才是更可信的。基于这个想法,文章提出r-dad(region decomposition and assembly detector),即区域分解组装检测器,来改善生成的region proposals。
r-dad的网络结构:
文章以faster-rcnn的网络结构为例,修改成它提出的r-dad结构:
r-dad网络架构主要分成两个模块mrp和rda:
- mrp(multi-scale region proposal)模块,用来改善rpn生成的region proposals的准确率。
图一:mrp模块,框内分别对应s=0.7,1,1.2的region proposals
mrp表面意思就是生成多尺度的region proposal,方法很简单,就是使用传统的rpn生成一些建议框,然后用不同的缩放因子(文章使用了5种缩放因子作为一组s=[0.5,0.7,1,1.2,1.5])对生成出的建议框进行不同比例的缩小放大从而提高region proposals的多样性。如图一,生成了不同尺度的区域,有一些仅仅是局部有一些是大于目标本身的,但是这也带来了一个问题,就是原来的region proposals已经可以说是极大的数量了,再乘以五倍,想要网络能够完全利用这些建议框是不切实际的,作者最后还添加了roi的采样层,对分数低的和跟ground truth重叠率低的进行了筛选。
由mrp网络生成的各种region proposals可以进一步适应目标之间因为空间变化所导致的特征变化,提高结构的鲁棒性。
rda(region decomposition and assembly)模块,作者也称它为mutil-region-based appearance model,即基于多区域的外观模型,它可以同时描述一个物体的全局外观和局部外观,rda分为目标分解和目标区域集成的两部分,目标分解如图二所示,把一个目标分为上下左右四个方向的分解部分
一般会先用线性插值两倍上采样之后再分解,后面作者给出了表格表示这样效果更好。左右刚好是特征图的左右一半,上下也同理,都会送入rab模块,rab模块如图三所示:
图三:rab模块
其实就是下面这个函数:
其中p代表着上下左右的每一个部分或者组合后的部分如左-右(l/r)、下-上(b/u)和comb(l/r与b/u的组合),*是卷积操作,f()是relu单元。最后再取max,是为了融合了和的信息,生成同样大小的。最后就是代表着全局信息的scale为1生成的region proposals,一起送进rab模块。这样整个网络结构就可以做到既捕捉到局部信息的同时,也不丢失全局信息。
rab模块是一个类似maxout的单元,理论上它可以逼近任何连续的函数,所以我们使用rab而不是直接使用relu。这表明可以通过配置不同的分层地组合rab模块来表示各种各样的目标特征。
损失函数:
对每一个框(box)d,我们都会通过iou筛选出跟gt(ground truth)最匹配的d*,如果d跟任何的d*的iou超过0.5,给予正标签,若在0.1到0.5之间的,给予负标签。r-dad的输出层对每一个框d都有四个参数化坐标和一个分类标签。对于box regression来说,我们与以往目标检测的参数化一致如下:
同理,是用来评估预测框和gt的差距的。
跟训练rpn网络相似,r-dad也需要最小化分类损失和回归损失,如下:
实验结果:
文章中做了各种设置的组合,关于mrp里缩放因子的组合、是否有rda模块以及是否上采样,得分如下表所示:
与faster-rcnn对比,作者使用了voc07trainval和voc12trainval数据集训练,再在voc07test上测试,并且用了不同的特征提取器(vgg、zf、res101),得分均比faster-rcnn高。
在速度方面均比faster-rcnn慢。
与没有上下区域分解集成的r-dad对比,有上下分解集成的误判率低很多,因为它在复杂情形下被遮挡物体会更有选择地相信得到的信息。
r-dad的优点:
1.文章提出因为我们最大化目标在横向空间位置上局部特征的语义响应,与使用支持小区域的最大池化相比,在没有深层次结构的情况下,我们可以改善特征位置的空间不变性。我的理解就是作者取了上下左右四个方向的特征模板,最后对四个方向进行了融合语义信息,利用了横向空间上的空间不变性,揭示了不同方向上的语义关系。
2.在复杂场景下,如有目标对象被另一目标对象遮挡时,通过左右上下模板筛选出来的特征是更符合真实场景的,这样的region proposals也更加可信。
3.同时描述了全局特征和局部特征的语义信息,在rab的组装上具有很强的可操作性,通过配置分层式地组装rab模块,以及修改特征模板,特征的表达会更加灵活。
点评:
这个区域分解集成的算法令我觉得跟以前传统的人脸识别算法提取haar-like特征有点异曲同工之处,同样都是把特征图分成上下两部分,然后做特征提取操作,都是定义了特定的特征模板,这就很容易理解为什么作者要做multi scale的操作了,因为在以前使用haar/sift/hog的时候,往往都需要使用muti scale来检测。
但是r-dad为什么对特征只分成上下各一半,左右各一半这种特征模板,文章并没有给出令人信服的理由。尽管如此,这也是一个对目标检测的改进方向,通过mrp和rda模块代替了之前的单纯的rpn网络,而且在不使用fpn(feature pyramid networks)的情况下取得了不错的map,这样看来r-dad是2 stage目标检测系列的另一种技巧,综合了横向空间上的语义信息。