内容摘要 计算机视觉任务包括低层图像处理和高层图像认知两部分。目标检测、分割和图像分类为高层图像认知的核心任务。目标检测算法性能的提高,不但可以为其他视觉任务提供精准的基础信息,还可推动与之相关的技术的发展。目标检测方法主要分为两类:基于候选框的两阶段法,该方法首先使用某种策略选出候选区域(region of interest,ROI),然后对每个候选区域的特征进行分类和回归;基于回归的一阶段法,该方法直接使用卷积神经网络预测目标类别与位置。这两类方法虽然流程不同,但有一个共同点,即只关注图像ROI内的局部信息。此类方法通过不完整的目标特征来推断目标的完整状态,当被应用于目标模糊、目标被遮挡等复杂场景时,性能会下降,即准确率受环境光照、相机位置、相机性能等外部条件及物体自身形变等因素影响。基于CNN网络的检测算法[1]验证了充分提取上下文信息对目标检测有很大意义,可辅助克服以上干扰。基于此,本文提出了一种用于无监督目标检测的域自适应关系网络(rela-tion network for domain adaptation,RNDA)。该网络能将目标域图像的分布与源域图像的分布在全局特征上选择性对齐,在局部特征上严格对齐,以此获取更高的检测精度。1相关方法针对物体形变、视角变化、遮挡、背光等复杂情况,若仅分析物体本身的视觉信息,会因信息量太少导致检测精度下降。上下文信息可以认为是语境信息,指所有影响场景及其中物体被感知的信息[2]。有研究表明,在检测模型中引入上下文信息,能丰富特征信息,改善目标检测算法的性能[2-4]。图像上下文信息可分为三类:局部上下文、全局上下文和目标关系上下文。也有研究者使用了其他分类法:A.Torralba等人将其划分为空间上下文、语义上下文和尺度上下文[4];Chen等人将其简化为场景级上下文和目标关系上下文[1]。在深度学习算法出现之前,物体关系被用于检验检测结果的正确性。DPM算法使用共生模式调整预测框的置信度[5],M.J.Choi等人则考虑了空间位置和尺寸的约束[6]近来,基于深度学习的目标检测算法也开始使用上下文来提升模型性能。S.Bell等人提出了ION网络,外部使用循环神经网络整合ROI周围的上下文信息,内部融合不同E的ROI特征[7]。A.Shrivastava等人提出CPF网络,提供自上而下的上下文分割,通过分割迭代反馈[3]。Li等人提出AC-CNN网络,将多尺度CNN特征作为局部上下文特征,利用LSTM聚集全局上下文特征,然后结合两种特征进行目标检测[9]。Ouyang等人提出Deep-ID网络,将图像的全局上下文信息融入目标检测,同时构造了一个形变层,可解决姿态变化、目标形变和遮挡等问题[10]。C.Farabet等人则在一个大窗口预测每个像素的位置标签,以达到融合目标周围上下文的目的[1]。此外,融合上下文的网络结构亦有很多,这些网络结构已成为目标检测的常用工具。K.Kuan等人提出了一种候选区域平均池化的方法,利用场景中其他候选区域的上下文特征来增强待预测候选区域的特征表达“Wang等人提出PCN模型用于行人检测,其上下文分支引入了局部竞争机制以自适应地选择上下文尺度[13]域自适应的无监督模型[14-15)]认为场景上下文中的整体布局信息和类别信息是实现跨领域检测的关键因素,即上下文在无监督模型中非常必要。相比于分类问题,域自适应目标检测还需预测目标位置。Chen等人认为数据集的偏移通常发生在整体布局、场景明亮度等场景级别及目标的外观、类别等目标级别,基于此,他们提出 DA Faster R-CNN网络,在场景和目标两方面缩小不同域间的差别[14]。2域自适应关系网络对于目标检测,图像中的每个物体都需要被标注精确的边界框,这需要消耗大量的人力、物力。将在有标签域上训练的模型迁移到无标签域,是一个有效的替代办法,但不同数据集的差异性使得模型效果差异较大。近来无监督的域自适应方法被提出用以改善数据集的差异,传统做法是完全对齐不同域之间的整体分布来减少差异[1+-15]。对齐整体分布意味着对齐不同域之间的类别数目、物体之间的组合方式和场景分布,而严格地对齐不同分布只在非常相似的问题中才有效。如果两张图像整体差异非常大,那么严格对齐是不可行的,例如源域有多类物体,而目标域只有单类物体,严格对齐会丢弃一些固有属性信息。对齐纹理、颜色等局部特征,会提高精度,因为它能减小域之间的差异且不改变任何全局特征的关键性语义信息。目标间的关系含有丰富的上下文信息,引入目标关系可以为无监督学习提供更多任务导向信息,减少模型中无关特征的表达。基于以上思考,本文提出了一种域自适应关系网络用于无监督目标检测。2.1网络结构本文提出的域自适应关系网络旨在将目标域图像的分布与源域图像的分布在全局特征上选择性对齐,在局部特征上严格对齐。全局特征对齐网络可忽视整体不相同、易于区分源域和目标域的图像,重视整体相似、难以区分源域和目标域的图像。局部特征对齐网络严格对……