皮盼资讯网移动版

皮盼资讯网 > 潮流时尚 >

基于MaskRCNN算法的遥感图像舰船目标旋转检测(2)

图2中网络的整体框架包含一个FPN[2](Feature Pyramid Networks)架构。在FPN之前,大多数的目标检测算法只在特征提取网络的顶层进行检测。虽然卷积神经网络的深层特征有利于分类识别,但不利于目标的定位。为此,一个具有侧向连接的自顶向下的架构被用于构建不同尺度的语义信息。主干网络通过它的正向传播,自然形成一个特征金字塔,FPN在检测各种尺度的目标方面显示出了巨大的进步。FPN已经成为许多目标检测算法的基本组成。

2.3 Mask RCNN算法改进

2.3.1 群组归一化

BN(Batch Normalization)是深度学习发展过程中的一个里程碑的技术,它使得各种网络较为容易的训练。然后在批次维度的归一化会带来一个问题,当批次大小下降时,BN的误差将会增加。通常在目标检测与实例分割中,批次大小一般是1或2,这样就限制了BN在这些任务中的应用。2018年6月,Facebook研究院的Yuxin Wu等提出了群组归一化[3](Group Normalization)(以下简称GN),GN的计算不依赖于批次的大小,在大范围批次变动下,其精度是稳定的。

在深度学习兴起之前,提取的特征通常是SIFT、HOG、GIST特征,这些特征有一个共性,都是按群组(group)表示的特性,每一个群组由相同种类直方图构建而成。这些特征通常是每个直方图或每个方向图进行组归一化而得到的。导致分组的因素很多,比如频率、形状、亮度或者纹理等,HOG特征根据旋转梯度分组,而对神经网络而言,其提取特征的机制更复杂,也更难以描述。另外在神经科学领域,一种被广泛接受的计算模型是对细胞的响应做归一化,此现象存在于浅层和整个视觉系统。特征归一化的表征形式如公式1所示:

2.3.2 权重标准化

权重标准化[4](Weight Standardization)(以下简称WS)也是为了解决BN对于Batch size的限制要求,基本思想和BN一致的,就是尽量保持映射的平滑性。不过BN是通过反馈信号来间接调整权重,WS是直接调整权重。

设一个卷积网络,其偏置为0,则前向传播过程可以表示为:

在WS中f(x)和x分别表示为损失和权重,所以公式(13)中,由于减去两个正数所以L约束常数将会变小,在小的batchsize下能够像BN在大的batchsize下一样使得损失函数变得很平滑,同时消除了卷积核在偏置和尺度上的自由度,使得训练收敛的更好。

2.3.3 可变卷积

CNN中池化层和STN[5](Spatial Transformer Networks)都是为了增加空间不变性,但是二者增加空间不变性的出发点不同,CNN是尽力让网络适应物体的形变,而STN是直接通过ST将形变的物体变回正常的姿态。CNN固定的卷积核,固定的池化核,固定的RoI,导致高层神经元的感受野是固定的,没有办法有效的编码语义或者位置信息。因此在STN的基础上,针对分类和检测提出了可变卷积[6](Deformable Convolution)(以下简称DC)模块,来动态调节感受野的作用。

由于采样点可能是小数,这就需要双线性插值操作。为了学习到采样偏移,DC采用图6的结构,其中下路是标准的3×3卷积,上路也是一个3×3卷积,步长一样,输出偏移场与输入特征图的大小一致,通道数是输出特征图通道的2倍。随后裁剪出卷积核相对的那一块区域,得到偏移量。与下一路的标准卷积进行相加,然后线性插值,确定采样点坐标,最后进行卷积操作即可。

3 实验结果

为了避免其它因素对实验结果的影响,网络均不采用ImageNet的预训练模型。为了快速的迭代以及后续计算的限制,主干网络的模型改为ResNet50。本次实验采用SGD优化器,训练的软件平台为Pytorch,硬件平台为Tesla K40c由于现存的限制,训练的图片经过尺度缩放为(800,800)训练,以0.5的概率随机翻转图像。

具体的实验配置如表1所示:

当使用各种模块对Mask RCNN算法进行改进之后,bbox AP和segm AP指标在训练过程中的变换情况,如图7所示:

对训练过程中最优的模型在验证集上的各项AP指标的统计如表2所示:

(责任编辑:admin)