皮盼资讯网移动版

皮盼资讯网 > 潮流时尚 >

位姿参数辨识系统(4)

输入一张任意大小的图片进入Mask R-CNN网络后,深度卷积网络会完成两个任务,一是通过Faster R-CNN的RPN网络挑选候选区域;二是进行目标检测操作。相比于Faster R-CNN算法,Mask R-CNN改进主要有两点,首先是,将感兴趣区域池化层改成了感兴趣区域对齐操作,主要是因为分割基于像素操作,而感兴趣区域池化过程中存在四舍五入量化,使得像素的输入和输出不一一对应[9]。

感兴趣区域对齐直接将特征图划分并采用双线性插值,能够保证池化过程中像素在前后输入的一一对应关系。

在回传过程中,进行反向传播[12],见公式(1):

Mask R-CNN在Faster R-CNN原有框架基础上增加了掩码,能够对每个感兴趣区域进行实例分割操作。

则,对于每个感兴趣区域可以得到的平均得分为公式(3):

Mask R-CNN主要是采取了并联网络层,将主干网络中的特征提取层与掩码层并联能够增强网络的泛化能力。并且因为金字塔网络具有横向连接的自顶向下结构,可以提取不同级别的感兴趣区域特征,并联后可以把高层特征带到低层次去,低层次既有语义又存在细节。

Mask R-CNN算法步骤[10]:

(1)输入一幅待检测的图片,进行预处理操作;或者直接输入预处理后的图片;

(2)输入到预先训练好的神经网络中获得对应的特征图;

(3)对特征图中的每一个点设定预定个兴趣区域,从而获得多个候选兴趣区域;

(4)将候选兴趣区域送入区域建议网络进行二值分类和回归,筛洗部分候选的兴趣区域;

(5)对剩下的兴趣区域进行对齐操作,即将原图的特征与固定的特征进行匹配;

(6)最后,对兴趣区域进行分类、回归、标签生成。

2.3位姿解算系统设计

单目视觉的位姿测量是根据特征点在空间坐标系的坐标值和其投影到相机上特征点,由摄像机投影模型,计算出空间坐标系相对于摄像机坐标系的相对位置和姿态。

2.3.1 空间坐标求解

利用特征点投影的二维图像点计算空间点在摄像机坐标系下三维坐标值,可以利用三角形的余弦定理来求解,如图6所示。

2.3.2 坐标系变换关系解算

根据空间点在摄像机坐标系下坐标值和标定好的空间点在空间坐标系下坐标值,就可以计算出空间坐标系和摄像机坐标系之间的相对姿态和相对位置,如图7所示[14]。

3. 项目实施及成果

3.1 相机标定结果

3.1.1 仿真模型相机标定结果

利用gazebo仿真环境建立相机模型,在平面上方0.5m位置处建立一个相机模型,相机朝向向下,像素为640*480,每个像素8位,在平面上放置7*8棋盘格标定板,(相机模型如图8所示),并使用calibration标定方法进行标定,标定过程如图9所示。

3.1.2 实物摄像头标定结果

采用calibration对外置USB单目摄像头进行标定,摄像头实物图如图10所示。输入图像像素大小为640*480,标定过程图如图11所示。

3.2 神经网络训练结果

我们采用了Mask R-CNN成熟网络结构,应用预训练权重mask_rcnn_coco.h5,在它的基础上进行权重微调,在仿真环境中采集50帧图像,对空间目标进行标注,迭代250次,得到新的权重,进行检测。

3.3 位姿参数解算结果

(责任编辑:admin)