皮盼资讯网移动版

皮盼资讯网 > 潮流时尚 >

基于特征融合的物体跟踪系统设计与实现(3)

将每层卷积特征拉伸平铺成一个全连接向量,最后将各个层的向量拼接成总的一维特征向量作为全连接网络的第一层输入。融合前,全连接层的输入大小为4608,若直接将各个卷积层拉伸之后拼接,由网络结构参数可得全连接输入的大小为258280,是基本模型输入的60倍。论文对第一层与第二层卷积下采样之后的特征图进行连接操作,全连接层输入大小为38752,相比于直接对卷积层特征操作减少了6倍的参数量。

2.1.3多特征融合跟踪算法自适应框改进

对于MDNet缺少可根据跟踪目标相对帧的大小形态变化而自适应的跟踪框。

主要流程可以描述如下:接收到传回的当前框信息后先进行修正边界操作,这是考虑到可能当前跟踪框已经发生严重漂移现象,如果跟踪框右边界坐标小于零说明跟踪框从帧左侧漂移出帧,则应将跟踪框进行向右调整;如果跟踪框上边界小于零则说明跟踪框从帧下侧漂移出帧,应当进行跟踪框向上调整处理。同时如果发现跟踪框大小已经接近帧的大小,则减小跟踪框大小。随后进行跟踪框大小的具体调整,设计了大小两种模板,首先对当前帧进行峰值检测,如果对峰值做增益超过原峰值,则使用较小模板,如果对峰值做减益也超过峰值则更倾向于使用较大的模板。同时进行新的峰值计算。由于跟踪框大小可能已经发生了改变,所以再次进行边界调整,获得到当前最新的框,使用该框进行重新训练样本,返回检测框信息作为跟踪结果

另外对于同一数据集,也测试了两版算法的相关数据性能,如图3.5和3.6所示是OTB100-DOG上进行测试得到的IOU跟踪框交并比的对比结果。可以看见IOU性能发生极大提高。

2.2检测算法主体框架设计

YOLO算法是一阶段物体检测算法,即直接将图像输入到卷积神经网络中,得到检测结果。其具体检测过程可描述如下:首先,将图片归一化到统一大小,输入到卷积神经网络中,神经网络先划分成S*S个网格,其中每个网格负责预测B个框和P个置信分数,这里需要说明的一点是:框包含五个参数,分别为(x,y,w,h,c),其中参数(x,y)代表框中心坐标,(w,h)代表框的长和宽,而C代表这个框存在的置信度,实际上可以将C描述为IOU,即预测框与实际框的交并比。在此基础上,只有当预测的框中心落到了某个网格中,该网格才会对这个框的后续处理负。在检测过程中,对于每一张图片会输出S*S*[B*5+P]=7*7*[2*5+20]个张量,张量经过编码后经卷积神经网络输出得到暂时结果后,经过非极大值抑制(NMS)的方法,确定最终得分最高的检测框和分类结果。

用于计算预测边界框长高损失的函数如下:

用于计算框的置信度得分损失函数如下所示。其中C是置信度得分, 是预测和真实框的交并比,当IObjij=1时说明,网格中存在目标,Inoobjij代表完全相反的情况。

最终用于计算目标分类损失的函数如下所示。

Yolov3的特征提取网络采用了前20个卷积层,1个avgpooling层和一个全连接层。但是一个方格只能预测一个物体,对小物体很难检测,相对于FastRCNN存在着更多的位置错误。

3.1跟踪算法性能对比

OTB数据集是学者吴毅在2013首次发表的集成视频数据集,统一了目标跟踪领域的评价标准,OTB-2013整合了2012年以及之前的顶级跟踪算法,并包含50个不同场景的视频,涵盖了遮挡、光照变化与尺度变化等情况。到2015年OTB数据集进行进一步扩充并且新增许多帧数较多的长视频,适合持续对算法的跟踪性能进行测试。但是OTB-2015包含25%的灰度视频序列。

(责任编辑:admin)