《表1 网络结构参数:基于深度神经网络的货架商品识别方法》

《表1 网络结构参数:基于深度神经网络的货架商品识别方法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于深度神经网络的货架商品识别方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

考虑到货架商品图像中大多为密集小目标以及计算速度的折中,输入图像的分辨率都统一按比例缩放为800 pixel×800 pixel,不足部分填充为0。原始图像中单个商品的目标尺度约在25 pixel×25 pixel到120 pixel×120 pixel之间,处于一个适当的分辨率大小。卷积网络使用了ResNet-50,具体卷积层参数见表1,其中conv3_1,conv4_1,conv5_1的3×3卷积核的步长为2。在conv2_4后面新加上2个卷积核大小分别为1和3的2个卷积层得到特征图P2。同样的,由conv3_4,conv4_6,conv5_3得到特征图P3,P4,P5。RetinaNet中的特征图为P3-P7,但由于商品目标最小尺寸为25 pixel×25 pixel,而P3的感受野为105,远远大于最小商品尺寸,所以将起始特征图改为感受野为41的P2特征图。又由于P6和P7的感受野已远远超过输入图像尺寸且商品尺寸最大为120 pixel×120 pixel,为了减少计算量和训练干扰,舍弃了P6和P7特征图。不同于RetinaNet中的锚框设置,该方法在P2-P5特征图上分别设置了面积为{162,322,642,1282}的基本锚框,每个基本锚框有{20,21/3,22/3}3种大小尺寸和{1∶2,1∶1,2∶1}3种长宽比。特征图上每个位置有9个不同的锚框,覆盖了边长16~203pixel尺寸的商品目标。为了降低标注难度和提升模型性能,检测阶段只进行单类检测,舍弃掉RetinaNet中的分类子网络。原本的回归子网络中只有对锚框进行回归长度为4的向量,为了预测回归框是否是目标商品,预测向量长度被扩展为6,最后2位连接softmax激活判定是否为目标。在特征图融合中,各特征图自顶向下进行上采样融合进下层特征图(上层特征图使用最邻近插值上采样后与下层特征数值相加),融合后的4层特征图分别连接一个回归子网络,得到坐标预测和是否为目标的置信度。