《表1 网络结构参数：基于深度神经网络的货架商品识别方法》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于深度神经网络的货架商品识别方法》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

考虑到货架商品图像中大多为密集小目标以及计算速度的折中，输入图像的分辨率都统一按比例缩放为800 pixel×800 pixel，不足部分填充为0。原始图像中单个商品的目标尺度约在25 pixel×25 pixel到120 pixel×120 pixel之间，处于一个适当的分辨率大小。卷积网络使用了ResNet-50，具体卷积层参数见表1，其中conv3＿1，conv4＿1，conv5＿1的3×3卷积核的步长为2。在conv2＿4后面新加上2个卷积核大小分别为1和3的2个卷积层得到特征图P2。同样的，由conv3＿4，conv4＿6，conv5＿3得到特征图P3，P4，P5。RetinaNet中的特征图为P3-P7，但由于商品目标最小尺寸为25 pixel×25 pixel，而P3的感受野为105，远远大于最小商品尺寸，所以将起始特征图改为感受野为41的P2特征图。又由于P6和P7的感受野已远远超过输入图像尺寸且商品尺寸最大为120 pixel×120 pixel，为了减少计算量和训练干扰，舍弃了P6和P7特征图。不同于RetinaNet中的锚框设置，该方法在P2-P5特征图上分别设置了面积为{162，322，642，1282}的基本锚框，每个基本锚框有{20，21/3，22/3}3种大小尺寸和{1∶2，1∶1，2∶1}3种长宽比。特征图上每个位置有9个不同的锚框，覆盖了边长16～203pixel尺寸的商品目标。为了降低标注难度和提升模型性能，检测阶段只进行单类检测，舍弃掉RetinaNet中的分类子网络。原本的回归子网络中只有对锚框进行回归长度为4的向量，为了预测回归框是否是目标商品，预测向量长度被扩展为6，最后2位连接softmax激活判定是否为目标。在特征图融合中，各特征图自顶向下进行上采样融合进下层特征图（上层特征图使用最邻近插值上采样后与下层特征数值相加），融合后的4层特征图分别连接一个回归子网络，得到坐标预测和是否为目标的置信度。

图表编号	XD00115383300 严禁用于非法目的
绘制时间	2020.01.10
作者	刘照邦、袁明辉
绘制单位	上海理工大学光电信息与计算机工程学院、上海理工大学光电信息与计算机工程学院
更多格式	高清、无水印（增值服务）