《表1 超参数设置:基于多空间混合注意力的图像描述生成方法》

《表1 超参数设置:基于多空间混合注意力的图像描述生成方法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于多空间混合注意力的图像描述生成方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文选用在MSCOCO caption数据集上验证算法的有效性。MSCOCO是微软公开的图像描述数据集,包含着82 783张训练集、40 504张验证集和40 775张测试集。相对于其他小规模的图像描述生成数据集,COCO caption数据集更有挑战力,也更加具有公信力,其中一张图片对应5句描述,由json格式提供。本文采取的验证模型优劣的方式分为两个步骤:先通过训练集和验证集在线下调节模型的参数,然后提交测试集的结果到服务器上获取对应指标的分数。最终的解码模型获取分为两轮,区别在于第一轮是对交叉熵损失函数进行优化,第二轮是通过策略梯度对模型进行调节。第一轮设置为学习率0.000 1,选用Adam优化器降低交叉熵损失,收敛至平稳后,再降低学习率,直至交叉熵损失无法进一步优化,最大迭代轮数为30。得到较稳定的交叉熵解码模型后,再使用策略梯度替换交叉熵损失函数,采取相同的超参数进行优化,两轮训练的总迭代周期为70。沿用Karpathy等[16]的数据集设置,分别使用5 000张图片用于线下的验证和测试。表1列出训练时候的超参数设置。词嵌入向量设为1 024,LSTM的隐藏层向量大小设置为1 024。为了防止过拟合对加入dropout,设为0.5。