《表2 词频较高的单词及其对应词频》
本文参考Vinyals等人[12]的方法,对自制的图像字幕数据集进行预处理,主要操作为:1)截断标注样本中超过15个单词的字幕标注语句;2)删除标注样本中的“,”和“.”,并进行单词大小写的统一,将大写单词转换为小写;3)统计词频,并为标注样本中的每个单词赋予其唯一的id编号;4)构建一个词汇表,包含3组信息(单词id、单词以及词频),将标注样本中至少出现3次的单词存入词汇表中,剩余单词视为生僻单词,用“UNK”表示.在自制的图片字幕训练集上构建词汇表,训练集所构建的词汇表中,词频较高的10个单词如表2所列.
图表编号 | XD00141272000 严禁用于非法目的 |
---|---|
绘制时间 | 2020.04.01 |
作者 | 徐守坤、倪楚涵、吉晨晨、李宁 |
绘制单位 | 常州大学信息科学与工程学院、常州大学信息科学与工程学院、常州大学信息科学与工程学院、常州大学信息科学与工程学院 |
更多格式 | 高清、无水印(增值服务) |