《表1 样本实验结果及余弦相似度比较》

《表1 样本实验结果及余弦相似度比较》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于时间递归序列模型的短文本语义简化》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文选取NLPIR微博语料库[14],先抽取大约20万条数据进行训练与实验,同时抽取大约100万条数据进行横向对比实验。对两组实验原始语料数据作相同预处理。首先去掉正文插入时间,正文发布时间,转发、来源、评论数目等对实验无影响的因素,同时去掉无用的符号和停用词;然后对过滤后的数据进行分词;再把数据作为输入代入word2vec模型中进行训练,得到每个词的向量表示并输出文件“vector.bin”,计算两个词向量之间的余弦值得出词向量之间的余弦相似度。以输入数据样本作为样例测试词向量训练结果,选取余弦相似度值最靠前的2个作为样本示例,实验结果及余弦相似度比较见表1所列。