《表2 基于词向量的高频词、近义词》

《表2 基于词向量的高频词、近义词》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于孪生网络的基金与受资助论文相关性判别模型构建研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

word2vec是Mikolov等[12]于2013年提出的一种神经语言模型,使用Skip-Gram或CBOW(continu‐ous bag of words)模型预测上下文和中心词是否共现,能够充分捕获词的上下文语义、语法信息。word2vec模型将词汇表示为定长稠密向量的形式,词汇之间的语义相似度可以通过向量之间的距离或夹角余弦值衡量。本文采用腾讯AI Lab开源的800万中文词向量[13]作为预训练词向量。腾讯中文词向量在覆盖率、新鲜度及准确性上相较于其他公开数据有了大幅提升。首先通过Jieba分词工具对抓取的基金标题、论文标题和论文摘要进行分词,将腾讯词向量中不存在的词作为停用词删除,使用Skip-Gram模型在本文获取的语料上训练,最后得到长度为200维的词向量217260条。借助谷歌Em‐bedding Projector工具,我们将生成的词向量可视化表示,并查询了部分各学科的高频词的近义词,如表2所示。