《表2 基于词向量的高频词、近义词》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于孪生网络的基金与受资助论文相关性判别模型构建研究》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

word2vec是Mikolov等[12]于2013年提出的一种神经语言模型，使用Skip-Gram或CBOW(continu‐ous bag of words）模型预测上下文和中心词是否共现，能够充分捕获词的上下文语义、语法信息。word2vec模型将词汇表示为定长稠密向量的形式，词汇之间的语义相似度可以通过向量之间的距离或夹角余弦值衡量。本文采用腾讯AI Lab开源的800万中文词向量[13]作为预训练词向量。腾讯中文词向量在覆盖率、新鲜度及准确性上相较于其他公开数据有了大幅提升。首先通过Jieba分词工具对抓取的基金标题、论文标题和论文摘要进行分词，将腾讯词向量中不存在的词作为停用词删除，使用Skip-Gram模型在本文获取的语料上训练，最后得到长度为200维的词向量217260条。借助谷歌Em‐bedding Projector工具，我们将生成的词向量可视化表示，并查询了部分各学科的高频词的近义词，如表2所示。

图表编号	XD00168289300 严禁用于非法目的
绘制时间	2020.06.24
作者	叶文豪、王东波、沈思、苏新宁
绘制单位	南京大学信息管理学院、江苏省数据工程与知识服务重点实验室、南京农业大学信息科学技术学院、南京理工大学经济管理学院、南京大学信息管理学院、江苏省数据工程与知识服务重点实验室
更多格式	高清、无水印（增值服务）