《表1 词嵌入Word2Vec模型近义词举例》

《表1 词嵌入Word2Vec模型近义词举例》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《义务教育阶段教师对工资待遇问题的网络诉求——基于全国网络问政平台的大数据研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在原始文本的数据矩阵的结构化转换过程阶段,即机器学习的特征工程构建,本文构建了基于词嵌入技术的Word2Vec模型。具体来讲,首先对每条留言使用python的jieba分词器(添加与教师待遇相关的自定义词典)进行分词,之后利用神经网络模型训练人民网174万条留言而得到词嵌入Word2Vec模型[35],基于神经网络的CBOW算法,根据词语上下文,训练出人民网留言板的全部词语的300维向量。大量的数据样本训练,使得词嵌入模型可以初步识别词语之间的关系(起到类似于“语义识别”的作用)(1)。表1择要列举出一些与本文直接相关的重要词语,以及将这些词语输入基于174万条人民网留言数据和神经网络模型训练处的Word2Vec模型后模型给出的近义词。该模型列举出的近义词比较符合人类认知常识(2)。虽然该特征向量模型并不能完美地匹配人类对词语关系的认知,但可以在大数据自动文本分析时提供重要帮助[36]。