《表4 各影片关键词组合聚类结果(部分)》
提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于机器学习和自然语言处理算法的电影内容元素与票房关联性研究》
为了实现对词的聚类,先将所有的评论构建一个语料空间,通过大量采样得出每个词及其上下文常出现的词语。然后将每部电影的每种词性看成一个单独的词空间,使用Word2vec(SkipGram)方法训练一个词向量模型。在这个词向量模型中,每个词语被投影到一个高维的隐空间中,每个词语对应一个高维向量。这些向量满足一个性质:在原始语料空间上下文相近的词语,在投影空间中的向量其欧氏距离也相近。由此我们便能够量化词语之间的相似度,从而实现聚类。在将每个词性聚出5个类别后,取出每个词性的类中心词,将这3种词性共15个类中心词语共同看作这部电影的内容关键词。表4为部分影片的最终聚类结果。
图表编号 | XD0097390300 严禁用于非法目的 |
---|---|
绘制时间 | 2019.09.11 |
作者 | 王萃、张海悦 |
绘制单位 | 中国电影科学技术研究所高新技术产业发展研究部、中国电影科学技术研究所高新技术产业发展研究部 |
更多格式 | 高清、无水印(增值服务) |