《表2 部分影片名词关键词》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于机器学习和自然语言处理算法的电影内容元素与票房关联性研究》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

由于是对评论进行分词和关键词提取，因此本文采用了中文开源分词软件Jieba分词将评论中每句话分成自然词语。该分词算法基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG）；采用动态规划查找最大概率路径，找出基于词频的最大切分组合；对于未登录词，采用了基于汉字成词能力的HMM模型和Viterbi算法。通过分词将评论中每句话分成自然词语，并删去了一些连词、助词，如：“是”“然后”“接着”等。下一步将每部电影的所有评论在逻辑上看成一篇文章，使用TextRank算法将评论的关键词提取出来。TextRank算法是一种用于文本的基于图的排序算法，其基本思想来源于谷歌的PageRank算法，通过把文本分割成若干组成单元（单词、句子）并建立图模型，利用投票机制对文本中的重要成分进行排序，仅利用单篇文档本身的信息即可实现关键词提取、文摘。与LDA、HMM等模型不同，TextRank无需事先对多篇文档进行学习训练，因其简洁有效而得到广泛应用。表1、表2、表3分别为提取的部分影片的动词、名词、形容词列表，可以看出这些词基本能够体现出影片的内容、情节、风格和特点。

图表编号	XD0097390000 严禁用于非法目的
绘制时间	2019.09.11
作者	王萃、张海悦
绘制单位	中国电影科学技术研究所高新技术产业发展研究部、中国电影科学技术研究所高新技术产业发展研究部
更多格式	高清、无水印（增值服务）