《表2 聚类结果：一种基于词聚类信息熵的新闻提取方法》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《一种基于词聚类信息熵的新闻提取方法》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

使用Word2vec对语料中经过预处理的所有词汇进行训练，维度为200维。利用已训练好的词向量对高频词进行K-means聚类，将所有的高频词分为20组，结果如表2所示。若待计算文章中未出现某个高频词，可在同一类别中查看是否出现了其它高频词，将同一类别中所有词汇的出现次数作为某一类别的出现频率。最后，根据设置的信息熵阈值，判定所计算文章是否属于新话题新闻。若信息熵高于阈值，则判定为新话题文章。

图表编号	XD00122256100 严禁用于非法目的
绘制时间	2020.01.15
作者	牛伟农、吴林、于水源
绘制单位	中国传媒大学智能融媒体教育部重点实验室、中国传媒大学智能融媒体教育部重点实验室、中国传媒大学智能融媒体教育部重点实验室
更多格式	高清、无水印（增值服务）