《表1 部分背景词:一种基于词聚类信息熵的新闻提取方法》

《表1 部分背景词:一种基于词聚类信息熵的新闻提取方法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《一种基于词聚类信息熵的新闻提取方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在对正文进行分析前,需要首先对语料进行一系列的分词、去停用词等预处理操作。其中,分词使用了Pkuseg工具[18]的新闻领域模型,去停用词采用了停用词典的方式。此外,在预处理阶段还进行了背景词的去除。实验语料围绕“一带一路”这一主题展开,具有一定的特殊性。因此,文本的高频词中存在大量背景词,即在所有文章中都频繁出现,但对文章区分度并不大的词汇[19],这些背景词无法满足利用历史高频词发现新话题文章的需求。因此,本实验剔除了语料中对于新话题文章提取造成干扰的背景词,将剔除背景词后的历史高频词作为计算信息熵的随机事件。表1中列出了语料中的部分背景词。