《表1 词向量关键词词集》

《表1 词向量关键词词集》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《一种基于Word2vec的内容态势感知方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

TF-IDF是一种常用的关键词提取方法,TF词频(Term Frequency)指的是某一个给定的词语在某文件中出现的次数,IDF逆文件频率(Inverse Document Frequency)指的是包含某一个给定词语的文档比例的倒数。一个词语的TF-IDF越大,表示该词语在某篇文章中出现次数越多,同时在其他文章中出现次数越少,则该词语就越能够代表某篇文章,该词语也就越能被界定为关键词[6]。但是TF-IDF算法只考虑了词语的词频,没有考虑词语的上下文关系,所以通过TF-IDF算法提取出的多个关键词之间的语义关系、相关程度等信息都无法解释,相应的内容态势感知结果的解释性也就很差。为了解决这个问题,先通过TF-IDF算法对基准语料库提取关键词,将提取出的关键词作为种子关键词,然后从Word2vec词向量空间中根据余弦距离度量提取出较近的一组词语作为一个关键词词集。本实验中,基于维基百科中文语料的词向量模型和密码产品语料的词向量模型提取出的种子关键词和关键词词集如表1所示。