《表2 核心集与全数据集获取特征词共现情况》

《表2 核心集与全数据集获取特征词共现情况》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《核心专利集筛选及专利技术主题识别影响》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
(1) 高频词:词频大于100。(2)中频词:词频大于等于10,小于等于100。(3)低频词:词频小于10。

首先,如图3所示,核心集摘要所抽取的词云规模最为适中,相对于全数据集标题所抽取的词云来说更为丰富,也适当地减少了全数据集摘要词云清洗的工作量,也可能减少低频或突发词因阈值设置所产生的损失。其次,如表2所示,核心集所抽取的摘要特征词基本上能够覆盖全数据集85%的高频词、54%的中频词以及21%的低频词,而两者的共现词对达到2209个,占核心集词集的88%,这表明相对于全数据集来说,核心集词的覆盖率和选取效率较高。 (1)