《表2 核心集与全数据集获取特征词共现情况》
(1) 高频词:词频大于100。(2)中频词:词频大于等于10,小于等于100。(3)低频词:词频小于10。
首先,如图3所示,核心集摘要所抽取的词云规模最为适中,相对于全数据集标题所抽取的词云来说更为丰富,也适当地减少了全数据集摘要词云清洗的工作量,也可能减少低频或突发词因阈值设置所产生的损失。其次,如表2所示,核心集所抽取的摘要特征词基本上能够覆盖全数据集85%的高频词、54%的中频词以及21%的低频词,而两者的共现词对达到2209个,占核心集词集的88%,这表明相对于全数据集来说,核心集词的覆盖率和选取效率较高。 (1)
图表编号 | XD0039050300 严禁用于非法目的 |
---|---|
绘制时间 | 2019.01.24 |
作者 | 李姝影、张鑫、许轶、许海云、张娴、朱月仙 |
绘制单位 | 中国科学院成都文献情报中心、中国科学院成都文献情报中心、中国科学院成都文献情报中心、中国科学院成都文献情报中心、中国科学院成都文献情报中心、中国科学院成都文献情报中心 |
更多格式 | 高清、无水印(增值服务) |