《表4 与其他分类主题爬虫对比》
为了验证本文方法在真实环境下的爬取效果。以“农业科学”类主题为例,人为设定相关页面数1 600个,构建真实的爬取场景(以上数据均从表1,2014—2018年的期刊论文中随机选取,未包含在训练集和测试集)。页面内容有标题、摘要、关键词等信息以及同一主题下的相关论文网页链接3条,如图6所示。对比实验包括NB-Crawler[18]、SVM-Crawler[19]、CNN-Crawler以及本文提出的LDA+CNN-Crawler,实验结果如表4所示。
图表编号 | XD0067426600 严禁用于非法目的 |
---|---|
绘制时间 | 2019.06.01 |
作者 | 汪岿、费晨杰、刘柏嵩 |
绘制单位 | 宁波大学信息科学与工程学院、宁波大学信息科学与工程学院、宁波大学信息科学与工程学院、宁波大学图书馆与信息中心 |
更多格式 | 高清、无水印(增值服务) |