《表1 针对不同元数据文本篇幅、文本语言和主题个数的WMS主题分类结果对比》

《表1 针对不同元数据文本篇幅、文本语言和主题个数的WMS主题分类结果对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《一种WMS领域主题文本提取及元数据扩展方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

文本篇幅、文本语言和WMS元数据匹配的主题个数都会对分类结果产生影响。本文依据数据分布,结合分位规则将文本篇幅划分为较短(100字以下)、适中(100~200字)和较长(200字以上);将WMS元数据匹配的主题个数划分为0~1、2~3和3以上;将文本语言划分为英语和其他语言。本文从可用WMS中随机选取实验样本,人工标注样本主题,并计算主题提取的查准率与查全率,实验结果见表1。实验结果表明本文算法对不同特征数据分类的整体效果较好。其中,篇幅较长的文本包含较多噪声,因此随着篇幅长度的增加,分类效果逐渐下降;主题个数增多时,主题完全准确匹配的难度增加,因此随着主题个数增多分类性能逐渐降低。由于语料库的限制,本文算法也无法甄别非英语特征词。