《表4 基于自身语料库的主题自动语义标注方法汇总》

《表4 基于自身语料库的主题自动语义标注方法汇总》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《面向主题模型的主题自动语义标注研究综述》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

对已有的基于自身语料库的主题自动语义标注方法进行汇总,结果如表4所示。总的来说,基于自身语料库的主题自动语义标注思路简单、清晰,生成和抽取的标签在主题语义相关性上更接近原始语料库。但采用此类方法生成语义标签的前提是:原始文本语料内容足够丰富,能从中析出高质量的主题标签。这对待处理语料提出较高要求,不仅要能够获得高质量的“主题–词汇”概率分布,还要能获得高质量的候选语义标签,因而此类方法尤其不太适用于内容短小且表述不规范的用户生成内容。此外,在候选标签生成上,随着语料规模的增加,此类方法生成的候选短语数量会急剧增加,文本解析也需要耗费更长时间[20]。不仅如此,通过自然语言处理方式从原始语料中抽取的候选短语标签往往良莠不齐,一些标签语义表达不完整或可理解性较差。此外,此类方法难以捕捉多个候选短语标签之间存在的包含、并列等语义关系,对于一词多义、一义多词、词语之间蕴含关系等情况的处理也较为粗糙。