《表3 基于字符级和词级CNN模型分类结果评估》

《表3 基于字符级和词级CNN模型分类结果评估》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《融合主题信息的卷积神经网络文本分类方法研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

从表3实验结果来看,不管是采用自训练的词向量语料还是开放的大规模词向量语料,词级CNN模型整体好于字符级CNN模型,F1均值提升范围约1%~3%。字符级和词级语言模型的区别在于字符级或者词级的文本信息作为CNN模型的最小处理单元。对于能源政策文本通常具备较强的行文规范以及上下文之间具备较强的语义关系,从语义空间的角度,词级语言模型能够更好地表达文本中的语法和上下文语义关系,然后能够基于CNN模型去进一步放大词向量的语义表达能力,而字符级语言模型以单个字符进行处理时丢弃了词所具备的语义信息,因此对于能源政策文本采用词级CNN模型能够达到更好的分类效果[27]。另一方面实验观察到从全文的角度采用自定义词向量的词级CNN模型使用特定领域内的语料进行训练,对同领域的文本分类效果有一定的提升,但当语料扩大到100M以上时,词级CNN模型的分类效果差异较小,为0.22%。