《表2 经过LDA模型分析后的科技报告实例》

《表2 经过LDA模型分析后的科技报告实例》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于主题N元语法模型的科技报告主题分析》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

相比通用领域的文档,科技报告包含了更多的科技术语,而这些术语经过中文分词经常被切割成多个更细粒度的单词,导致许多采用词袋假设的主题模型在揭示领域深层主题时效果不佳。而笔者拟采用的主题N元语法模型不仅可以引入科技术语先验知识,而且可以自动确定新的术语,从而可以弥补科技术语库不足的缺陷。表2和表3给出了同一篇科技报告分别经过LDA模型和主题N元语法模型处理后的结果,黑色表示停用词,其他颜色表示所揭示的领域深层主题,箭头表示科技术语。笔者将所分析报告的中文关键词看作科技术语直接引入了主题N元语法模型,比如“卵巢癌”和“试剂盒”等。对比表2和表3不难发现,LDA模型经常将组成同一个术语的单词分配到不同的主题,比如“卵巢癌”和“氨基酸序列”,而主题N元语法模型基本不会出现这种现象,而且还自动确定了一些术语,比如“检测试剂盒”和“氨基酸序列”等。另外,LDA模型所揭示的主题比较发散,而主题N元语法模型所揭示的主题比较集中。所有这些因素导致LDA模型所揭示的领域深层主题可读性比较差。