《表2 经过LDA模型分析后的科技报告实例》
相比通用领域的文档,科技报告包含了更多的科技术语,而这些术语经过中文分词经常被切割成多个更细粒度的单词,导致许多采用词袋假设的主题模型在揭示领域深层主题时效果不佳。而笔者拟采用的主题N元语法模型不仅可以引入科技术语先验知识,而且可以自动确定新的术语,从而可以弥补科技术语库不足的缺陷。表2和表3给出了同一篇科技报告分别经过LDA模型和主题N元语法模型处理后的结果,黑色表示停用词,其他颜色表示所揭示的领域深层主题,箭头表示科技术语。笔者将所分析报告的中文关键词看作科技术语直接引入了主题N元语法模型,比如“卵巢癌”和“试剂盒”等。对比表2和表3不难发现,LDA模型经常将组成同一个术语的单词分配到不同的主题,比如“卵巢癌”和“氨基酸序列”,而主题N元语法模型基本不会出现这种现象,而且还自动确定了一些术语,比如“检测试剂盒”和“氨基酸序列”等。另外,LDA模型所揭示的主题比较发散,而主题N元语法模型所揭示的主题比较集中。所有这些因素导致LDA模型所揭示的领域深层主题可读性比较差。
图表编号 | XD0070465400 严禁用于非法目的 |
---|---|
绘制时间 | 2019.06.05 |
作者 | 安欣、徐硕 |
绘制单位 | 北京林业大学经济与管理学院、北京工业大学经济与管理学院北京现代制造业发展研究基地 |
更多格式 | 高清、无水印(增值服务) |