《表3 MFC论文LDA主题识别结果(K=30)》
由于目前MFC研究仍处于实验室阶段,许多研究成果以科研论文的形式呈现,对科研论文进行文本挖掘对于全面揭示MFC研究的细分领域和热点方向是非常必要的。LDA模型即潜在的狄利克雷分布模型(Latent Dirichlet Allocation Model)是一种经典有效的概率生成模型,包含文本-主题-词三层贝叶斯结构,可以从大规模文档集中挖掘潜在的主题信息[19],在科技文献主题识别中发挥着重要作用。我们以MFC领域1990~2018年的论文数据集构建语料库,利用LDA模型进行主题识别,经过主题过滤及人工判读,从30个主题中识别出24个有效主题,按主题强度排序如表3所示。
图表编号 | XD00123664300 严禁用于非法目的 |
---|---|
绘制时间 | 2020.02.01 |
作者 | 蒋甜、张超、刘会洲 |
绘制单位 | 中国科学院文献情报中心、中国科学院文献情报中心、中国科学院文献情报中心 |
更多格式 | 高清、无水印(增值服务) |