《表1 LDA模型中的符号含义》
图1中,D是训练数据集中的文章总数;N是文章中词的总数;K为主题总数;β是主题上的词分布;θ是文章的主题分布,表示文档中每个隐含主题所占的比重,是一个K维变量;z是每次生成文档词w时被选择的主题,由于存在一篇文档中含有多个主题的情况,图中的灰色圆圈部分表示w是一个可观测变量,重复进行N次选择词w及其相关主题z的步骤;α和η是两个超参数,作为Dirichlet分布的先验因子,α表示每篇文档的潜在隐含主题在文档中的Dirichlet分布,η表示潜在隐含主题在每篇文档的关键词中的Dirichlet分布。LDA模型的符号含义如表1所示。
图表编号 | XD0035444200 严禁用于非法目的 |
---|---|
绘制时间 | 2019.02.15 |
作者 | 朱泓臻、陈平华、蔡桂兰 |
绘制单位 | 广东工业大学计算机学院、广东工业大学计算机学院、广东省科技创新监测研究中心 |
更多格式 | 高清、无水印(增值服务) |