《表2 主题-特征词概率分布示例》
注:维度编码含义见表1。
经试验,LDA模型输出的各主题中,概率较大的前50个词累积贡献概率多数超过60%,只有2个主题累积概率为52.8%和59.3%,说明前50个特征词能够代表该主题的语义表征。主题提取结果的部分样例如表2所示。由主题提取结果可见,LDA模型抽取的主题效果较好,各主题由不同概率的词语分布构成,主题特征词语的概率分布具有“长尾”分布特征,在词语概率分布的尾部,词语概率值趋于平缓,概率值约小于0.005,概率值较小的词语对主题的贡献率较小。
图表编号 | XD00149717900 严禁用于非法目的 |
---|---|
绘制时间 | 2020.04.28 |
作者 | 梁晨晨、李仁杰 |
绘制单位 | 河北师范大学资源与环境科学学院、河北师范大学资源与环境科学学院、河北省环境演变与生态建设实验室 |
更多格式 | 高清、无水印(增值服务) |