《表1 基于概率主题模型的方法总结》

《表1 基于概率主题模型的方法总结》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于社交媒体的话题演变研究综述》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

非参数主题模型通常基于狄利克雷过程(Dirichlet Process,DP),而针对短文本的话题演变模型中,使用最多的为循环中国餐馆过程(Recurrent Chinese Restaurant Process,RCRP)[26],因而本文仅介绍基于RCRP的话题演变模型。RCRP是中国餐馆过程的一个扩展,在其基础上引入时间信息,将要处理的数据流划分到不同的时间段,每个时间段的话题数都是不固定的,客人可以选择已经有客人的桌子并共享菜肴,也可以选择新的桌子并重新点菜[26],所以,通过桌子的新建、客人的增多和减少就可以建模话题的新兴、增长和消亡。Zhang等为了克服短文本的数据稀疏问题,也使用词共现建模技巧,基于词对里的两个单词共享一个话题的假设,将每个时间段里的文本转化为由词对组成的集合,然后使用RCRP生成每个词对的话题,其实验结果显示,不论是话题一致性还是话题区分度,该模型都要优于传统的话题演变模型DTM和Online LDA[27]。此外,Zhang等在使用词共现建模技巧和RCRP的基础上又引入词嵌入技术,构造新的循环语义依赖中国餐馆过程,也就是说将客人和餐桌都表示为向量的形式,然后利用向量之间的相似度为客人分配餐桌,实验结果表明,相比于没有引入词嵌入技术的模型,话题一致性和区分度都有很大的提高[28]。Lu等提出目前的话题演变模型只考虑全局的基于词共现的语义一致性,在挖掘话题演变趋势的时候忽视了局部的动态性和语义的依赖性,因而在RCRP的结构上增加了一个上下文敏感的主题层和基于LSTM[29]的序列层,前者用来捕获全局上下文敏感的语义一致性,后者用来学习动态演变过程的局部动态性和语义依赖性[30]。以上这些非参数的算法虽然都能够根据文本内容的变化自动调整话题的个数,也分析了话题在时间轴上的内容变化,但是没有考虑到话题的转移。这些基于概率主题模型的方法总结于表1中,在引入时间方式、话题数目、演变类型、演变结构和演变事件5个维度上进行对比,先时间离散化和后时间离散化相对,分别指在提取话题之前和之后划分时间片。