《表3 针对预定事件的研究方法总结》

《表3 针对预定事件的研究方法总结》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于社交媒体的话题演变研究综述》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

时间线是一维的概念,重点在于摘要的生成,之后只需要按时间的顺序将摘要进行排序就可以得到事件演变过程的时间线。故事脉络是更为复杂的概念,生成摘要之后,还需要根据子事件之间的关系分析演变结构。Dehghani等首先利用去重处理得到超级推文,然后在由超级推文构成的有向相似度图之中加入用户节点和相关的边,并利用HITS算法[61]提取具有高社交中心性的推文,最后使用由这些推文构成的对应事件的无向子图上的最小权重支配集(Minimum-Weight Dominating Set,MWDS)提取具有高语义中心性的推文,联合考虑社交中心性和语义中心性生成的摘要相比于传统的只考虑语义相似度的LexRank算法有更高的代表性和更小的冗余性[8]。得到子事件的摘要之后,Dehghani等又根据这些子事件的摘要以及时间顺序构造新的图,该图生成的最小生成树即为最终生成的故事脉络[8]。同样,Sun等也是通过构造多视角图的方式生成摘要和故事脉络,即检测完子事件之后,在对应子事件的无向图中寻找支配集生成摘要,并在有向图中利用斯坦纳树算法[62]将这些摘要连接生成故事脉络,但是,Sun等在提取事件之前首先基于热门词在数据集上提取了事件的演变阶段,有助于提高故事脉络的完整性和一致性,此外,他们还提出一个新的故事脉络评估指标,重点在于评估其完整性和一致性[63]。Guo等在前人的基础上考虑更细粒度的故事脉络,也就是说,一个故事脉络由不同的线索构成,每条线索有不同的侧重点,属于不同的方面,并都会随着时间演变,如事故现场、事故的救援情况等[64]。此外,他们还利用图片相似度和用户交互相似度分析不同线索之间的联系,在生成摘要的时候也同时考虑文本和图片两种摘要,多模态数据的融合使得生成的故事脉络可读性更强,应用价值也更高[64]。Ansah等在生成故事脉络的时候也考虑了一个事件的多个方面,认为一个事件包含多个子话题,并在检测子话题和分析子话题演变结构的时候在内容、时间的基础上增加了社区相似度的计算,社区相似度的引入能够提高话题的一致性以及各个方面之间的区分度,但是他们没有考虑到子话题之间的联系[65]。以上常用的摘要生成算法包括排序、图论、决策树等都属于机器学习的方法,但随着深度学习研究的发展,也开始有学者在时间线与故事脉络的摘要生成中引入深度神经网络来提高效果。Goyal等将每个子事件逐层向上合并生成一个多水平的层次的故事脉络,并对每一层的子事件利用基于LSTM的编码器-解码器模型生成摘要,不同于前面抽取一个或多个文本表示的摘要以及固定长度的摘要,这里的摘要是随着子事件内容而变化的不固定长度的生成式的摘要[66]。综合以上方法,不难发现,无论是时间线还是故事脉络的生成,都只考虑内容上的演变,而没有分析强度上的演变。针对预定事件的研究方法总结如表3所示。