《表2 某疫苗事件主题三元组(部分)》

《表2 某疫苗事件主题三元组(部分)》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于语义的突发公共卫生事件网络舆情主题发现研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文选择Python语言调用LTP,采用Windows10系统、Python 3.6.7版本以及3.4.0版本LTP模型文件,利用LTP语言云平台,完成对微博文本数据分词、词性标注、命名实体识别、依存句法分析、语义角色标注及事件三元组抽取等处理过程。依据构建的突发公共卫生事件网络舆情主题发现框架,以爆发期为例,对12 244条博文数据进行依存句法分析和语义角色标注,根据抽取规则抽取主题实体的RDF三元组,清洗无效和重复的三元组,共获得有效RDF三元组38 030组,合并重复数据后共17 344组RDF三元组,累计RDF三元组频次作为权值weight,表示不同三元组中实体间联系的紧密性,其中weight≥3约占前10%,而约90%的数据频次仅为1或2,为低频数据。由于低频数据所含的语义价值相对高频数据不够丰富;剔除低频数据不影响核心主题的识别;保证语义主题图谱可视化图像清晰易识别,故以weight≥3进行筛选,共获得1 945组RDF三元组,删除无效及不相关数据后,共计有效RDF三元组1 786组,将其导入至社会网络分析工具Gephi中,将三元组中的subject和object视作网络结构中的头节点及尾节点,即Source和Target,将verb视作网络结构中定义节点之间关联关系的边(Label),如表2所示,对三元组主题表达中含有指代词的内容进行指代词的替换及归一化处理。