《表2 某疫苗事件主题三元组(部分)》
本文选择Python语言调用LTP,采用Windows10系统、Python 3.6.7版本以及3.4.0版本LTP模型文件,利用LTP语言云平台,完成对微博文本数据分词、词性标注、命名实体识别、依存句法分析、语义角色标注及事件三元组抽取等处理过程。依据构建的突发公共卫生事件网络舆情主题发现框架,以爆发期为例,对12 244条博文数据进行依存句法分析和语义角色标注,根据抽取规则抽取主题实体的RDF三元组,清洗无效和重复的三元组,共获得有效RDF三元组38 030组,合并重复数据后共17 344组RDF三元组,累计RDF三元组频次作为权值weight,表示不同三元组中实体间联系的紧密性,其中weight≥3约占前10%,而约90%的数据频次仅为1或2,为低频数据。由于低频数据所含的语义价值相对高频数据不够丰富;剔除低频数据不影响核心主题的识别;保证语义主题图谱可视化图像清晰易识别,故以weight≥3进行筛选,共获得1 945组RDF三元组,删除无效及不相关数据后,共计有效RDF三元组1 786组,将其导入至社会网络分析工具Gephi中,将三元组
图表编号 | XD00227025700 严禁用于非法目的 |
---|---|
绘制时间 | 2020.09.25 |
作者 | 邵琦、牟冬梅、王萍、靳春妍 |
绘制单位 | 吉林大学公共卫生学院、吉林大学公共卫生学院、吉林大学第一医院、吉林大学公共卫生学院、吉林大学公共卫生学院 |
更多格式 | 高清、无水印(增值服务) |