《表3 社会公共安全领域种子词》

《表3 社会公共安全领域种子词》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《面向公共安全领域的词典构建及其舆情事件识别研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在获取到训练语料DataSet1后,利用中科院IC-TCLAS分词软件对已获取语料进行分词、词性标注、停用词过滤等处理。直观上看,公共安全领域词汇应该是具有该领域特点的专业性术语,且这些词汇常会出现于事件标题以及文本中。另外,这类词汇的词性应该是属于名词、名词性短语或动词,与形容词、副词、介词、连词等无关。基于此,本研究首先以DataSet1中的文本标题为处理对象,在进行词性过滤处理后再对其词频进行统计和权重计算,从而得到初步的高频领域词汇列表。然后,在公共安全领域专家指导下对高频领域词进行人工干预和筛选,并得到属于公共安全领域的种子词汇(如表3所示)。从专业术语的领域看,表3列出的100个种子词中涉及包括打、砸、烧、杀、抢、虐、奸等以暴力和非文明方式而产生的群体性突发行为或状况。