《表3 社会公共安全领域种子词》
在获取到训练语料DataSet1后,利用中科院IC-TCLAS分词软件对已获取语料进行分词、词性标注、停用词过滤等处理。直观上看,公共安全领域词汇应该是具有该领域特点的专业性术语,且这些词汇常会出现于事件标题以及文本中。另外,这类词汇的词性应该是属于名词、名词性短语或动词,与形容词、副词、介词、连词等无关。基于此,本研究首先以DataSet1中的文本标题为处理对象,在进行词性过滤处理后再对其词频进行统计和权重计算,从而得到初步的高频领域词汇列表。然后,在公共安全领域专家指导下对高频领域词进行人工干预和筛选,并得到属于公共安全领域的种子词汇(如表3所示)。从专业术语的领域看,表3列出的100个种子词中涉及包括打、砸、烧、杀、抢、虐、奸等以暴力和非文明方式而产生的群体性突发行为或状况。
图表编号 | XD00137049100 严禁用于非法目的 |
---|---|
绘制时间 | 2020.02.15 |
作者 | 王连喜 |
绘制单位 | 广东外语外贸大学非通用语种智能处理重点实验室、广东外语外贸大学信息科学与技术学院 |
更多格式 | 高清、无水印(增值服务) |