《表1 部分候选概念的特征向量》
在经过数据预处理得到候选概念集合后,需要定义特征来表示煤矿事故本体概念与非煤矿事故本体概念的差异。特征是对一个客体或一组客体特性进行抽象的结果,用来描述概念。为更好地区分煤矿事故本体概念与非煤矿事故本体概念,需要添加背景语料库来进行概念特征提取[13],本文从艺术、教育、军事、体育、健康、金融6个领域选取100篇文本组成背景语料库。煤矿事故本体概念有众多特性,根据煤矿事故本体概念共有的特性抽象出某一特征,该特征就可用来区分是否为煤矿事故本体概念。同时,将这些特征通过向量的形式作为BP神经网络的输入,从而完成神经网络训练和概念分类。本文选用TF (Term Frequency,词频)、DF (Document Frequency,文档频率)、IDF (Inverse Document Frequency,逆文档频率)这3种特征组成特征向量[14],部分候选概念的特征向量经归一化处理后结果见表1。
图表编号 | XD0091904100 严禁用于非法目的 |
---|---|
绘制时间 | 2019.09.01 |
作者 | 桂冬冬、王向前、李慧宗 |
绘制单位 | 安徽理工大学经济与管理学院、安徽理工大学经济与管理学院、复旦大学管理科学与工程博士后流动站、安徽理工大学经济与管理学院 |
更多格式 | 高清、无水印(增值服务) |