《表3 降维后的样本数据集》
经典的朴素贝叶斯分类器可以对连续属性进行精确的计算,但在本样本中,对于“年龄”一栏属性来说,较小的年龄差异对涉恐等级的判定影响并不大。对此,我们采取离散化的方法,将连续的年龄划分为几个离散区间。在本方法中,以20岁、60岁为离散点,划分为青少年(0,20]、中壮年(20,60]、老年(60岁以上)3个区间。在实际应用中,还可以通过调整区间分段来优化算法结构。另外,为提高分类准确度,可根据常识和反恐经验过滤掉过大或过小年龄段,例如,6岁以下的儿童和80岁以上的老人几乎不会单独实施暴力恐怖活动,这部分人可以过滤掉。再例如,涉恐人员的姓名并不是涉恐等级的相关属性,人员的“性别”属性与“特殊外貌”属性并不是相互独立的特征,而是存在一定的关联性。在进行预处理时,也可以考虑将上述属性过滤掉。一般情况下,蒙面的、穿“吉里巴甫”服的多为女性[16]。进行特征降维后的样本数据集如表3所示。
图表编号 | XD00104760300 严禁用于非法目的 |
---|---|
绘制时间 | 2019.10.15 |
作者 | 朱峰、潘晓中 |
绘制单位 | 武警工程大学密码工程学院、武警工程大学密码工程学院 |
更多格式 | 高清、无水印(增值服务) |