《表1 样本类别分布:面向工业云平台的入侵检测技术研究》
NSL-KDD集是由KDD 99整理筛选而来,去除了KDD 99中过量冗余的数据记录,略微平衡不同攻击类型的数据比例,大约包含15万条攻击记录,其中包括训练集(KDDTrain)125973条记录、KDDTest+测试集22544条记录与KDDTest-21测试集11850条记录,分为正常数据(Normal)与四大类异常数据,分别为Probe(端口扫描)、Dos(拒绝服务攻击)、U2R(用户非法访问)、R2L(远程用户非法访问),样本分布情况如表1所示。NSL-KDD中每条数据包含41维特征,其中符号类型数据3种、二进制数据6种、数值型数据32种。数据预处理第一步采用独热编码的方式,将数据集中的全部符号类型的数据转化为二进制类型。经过数值化处理后协议特征(Protocol_type)转变为二进制向量(1,0,0)、(0,1,0)、(0,0,1)分别对应TCP、UDP、ICMP,Service特征映射为70维二进制向量变为70位,Flag特征映射为11维二进制向量变为11位,每条数据由41维特征变为122维。数据预处理第二步进行归一化处理,目的是缩小数值型数据的取值范围差异,便于运算提高算法收敛效率。其归一化计算公式如下所示:
图表编号 | XD00163600300 严禁用于非法目的 |
---|---|
绘制时间 | 2020.06.25 |
作者 | 相铮、石春鹏、韩立新 |
绘制单位 | 北京机械工业自动化研究所、北京机械工业自动化研究所、北京机械工业自动化研究所 |
更多格式 | 高清、无水印(增值服务) |