《表1 选择的UCI数据集》
数据具体属性如表1所示,其中Http(kddcup)和Smtp是网络入侵检测数据,Shuttle是飞机的飞行数据,样本由两种类别构成,实验将相对较少的第二类样本标记为离群点,Breastw是威斯康星的乳腺癌诊断数据,其中恶性肿瘤占35%,实验将此类样本标记为离群点.Statlog Shuttle数据集中第二类中有3022个数据,约占20%,将这些数据点作为离群值.Arrhythmia是具有279个维度的多分类心律失常数据集.本实验去除五个分类属性,共274个属性.将其中数据量较小的3,4,5,7,8,9,14,15类组合作为离群点.Musk是麝香数据集,将非麝香类j146,j147和252作为正常点,而麝香类213和211作为离群值,并将其他类舍弃.Optdigits是光学识别手写数字数据集,数字1-9作为正常点,150个数字0的样本作为异常点.WBC数据集有两个类,良性和恶性.将该数据集的恶性类作为离群点.Mammography数据集有11183个样本,其中260个为钙化,将钙化的少数类作为是异常类,非钙化类作为正常类.
图表编号 | XD00212226700 严禁用于非法目的 |
---|---|
绘制时间 | 2019.11.01 |
作者 | 冯嘉琛、蔡江辉、杨海峰 |
绘制单位 | 太原科技大学计算机科学与技术学院、太原科技大学计算机科学与技术学院、太原科技大学计算机科学与技术学院 |
更多格式 | 高清、无水印(增值服务) |