《表1 选择的UCI数据集》

《表1 选择的UCI数据集》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《一种改进隔离森林的快速离群点检测算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

数据具体属性如表1所示,其中Http(kddcup)和Smtp是网络入侵检测数据,Shuttle是飞机的飞行数据,样本由两种类别构成,实验将相对较少的第二类样本标记为离群点,Breastw是威斯康星的乳腺癌诊断数据,其中恶性肿瘤占35%,实验将此类样本标记为离群点.Statlog Shuttle数据集中第二类中有3022个数据,约占20%,将这些数据点作为离群值.Arrhythmia是具有279个维度的多分类心律失常数据集.本实验去除五个分类属性,共274个属性.将其中数据量较小的3,4,5,7,8,9,14,15类组合作为离群点.Musk是麝香数据集,将非麝香类j146,j147和252作为正常点,而麝香类213和211作为离群值,并将其他类舍弃.Optdigits是光学识别手写数字数据集,数字1-9作为正常点,150个数字0的样本作为异常点.WBC数据集有两个类,良性和恶性.将该数据集的恶性类作为离群点.Mammography数据集有11183个样本,其中260个为钙化,将钙化的少数类作为是异常类,非钙化类作为正常类.