《表1 七种有效性指标在人工数据集上的最佳聚类数 (m=2)》
图4为人工数据集分布结构示意图。DS1、DS2、DS3是高斯分布数据集,DS4、DS5、DS6是均匀分布数据集。DS1和DS4数据集类与类之间分离明确;DS2和DS5数据集有150个噪声污染数据;DS3数据集中三类样本数据彼此之间存在较大的重叠,另两类分离较好;DS6数据集中五类样本数据彼此之间都存在一定的重叠。表1为人工数据集的具体数值信息和各个有效性指标计算得到的最佳聚类数。为了更直观地说明,图5详细列出了DS2和DS3数据集的聚类数—指标关系。针对分离较好的数据集DS1和DS4,所有指标均有效。针对噪声数据集:DS2数据集,PE和FM得到的最佳聚类数为两类,其次才是4,XB则误判为六类,其余指标均可以有效地判定为四类;DS5数据集,仅有MPC、W能正确地判定为三类。针对重叠数据集:DS3和DS6由于重叠区域较多,传统聚类有效性指标失去判别能力,仅有W指标能够正确地判断这两个数据集的最佳聚类数为五类。
图表编号 | XD0067683200 严禁用于非法目的 |
---|---|
绘制时间 | 2019.04.01 |
作者 | 耿嘉艺、钱雪忠、周世兵 |
绘制单位 | 江南大学物联网工程学院、江南大学物联网工程学院、江南大学物联网工程学院 |
更多格式 | 高清、无水印(增值服务) |