《表7 CIFAR-10数据集h取值分析》

《表7 CIFAR-10数据集h取值分析》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于差异性采样的流数据聚类算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

2) 参数h的取值分析参数h∈ (0,1],h的取值越小,说明新数据点的到达使得统计杠杆分数越大,表明数据点与核矩阵中原数据点的差异性越大,从而使得核矩阵中的点的分布范围变大,数据包含的信息越丰富,但h的值越小,会使得满足条件的数据点变少从而需要不断筛选造成较大的时间复杂度,因此需要根据不同的数据集,通过实验验证,权衡时间复杂度与聚类效果之间的关系来确定h的值。由表5可知,NMI和A的值随着h的增大而变小,运行时间也变小,且变化值较小,又由于Movement_Libras数据集规模较小,运行时间较短,所以采用聚类结果最准确的值h=0.1。由表6可知,NMI和A的值在h=0.4时降低幅度较大,且在h=0.1、0.2、0.3时的值相差较小;运行时间上,当h=0.3时,运行时间明显降低,并且之后趋于平缓,因此在MFCC数据集上,h值设为0.3。由表7可知,当NMI最大时h=0.4,且之后NMI值逐渐降低,且降幅较大;运行时间上呈现逐渐减小的趋势,且当h=0.1、0.2、0.3时,运行时间很大,h=0.4时降幅较大,且之后趋于平缓,同时h=0.4时的A值与最大值相差不多,因此在CIFAR-10数据集上,将h设为0.4。由表8可知,运行时间在h=0.2时降低幅度较大且之后趋于平缓;同时NMI和A的值逐渐降低,且在h=0.2时,NMI和A值相对较大,因此在forest cover type数据集上,将h设为0.2。