《表2 不同聚类算法的训练时间对比》

《表2 不同聚类算法的训练时间对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于高斯混合模型的Web代理服务器缓存替换策略》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
s

在聚类算法的选择上,本文综合比较了K-Means聚类算法、Mini Batch K-Means算法、DBSCAN算法、GMM和Birch[17]算法的计算性能,实验结果如表2所示。可以发现GMM聚类算法在面对较大的数据集时,计算性能仅次于K-Means算法和Mini Batch K-Means算法。K-Means算法选择的初始聚类中心是随机的,在不同实验中可能产生不同的结果,不具备可重复性,因此并不适用于大型Web日志数据。Mini Batch K-means算法是K-Means算法的优化变种,训练时从数据集中随机抽取数据子集来减少计算时间,但是聚类效果也比K-Means算法稍差。DBSCAN算法是一种基于密度的聚类算法,其优点是对噪声鲁棒,能很好地拟合不同形状的数据。但是DB-SCAN算法的聚类速度较慢,无法满足Web缓存替换的高效性需求。Birch算法只需一遍扫描数据集就能建立CF Tree,并且对噪声鲁棒,聚类速度也比较快。但是对数据集的分布要求较高,不适合具有高维特征的数据集。而GMM使用均值和标准差进行计算,使得簇的形状更加灵活。而且GMM给出的是数据集中的项分布在不同簇的概率,因此可以对从Web日志数据中得到的概率进行进一步的处理,得到更好的预测效果。因此,综合考虑了计算速度和Web日志数据的特点,本文决定采用GMM来对已访问的Web日志数据进行聚类划分。