《表5 距离测度和聚类质量评估》
Mahout提供了多种距离测度的方法,其中常用的有欧式距离、余弦距离、曼哈顿距离等。另外,Mahout提供了评估聚类质量的指标体系CDbw。CDbw是基于多代表点的有效性指数。其中最常用的三个指标是CDbw簇内密度、CDbw簇间密度、CDbw分离指标。表5给出了采用不同距离测度方法对应的CDbw聚类评估。通过结果可以看出CDbw分离指标得分最高的是曼哈顿距离,欧式距离次之,但欧式距离的迭代次数明显小于曼哈顿距离的迭代次数,所以采用欧氏距离收敛要比曼哈顿距离快,当数据量达到一定级别时,这种性能的差距将非常明显。欧式距离和曼哈顿距离都能获得理想的聚类效果,采用哪种距离测度要视具体情况而定。
图表编号 | XD0070695700 严禁用于非法目的 |
---|---|
绘制时间 | 2019.05.25 |
作者 | 姜朋、李挺 |
绘制单位 | 山东航空股份有限公司、山东航空股份有限公司 |
更多格式 | 高清、无水印(增值服务) |