《表5 距离测度和聚类质量评估》

《表5 距离测度和聚类质量评估》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于大数据的航空客户价值分析》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

Mahout提供了多种距离测度的方法,其中常用的有欧式距离、余弦距离、曼哈顿距离等。另外,Mahout提供了评估聚类质量的指标体系CDbw。CDbw是基于多代表点的有效性指数。其中最常用的三个指标是CDbw簇内密度、CDbw簇间密度、CDbw分离指标。表5给出了采用不同距离测度方法对应的CDbw聚类评估。通过结果可以看出CDbw分离指标得分最高的是曼哈顿距离,欧式距离次之,但欧式距离的迭代次数明显小于曼哈顿距离的迭代次数,所以采用欧氏距离收敛要比曼哈顿距离快,当数据量达到一定级别时,这种性能的差距将非常明显。欧式距离和曼哈顿距离都能获得理想的聚类效果,采用哪种距离测度要视具体情况而定。