《表3 簇2中排在前3的特征》

《表3 簇2中排在前3的特征》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《医学信息分析技术与应用课程教学案例建设研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本案例中我们使用K-Means聚类函数对乳腺癌数据集进行聚类,分别聚为2-7个簇,计算不同聚类数的模型评价系数,发现聚为2个簇的轮廓系数、FMI值、Calinski-Harabasz的评价得分都是最高的。由于乳腺癌数据集本身就分为2类,也从侧面印证了聚为2个簇效果是最好的这一结果,通过案例教学,让学生理解K-Means聚类分析中的k值的含义及学会如何找到最优的k值。然后进一步对划分为2个簇的数据进行分析,对2个簇的质心进行降序排列,如表2和表3所示,这里只选取了排在前3的特征及特征值,因为对数据进行了归一化处理,特征值都在0~1。簇1代表了肿瘤为良性的数据样本分类,可以看出肿瘤为良性时,肿瘤特征值的平均取值;簇2代表了肿瘤为恶性的数据样本分类,可以看出肿瘤为恶性时,肿瘤特征值的平均取值,通过乳腺癌肿瘤特征值来判断肿瘤性质具有一定的指导意义。进一步让同学们理解聚类分析的实际意义。