《表4 某省最终聚类结果:NLP技术在农行信用卡风险管理领域的应用》
经过上一步将地址划分到区级别,现对分到同一个区下的地址进行进一步聚类。采用Kmeans、DBScan以及层次聚类方式进行进一步细分。我们对最终的结果进行了抽样统计。随机抽取10 000个地址,统计聚类错误的数量占比,进而得到每个城市聚类的准确度。聚类错误的数量占比=地址非所在类别的数量/总地址数量。以聚类的准确度作为评价聚类效果的指标。我们通过综合评估聚类算法的效率、轮廓系数以及聚类效果,最终选择KMEANS算法。聚类的准确度有了显著的提高,且各个类的分布更加均衡(见表4)。
图表编号 | XD00113898200 严禁用于非法目的 |
---|---|
绘制时间 | 2019.11.07 |
作者 | 吕俊锋、陈宏晓、张诚、秦雷 |
绘制单位 | 中国农业银行研发中心 |
更多格式 | 高清、无水印(增值服务) |