《表2 K=7时KNN模型在正类和负类上的表现》

《表2 K=7时KNN模型在正类和负类上的表现》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于机器学习的收入预测研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

表2是K取值为7时KNN模型在正类和负类上的表现,由表2可知模型在负类数据上的表现要优于正类数据的表现,无论是召回率、精确率还是F值,负类数据的预测值都要更高一些。经过分析得知,这是由于数据分布不均衡导致的。在数据集中,负类数据共有3 779条,大约占了整个数据集的76%,而相比之下,正类数据只有1 221条,占整个数据集的24%左右。在这种正负类数据分布不均衡的情况下,模型对于数量大的数据集更加敏感,在预测时对数据较多的类别有更大的倾向性,容易将输入数据判别为数据量更大的数据类别,正是这一原因造成了表2中正负类表现的差异。