《表3 Yeast数据集分类预测结果》

《表3 Yeast数据集分类预测结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于生成对抗网络的高端装备研制数据脱敏方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本节采用机器学习中的随机森林算法[17]预测蛋白质的定位信号。在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出类别的众数而定,由文献[18]在1996年提出。随机森林的优点在于可以处理高维数据,且对于不平衡数据集有较好的分类效果,因此对于Yeast数据集应使用随机森林算法进行分类,分类的分析结果如表3所示,图9为其接受者操作特性(receiver operating characteristic,ROC)曲线。在Yeast数据集的分类预测中,类别1的精确率和召回率都较高,而类别2相对较差,这是因为Yeast是个不平衡数据集,类别1和类别2的实例比大概为8∶1,总的精确率为0.94。而宏平均值(所有标签结果的平均值)为0.84,加权平均值(所有标签结果的加权平均值)为0.93的原因也是受到了类别1和类别2不平衡的问题的影响。由此可以证明,GAN同样复现了数据集不平衡情况,并不需要添加额外的训练信息。