《表2 各种抽样策略的优缺点及其适用场景对比》

《表2 各种抽样策略的优缺点及其适用场景对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《类别不均衡学习中的抽样策略研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

随着计算和存储技术的不断发展,类别不均衡学习也不可避免面临大数据问题。相比小样本数据,大规模数据集上的类别不均衡问题更加突出,这为此领域的研究和发展带来新的机遇和挑战。例如Triguero等人[137]针对高不平衡生物信息大数据挑战,采用随机过抽样和演化特征加权处理的方法处理类别不均衡和特征选择问题,并基于MapReduce框架实现了随机森林分类模型。供类别不均衡学习研究用的典型的高维大样本数据主要来源于一些数据挖掘或机器学习竞赛,例如KDDCUP 1999数据集(http://kdd.ics.uci.edu/databases/kddcup 99/kddcup99.html),ECBDL’14生物信息大数据比赛数据集(http://cruncher.ncl.ac.uk/bdcomp/),数据科学竞赛网站kaggle上的信用评估数据集(https://www.kaggle.com/brycecf/give-me-some-credit-dataset)。机器学习UCI数据库(http://archive.ics.uci.edu/ml)也提供了一些此类数据集,例如记录链接比较数据集(the Record Linkage Comparison Patterns)、牌手数据集(the Poker Hand dataset)、Skin_segment数据集和CoverType数据集等等。