《表2 各种抽样策略的优缺点及其适用场景对比》
随着计算和存储技术的不断发展,类别不均衡学习也不可避免面临大数据问题。相比小样本数据,大规模数据集上的类别不均衡问题更加突出,这为此领域的研究和发展带来新的机遇和挑战。例如Triguero等人[137]针对高不平衡生物信息大数据挑战,采用随机过抽样和演化特征加权处理的方法处理类别不均衡和特征选择问题,并基于MapReduce框架实现了随机森林分类模型。供类别不均衡学习研究用的典型的高维大样本数据主要来源于一些数据挖掘或机器学习竞赛,例如KDDCUP 1999数据集(http://kdd.ics.uci.edu/databases/kddcup 99/kddcup99.html),ECBDL’14生物信息大数据比赛数据集(http://cruncher.ncl.ac.uk/bdcomp/),数据科学竞赛网站kaggle上的信用评估数据集(https://www.kaggle.com/brycecf/give-me-some-credit-dataset)。机器学习UCI数据库(http://archive.ics.uci.edu/ml)也提供了一些此类数据集,例如记录链接比较数据集(the Record Linkage Comparison Patterns)、牌手数据集(the Poker Hand dataset)、Skin_segment数据集和CoverType数据集等等。
图表编号 | XD00102826600 严禁用于非法目的 |
---|---|
绘制时间 | 2019.11.01 |
作者 | 刘树栋、张可 |
绘制单位 | 中南财经政法大学人工智能法商应用研究中心、中南财经政法大学信息与安全工程学院、中南财经政法大学人工智能法商应用研究中心、中南财经政法大学信息与安全工程学院 |
更多格式 | 高清、无水印(增值服务) |