《表1 是否有台风经过江苏的频数在总样本、训练集样本、测试集样本中的分布》
本文使用的C4.5决策树算法是一种有监督的机器学习和数据挖掘算法,该算法可通过留出法验证模型效果,即需要将实验数据分割为关系互斥的训练集和测试集两个部分。训练集用来学习模型,测试集用来验证模型通用性和鲁棒性。通常训练集占总样本数的75%左右,测试集占25%左右。因此将1951—2000年(50 a,占比74%)这一段数据作为模型的训练集,将2001—2018年(18 a,占比26%)作为模型的测试集。本文将“台风是否经过江苏”抽象成一个二元分类的问题,即将各年份标记为“有”或者“无”台风经过江苏。如表1所示,统计表明1951—2018年的68 a中有34 a有台风经过江苏,另外34 a中无台风经过江苏,即总样本中“有”和“无”各占一半。在训练集中,有24 a有台风经过江苏,另外26 a无台风经过江苏。在测试集中有8 a经过江苏,另外10 a无台风经过江苏。从总样本、训练集和测试集的目标属性“有”与“无”的数量级对比上基本平衡。
图表编号 | XD00137234300 严禁用于非法目的 |
---|---|
绘制时间 | 2020.02.01 |
作者 | 史达伟、李超、周灏、朱云凤 |
绘制单位 | 中国气象局交通气象重点开放实验室、连云港市气象局、中国气象局交通气象重点开放实验室、江苏省气象台、沛县气象局、连云港市气象局 |
更多格式 | 高清、无水印(增值服务) |