《表1 是否有台风经过江苏的频数在总样本、训练集样本、测试集样本中的分布》

《表1 是否有台风经过江苏的频数在总样本、训练集样本、测试集样本中的分布》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于春季气候信号的“台风是否经过江苏”预测研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文使用的C4.5决策树算法是一种有监督的机器学习和数据挖掘算法,该算法可通过留出法验证模型效果,即需要将实验数据分割为关系互斥的训练集和测试集两个部分。训练集用来学习模型,测试集用来验证模型通用性和鲁棒性。通常训练集占总样本数的75%左右,测试集占25%左右。因此将1951—2000年(50 a,占比74%)这一段数据作为模型的训练集,将2001—2018年(18 a,占比26%)作为模型的测试集。本文将“台风是否经过江苏”抽象成一个二元分类的问题,即将各年份标记为“有”或者“无”台风经过江苏。如表1所示,统计表明1951—2018年的68 a中有34 a有台风经过江苏,另外34 a中无台风经过江苏,即总样本中“有”和“无”各占一半。在训练集中,有24 a有台风经过江苏,另外26 a无台风经过江苏。在测试集中有8 a经过江苏,另外10 a无台风经过江苏。从总样本、训练集和测试集的目标属性“有”与“无”的数量级对比上基本平衡。