《表3 模型训练结果:软件开发活动数据集的层次化、多版本化方法》

《表3 模型训练结果:软件开发活动数据集的层次化、多版本化方法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《软件开发活动数据集的层次化、多版本化方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

其次,基于2013年的数据集进行模型的训练、测试及调整.我们选取了数据集中最近5年,即2008年1月1日(北京时间,下同)后得到解决的(有Solution的)问题报告.此外,问题的最终解决需要经过一段时间的验证,即发现Solution的错误并纠正,因此,数据集中最后一段时间的问题报告的Solution有相对较高的不稳定性,无法准确地判断其是否是重复问题报告.我们对关于DUPLICATE的Solution错误出现的频率及其纠正时间进行了统计,发现有约2%的报告存在这样的错误,其中超过75%的报告在1年内得到了纠正.因此,我们过滤掉其中最后一年的问题报告,即保留2008年1月1日~2012年1月1日之间提交的问题报告,保证其中不准确报告的数量小于0.5%(2%? (1-75%))(由于部分错误的纠正需要10年以上的时间,为了保证有足够的数据,本文以损失1年的数据为代价使不准确的报告数量控制在0.5%以内).对剩余报告,我们按照其被提交的先后顺序选取了前80%作为训练数据,而后20%作为测试数据.训练结果见表3,可以看到,NR的系数显著不为0,其解释度为2.9%这说明,该模型具备判定能力,满足本示例的需求.