《表1 Mozilla问题追踪数据集的概况》
目前,我们的Mozilla问题追踪数据集共有4个版本,每个版本最直观的区别体现在原始数据获取的时间及方式的不同上.首先,这4个版本的原始数据分别收集于2011年、2012年、2013年和2016年,为了方便阐述我们以这4个年份来命名这4个版本的数据;其次,这4次数据收集使用了两种不同的方法:一种是目前研究社区中最常使用的基于爬虫的方法,我们批量地下载Bugzilla的用户Web页面;而另一种方法则与众不同,我们通过积极地与Mozilla社区沟通,获得了的经过脱敏处理的Bugzilla后台数据库dump.我们使用前者收集了2011年与2012年的数据,而通过后者收集了后两个版本的数据.相对于Web页面,数据库dump的下载要容易很多它既不会干扰社区的正常工作,也不会受到访问频率及下载速度的限制以及爬虫自身bug的影响.表1是这4个版本数据的概况,从中我们可以看到,它们在问题报告数量、参与者人数等各个方面都存在明显的不同.
图表编号 | XD0073049600 严禁用于非法目的 |
---|---|
绘制时间 | 2019.07.01 |
作者 | 朱家鑫、周明辉 |
绘制单位 | 北京大学信息科学技术学院软件研究所、高可信软件技术教育部重点实验室(北京大学)、中国科学院软件研究所软件工程技术研究开发中心、北京大学信息科学技术学院软件研究所、高可信软件技术教育部重点实验室(北京大学) |
更多格式 | 高清、无水印(增值服务) |