《表1 余弦相似度统计表:基于TF-IDF的程序代码抄袭检测系统》
通过细致的结果分析可以进一步说明问题。该编程问题提交源代码文本数量为542,筛出嫌疑较大的高异常余弦相似值的文本对总数为128。高异常相似值的文本对是按照以下规则选取的:每个用户相对于其他用户的相似度取最大值者,然后对比阈值0.999进行筛选,大于阈值者被筛选为高异常相似值。这些文本对的余弦相似度统计如表1第二列所示。为检验算法组合对抄袭问题的检测效果,使用人工方式查看源代码文本,判断是否抄袭,然后与算法结果进行对比。人工判断的结果见表1第三、四和五列。
图表编号 | XD00226111700 严禁用于非法目的 |
---|---|
绘制时间 | 2020.09.25 |
作者 | 李晗 |
绘制单位 | 温州大学电气与电子工程学院 |
更多格式 | 高清、无水印(增值服务) |