《表1 余弦相似度统计表:基于TF-IDF的程序代码抄袭检测系统》

《表1 余弦相似度统计表:基于TF-IDF的程序代码抄袭检测系统》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于TF-IDF的程序代码抄袭检测系统》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

通过细致的结果分析可以进一步说明问题。该编程问题提交源代码文本数量为542,筛出嫌疑较大的高异常余弦相似值的文本对总数为128。高异常相似值的文本对是按照以下规则选取的:每个用户相对于其他用户的相似度取最大值者,然后对比阈值0.999进行筛选,大于阈值者被筛选为高异常相似值。这些文本对的余弦相似度统计如表1第二列所示。为检验算法组合对抄袭问题的检测效果,使用人工方式查看源代码文本,判断是否抄袭,然后与算法结果进行对比。人工判断的结果见表1第三、四和五列。