《表2 句子相似度计算部分结果》
从表2可以看出,当汉明距离以10为阈值时,只检测到两个可能剽窃的句子,而在Winnowing算法中,以相似度0.35作为阈值,检测到四个剽窃的句子,实际可疑句子和英文句子sen00005、sen00020、sen00086、sen00310互为译文,而一般的跨语言剽窃都是翻译而来的,所以可认为可疑句子与这四个句子互为剽窃句子。从表2中可以看出Winnowing算法的精度要高于Sim Hash算法,但是仔细分析这10个句子,发现在Winnowing算法中,某些稍微类似的计算相似度太低,不利于剽窃检测,而经过融合之后就好多了,能更好地应用于剽窃检测。
图表编号 | XD0035698200 严禁用于非法目的 |
---|---|
绘制时间 | 2019.01.01 |
作者 | 刘刚、左权、杨倩茹 |
绘制单位 | 哈尔滨工程大学计算机科学与技术学院、哈尔滨工程大学计算机科学与技术学院、哈尔滨工程大学计算机科学与技术学院 |
更多格式 | 高清、无水印(增值服务) |