《表2 句子相似度计算部分结果》

《表2 句子相似度计算部分结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《一种基于指纹融合的跨语言剽窃检测技术》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

从表2可以看出,当汉明距离以10为阈值时,只检测到两个可能剽窃的句子,而在Winnowing算法中,以相似度0.35作为阈值,检测到四个剽窃的句子,实际可疑句子和英文句子sen00005、sen00020、sen00086、sen00310互为译文,而一般的跨语言剽窃都是翻译而来的,所以可认为可疑句子与这四个句子互为剽窃句子。从表2中可以看出Winnowing算法的精度要高于Sim Hash算法,但是仔细分析这10个句子,发现在Winnowing算法中,某些稍微类似的计算相似度太低,不利于剽窃检测,而经过融合之后就好多了,能更好地应用于剽窃检测。