《表2:文本相似度计算的Simhash算法的实现与改进》
其中Fm,n表示词语出现的次数。将词语出现的次数作为计算词语权重的一个因素,不仅更能表示文本的特性,而且还能更好的体现文本间的差异性,进而使得simhash计算生成的指纹更加合理有效,从而提高了判定相似文本的准确性。本文中将采取以下改进策略:
图表编号 | XD00132675000 严禁用于非法目的 |
---|---|
绘制时间 | 2020.01.01 |
作者 | 顾志祥、谢龙恩、杜雨 |
绘制单位 | 三峡大学计算机与信息学院、三峡大学计算机与信息学院、三峡大学计算机与信息学院 |
更多格式 | 高清、无水印(增值服务) |