《表1 生成图像感知哈希算法》

《表1 生成图像感知哈希算法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《一种基于图像感知哈希的海量恶意代码分类方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

表1中的视觉词典由N个随机选择的词汇构成,称为N维视觉词汇.采用SimHash算法对纹理特征向量生成图像感知哈希,从而将恶意代码分类问题转化为汉明距离检索问题.为满足恶意代码分类的实时性要求,需要构建高效的索引结构.本文使用了一种基于布隆过滤器[16](Bloom Filter)算法进行汉明距离检索的方法,该方法对SimHash算法生成的图像感知哈希库中所有哈希值穷举其汉明距离在K以内的所有签名,并将布隆过滤器结构汇总在一起组成类似BitMap的结构,最终查询汉明距离时,只需要计算BitMap的并集,提高了查询效率.这样,通过布隆过滤器结构,将汉明距离检索问题变成布隆过滤器查询问题,将检索时间复杂度和空间复杂度降低常数.要查找哈希值A与哈希值B是否相似,只需要根据事先构建好的布隆过滤器结构,使用同样的k个独立哈希函数对B进行布隆过滤器查找,其运算量为k次哈希函数的运算.布隆过滤器需要选择k个独立的哈希函数来进行映射,本文选择了RSHash、JSHash、PJWHash这3个哈希函数来对输入数据进行映射.布隆过滤器存在一定的误判率,有可能把不属于这个集合的元素误认为属于这个集合,但在海量恶意代码检测中,由于数据规模大,用较低的错误率换取高效的空间和时间效率是十分划算的.