《表1 生成图像感知哈希算法》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《一种基于图像感知哈希的海量恶意代码分类方法》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

表1中的视觉词典由N个随机选择的词汇构成，称为N维视觉词汇．采用SimHash算法对纹理特征向量生成图像感知哈希，从而将恶意代码分类问题转化为汉明距离检索问题．为满足恶意代码分类的实时性要求，需要构建高效的索引结构．本文使用了一种基于布隆过滤器[16]（Bloom Filter）算法进行汉明距离检索的方法，该方法对SimHash算法生成的图像感知哈希库中所有哈希值穷举其汉明距离在K以内的所有签名，并将布隆过滤器结构汇总在一起组成类似BitMap的结构，最终查询汉明距离时，只需要计算BitMap的并集，提高了查询效率．这样，通过布隆过滤器结构，将汉明距离检索问题变成布隆过滤器查询问题，将检索时间复杂度和空间复杂度降低常数．要查找哈希值A与哈希值B是否相似，只需要根据事先构建好的布隆过滤器结构，使用同样的k个独立哈希函数对B进行布隆过滤器查找，其运算量为k次哈希函数的运算．布隆过滤器需要选择k个独立的哈希函数来进行映射，本文选择了RSHash、JSHash、PJWHash这3个哈希函数来对输入数据进行映射．布隆过滤器存在一定的误判率，有可能把不属于这个集合的元素误认为属于这个集合，但在海量恶意代码检测中，由于数据规模大，用较低的错误率换取高效的空间和时间效率是十分划算的．

图表编号	XD0065803500 严禁用于非法目的
绘制时间	2019.06.01
作者	余健、黄泽坛
绘制单位	韩山师范学院计算机与信息工程学院、韩山师范学院计算机与信息工程学院
更多格式	高清、无水印（增值服务）