《表5 OE-MMD、BSM和DE-MMD在Adult数据集对应的RSP数据块上的对比》
RSP数据块具有一致的概率分布[5-6],从对比结果可以发现,DE-MMD方法在4个混合分布数据集上均获得了优于OE-MMD和BSM方法的一致性判别准确率,证明本研究提出的DE-MMD方法是有效的.在此,本研究尝试对DE-MMD方法取得优势的原因进行讨论:(1)与基于离散属性独热编码的OE-MMD方法相比,DE-MMD方法并没有直接使用0和1二值化的离散属性进行分布一致性度量,因为直接使用0和1的二值化离散属性在计算不同数据集的MMD值时容易增加式(4)失效的概率.举一个最极端情况的例子:假设有两组数据(1,0)和(0,1)以及(2,2)和(1,1),经计算可发现这两组数据对应的MMD值相同,但是相比数据(1,0)和(0,1)之间的分布一致性,(2,2)和(1,1)应该具有更大的分布一致性.(2)与基于连续属性二进制化的BSM方法相比,DE-MMD方法是通过确定原始数据集的一种深度编码形式来计算数据集之间的分布一致性,这种深度编码通过输入和输出完全相同的神经网络将数据转化过程中的信息丢失率达到最小化,从而保证了基于深度编码的分布一致性能够反映原始数据的分布一致性.
图表编号 | XD00210795300 严禁用于非法目的 |
---|---|
绘制时间 | 2021.03.30 |
作者 | 何玉林、金一、戴德鑫、黄柏皓、黄家杰 |
绘制单位 | 深圳大学计算机与软件学院、深圳大学大数据系统计算技术国家工程实验室、中国刑事警察学院刑事科学技术学院、深圳大学计算机与软件学院、深圳大学计算机与软件学院、深圳大学计算机与软件学院 |
更多格式 | 高清、无水印(增值服务) |