《表5 四种类型数据的平均长度(单位(行数))》
表4给出了实验结果。可以发现Astor对指针类型的数据(PU-kind)效果是最好的。初步分析是因为指针类型的数据较为复杂,所涉及的数据依赖和控制依赖较多,所以该类型样本的代码长度较大,可以蕴含足够多的语法和语义信息供模型学习。为验证这个观点,本文进一步做了补充实验,统计了四种类型数据的样本平均长度。统计结果如表5所示。可以看出,指针类型数据(PU-kind)的平均长度为28.3,远高于其他三类。这证明该类型数据样本更适合本文所提出的Astor系统是因为其数据较为复杂,代码的长度最大,所包含的信息量是最多,因此可以通过其抽象语法树学到足够多的结构信息。而表4另外三类数据检测结果的F1值与表5中对应的平均长度相结合,可以进一步证明这个结论的准确性。
图表编号 | XD00156799100 严禁用于非法目的 |
---|---|
绘制时间 | 2020.07.01 |
作者 | 陈肇炫、邹德清、李珍、金海 |
绘制单位 | 大数据技术与系统国家工程研究中心服务计算技术与系统教育部重点实验室集群与网格计算湖北省重点实验室大数据安全湖北省工程研究中心、华中科技大学计算机科学与技术学院、大数据技术与系统国家工程研究中心服务计算技术与系统教育部重点实验室集群与网格计算湖北省重点实验室大数据安全湖北省工程研究中心、华中科技大学网络空间安全学院、深圳华中科技大学研究院、大数据技术与系统国家工程研究中心服务计算技术与系统教育部重点实验室集群与网格计算湖北省重点实验室大数据安全湖北省工程研究中心、华中科技大学网络空间安全学院、大数据技术与系 |
更多格式 | 高清、无水印(增值服务) |