《表1 e107:一种面向WEB页面的标记聚类方法》
为了直观展示两种相似度算法对聚类结果的影响,本部分还给出了分别使用两种相似度度量算法结合同一层次聚类算法得到的聚类结果,如表1,2所示,本文提出的改进树匹配算法准确率和召回率都明显优于简单树匹配算法。这是由于简单树匹配将大量的不属于同一类但是却有相似DOM结构的网页聚为一类,使得该算法的召回率极低。经过进一步的分析发现,由于Web应用中大量使用同一框架和form表单,这使得简单树匹配算法聚类失误,但本文提出的改进树匹配算法考虑了更多的属性信息,从而得到了更好的聚类效果。
图表编号 | XD00163291900 严禁用于非法目的 |
---|---|
绘制时间 | 2020.05.20 |
作者 | 焦永强、王维扬、尚颖 |
绘制单位 | 中国航空综合技术研究所、北京化工大学、北京化工大学 |
更多格式 | 高清、无水印(增值服务) |