《表1 TSBased-AEXPat算法》
通常情况下同一站点内的不同详情页面基本框架结构一致,除去广告内容和链接等相同内容,剩下不同部分通常是有效内容部分。可以等价的说,同一站点(或同一站点内的某一个模块)的不同页面的网页内容在提取过程中通常有效Xpath都分布在这些Xpath路径相同但对应内容不同的Xpath中。基于以上分析和假设,提出基于树结构的Xpath自动提取算法TSBased-AEXPath,算法步骤描述如表1所示。
图表编号 | XD00151846400 严禁用于非法目的 |
---|---|
绘制时间 | 2020.07.25 |
作者 | 曾燕清、陈志德、李翔宇 |
绘制单位 | 福建江夏学院电子信息科学学院、福建师范大学数学与信息学院、闽江师范高等专科学校计算机系 |
更多格式 | 高清、无水印(增值服务) |