《表1 预处理后的参数列表》
在代理服务器中,用户访问信息会记录在代理日志中。Web日志文件中包含了多种访问信息,如用户IP地址、访问的URL及端口、请求方式、请求时间,访问对象字节大小等。但是数据中包含一定数量的无效数据(访问失败、地址失效等),因此需要对数据集进行预处理。一方面,将Web日志文件数据集进行了过滤,去除不相关的访问及错误的Web请求,抽取有用的数据来进行特征提取。另一方面,Web数据集的构建是从日志代理文件中提取所需的信息,考虑到访问具有时序性,使用了循环滑动窗口机制对数据集进行了分段处理,从中提取并计算出可以用作聚类分析的特征。经过预处理后的具体参数如表1所示。
图表编号 | XD00203520700 严禁用于非法目的 |
---|---|
绘制时间 | 2021.02.25 |
作者 | 唐榜、吴珏、杨福军、杨雷 |
绘制单位 | 西南科技大学计算机科学与技术学院、西南科技大学计算机科学与技术学院、中国空气动力研究与发展中心计算空气动力研究所、西南科技大学计算机科学与技术学院 |
更多格式 | 高清、无水印(增值服务) |