《表1 预处理后的参数列表》

《表1 预处理后的参数列表》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于高斯混合模型的Web代理服务器缓存替换策略》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在代理服务器中,用户访问信息会记录在代理日志中。Web日志文件中包含了多种访问信息,如用户IP地址、访问的URL及端口、请求方式、请求时间,访问对象字节大小等。但是数据中包含一定数量的无效数据(访问失败、地址失效等),因此需要对数据集进行预处理。一方面,将Web日志文件数据集进行了过滤,去除不相关的访问及错误的Web请求,抽取有用的数据来进行特征提取。另一方面,Web数据集的构建是从日志代理文件中提取所需的信息,考虑到访问具有时序性,使用了循环滑动窗口机制对数据集进行了分段处理,从中提取并计算出可以用作聚类分析的特征。经过预处理后的具体参数如表1所示。