《表1 数据信息表:基于改进随机森林算法的LBSN用户短期位置预测模型》

《表1 数据信息表:基于改进随机森林算法的LBSN用户短期位置预测模型》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于改进随机森林算法的LBSN用户短期位置预测模型》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

实验所用的数据集是知名的LBSN签到数据集Gowalla[12].其中,选取数据的时间范围为2010年1月到2012年1月,总计抽取其中的约600万条签到记录作为训练集.筛选时间范围为2012年2月的部分数据作为实验的测试集(实验假设个人社交因素在训练集和测试集的时间维度上是不变的).其中筛选规则为:对于在训练集上的每个用户,若该用户存在2012年2月的签到记录且该次签到的地点属于训练集的地点集合,则该条记录满足筛选条件.实验前,先对数据集进行数据清洗与过滤,剔除了签到记录较少的不活跃用户(签到记录数少于15条),去除了原始签到记录中不必要的信息如签到商户信息等,只保留本文研究的特征信息:时间戳,地理经纬度,好友关系和地理位置总签到次数;然后清洗了一些缺失必要信息的签到记录,如签到时间戳缺失,签到经纬度缺失的记录;与此同时,剔除了一些明显不合理的数据,如经纬度超出范围的签到记录.最后经过预处理后的数据集大致信息如表1所示.