《表1 数据集的统计信息:基于多图神经网络的会话感知推荐模型》
对两个数据集,仿照文献[10]的数据处理方式,首先过滤长度为1的会话及出现次数小于5次的物品,并过滤仅出现在测试集中的物品。经过上述预处理:Yoochoose数据集中剩余7 981 580个会话,37 483个物品;Diginetica数据集中剩余204 771个会话,43 097个物品。仿照文献[15]的方法,对Diginetica数据集会话中的物品按时间戳排序,构成用户按时间顺序排列的交互序列。仿照文献[11]中的方法,对两个数据集按照如下方法进行扩充:对于会话S={v1,v2,…,vn},可以获得子序列S={v1,v2},S={v1,v2,v3},…,S={v1,v2,…,vn},其中每个子序列的最后一个物品作为标签数据,其余物品序列作为输入数据,构成一个样本。在Yoochoose数据集中,选择最后一天的数据作为测试集;在Diginetica数据集中,选择最后一周的数据作为测试集,余下的数据作为训练集。另外,对Yoochoose数据集,仿照文献[16]和文献[17]中的方式,对训练集中的会话按时间排序,选择最后1/64的数据作为实际的训练集。有关两个数据集的统计数据如表1所示。
图表编号 | XD00201789700 严禁用于非法目的 |
---|---|
绘制时间 | 2021.02.10 |
作者 | 南宁、杨程屹、武志昊 |
绘制单位 | 北京交通大学计算机与信息技术学院、中国民用航空局民航旅客服务智能化应用技术重点实验室、中国民用航空局民航旅客服务智能化应用技术重点实验室、中国民航信息网络股份有限公司、北京交通大学计算机与信息技术学院、中国民用航空局民航旅客服务智能化应用技术重点实验室 |
更多格式 | 高清、无水印(增值服务) |