《表1 用户自然属性和终端属性说明》
对用户历史换机记录编码时,需要考虑用户每一条换机记录对应的终端信息,因此对终端属性进行编码.其中终端属性说明如表1所示.对于离散属性(如品牌、网别),直接进行独热编码;对于连续属性(如价格、屏幕尺寸),通过等频分箱划分为5个区间再进行独热编码.将所有属性的编码拼接后,得到终端s的终端属性编码ls.由于终端品牌数众多,直接进行独热编码会造成维数灾难[15],基于浙江电信2018-12-31的终端使用数据统计终端品牌的使用分布.将终端品牌分为10个类别进行编码,包括使用比例前9位的品牌和其他品牌.终端品牌使用分布如图3所示.一个用户通常拥有多条换机记录,将这些换机记录对应的终端分为用户历史使用终端{s1,···,sk-1}和当前使用终端sk.将用户历史使用终端对应的多条终端属性编码{ls1,···,lsk-1}进行最大池化处理[16],得到历史使用终端编码lhis,表示用户历史上对终端的偏好;将用户当前使用终端对应的终端属性编码lsk作为当前使用终端编码lnow,表示用户当前对终端的偏好.由于用户当前对终端的偏好更具信息量,对历史使用终端和当前使用终端单独编码.
图表编号 | XD00215929200 严禁用于非法目的 |
---|---|
绘制时间 | 2021.01.01 |
作者 | 陈纬奇、王敬昌、陈岭、杨勇勤、吴勇 |
绘制单位 | 浙江大学计算机科学与技术学院、浙江鸿程计算机系统有限公司、浙江大学计算机科学与技术学院、中国电信浙江分公司、浙江鸿程计算机系统有限公司 |
更多格式 | 高清、无水印(增值服务) |