《表1 用户短期观看电影间相关性》

《表1 用户短期观看电影间相关性》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《Item2vec与改进DDPG相融合的推荐算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

奖励函数在强化学习中至关重要,奖励函数影响算法的收敛速度和学习效果。本文对用户的历史数据进行处理,将用户的历史评分列表转换为(s_ht,a_ht,r_ht)的形式,并将其存储在M中(算法1)。推荐Agent在t时刻,从M获得一个(s_ht,a_ht,r_ht)元组,令状态st=s_ht={moviet1,…,movietK},产生一个电影推荐at,通过原数据中的a_ht和r_ht对该电影推荐进行评估并给予一个立即奖励rt(st,at)。现有的研究通常利用两者之间的余弦距离计算奖励值,但实验发现余弦距离更倾向于从方向上区分差异,对距离并不敏感,很容易使算法过早收敛于一个局部最优的策略,产生余弦相似度较高,但欧氏距离很大的推荐结果,无法满足用户的要求。本文对用户短时期内评分的电影进行相似度分析(如表1所示,表中mi表示电影ID),可以看出用户的电影兴趣在短期内没有太大变化,不同电影间余弦相似度比较高(cosin>0)且欧氏距离比较小(Ed<1),因此本文设计了一种余弦相似度和欧氏距离相结合的奖励函数,如下式: