《表1 用户短期观看电影间相关性》
奖励函数在强化学习中至关重要,奖励函数影响算法的收敛速度和学习效果。本文对用户的历史数据进行处理,将用户的历史评分列表转换为(s_ht,a_ht,r_ht)的形式,并将其存储在M中(算法1)。推荐Agent在t时刻,从M获得一个(s_ht,a_ht,r_ht)元组,令状态st=s_ht={moviet1,…,movietK},产生一个电影推荐at,通过原数据中的a_ht和r_ht对该电影推荐进行评估并给予一个立即奖励rt(st,at)。现有的研究通常利用两者之间的余弦距离计算奖励值,但实验发现余弦距离更倾向于从方向上区分差异,对距离并不敏感,很容易使算法过早收敛于一个局部最优的策略,产生余弦相似度较高,但欧氏距离很大的推荐结果,无法满足用户的要求。本文对用户短时期内评分的电影进行相似度分析(如表1所示,表中mi表示电影ID),可以看出用户的电影兴趣在短期内没有太大变化,不同电影间余弦相似度比较高(cosin>0)且欧氏距离比较小(Ed<1),因此本文设计了一种余弦相似度和欧氏距离相结合的奖励函数,如下式:
图表编号 | XD0077701400 严禁用于非法目的 |
---|---|
绘制时间 | 2019.06.24 |
作者 | 刘文竹、黄勃、高永彬、姜晓燕、张娟、余宇新 |
绘制单位 | 上海工程技术大学电子电气工程学院、上海工程技术大学电子电气工程学院、江西省经济犯罪侦查与防控技术协同创新中心、上海工程技术大学电子电气工程学院、上海工程技术大学电子电气工程学院、上海工程技术大学电子电气工程学院、上海外国语大学国际金融贸易学院 |
更多格式 | 高清、无水印(增值服务) |