《表1 用户短期观看电影间相关性》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《Item2vec与改进DDPG相融合的推荐算法》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

奖励函数在强化学习中至关重要，奖励函数影响算法的收敛速度和学习效果。本文对用户的历史数据进行处理，将用户的历史评分列表转换为（s＿ht，a＿ht，r＿ht）的形式，并将其存储在M中（算法1）。推荐Agent在t时刻，从M获得一个（s＿ht，a＿ht，r＿ht）元组，令状态st=s＿ht={moviet1，…，movietK}，产生一个电影推荐at，通过原数据中的a＿ht和r＿ht对该电影推荐进行评估并给予一个立即奖励rt（st，at）。现有的研究通常利用两者之间的余弦距离计算奖励值，但实验发现余弦距离更倾向于从方向上区分差异，对距离并不敏感，很容易使算法过早收敛于一个局部最优的策略，产生余弦相似度较高，但欧氏距离很大的推荐结果，无法满足用户的要求。本文对用户短时期内评分的电影进行相似度分析（如表1所示，表中mi表示电影ID），可以看出用户的电影兴趣在短期内没有太大变化，不同电影间余弦相似度比较高（cosin>0）且欧氏距离比较小（Ed<1），因此本文设计了一种余弦相似度和欧氏距离相结合的奖励函数，如下式:

图表编号	XD0077701400 严禁用于非法目的
绘制时间	2019.06.24
作者	刘文竹、黄勃、高永彬、姜晓燕、张娟、余宇新
绘制单位	上海工程技术大学电子电气工程学院、上海工程技术大学电子电气工程学院、江西省经济犯罪侦查与防控技术协同创新中心、上海工程技术大学电子电气工程学院、上海工程技术大学电子电气工程学院、上海工程技术大学电子电气工程学院、上海外国语大学国际金融贸易学院
更多格式	高清、无水印（增值服务）