《表2 2013版本DQN算法伪代码》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于DQN的企业创业创新自主体模拟》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

2013年，人工智能研究团队DeepMind提出了DQN（Deep Q-Network）算法，将深度学习和强化学习结合起来训练自主体，利用深度神经网络的泛化能力存储Q s（，a），使得自主体可以直接根据屏幕像素点输出游戏动作。该算法在Atari 2600游戏中取得了惊人的效果:在参与实验的7个Atari 2600游戏中，自主体有6个游戏超越了之前所有的强化学习方法，并且有3个游戏超过了专家级别的人类玩家[13]。本文会将企业自主体的各项状态值以及市场条件等作为DQN的观察值输入，输出得到当前市场环境下最符合企业偏好的决策行为，同时进行强化学习。通过这种学习，企业自主体会在经济实际运行中评估自己的行为，例如它对创新的效应行为。2013版本DQN算法的伪代码如表2所示，这个算法模型，刻画了企业自主体的自适应创新行为。

图表编号	XD0058942700 严禁用于非法目的
绘制时间	2019.03.01
作者	李睿、王铮
绘制单位	华东师范大学地理信息科学教育部重点实验室、华东师范大学地理信息科学教育部重点实验室、中国科学院科技政策与管理科学研究所
更多格式	高清、无水印（增值服务）