首页| JavaScript| HTML/CSS| Matlab| PHP| Python| Java| C/C++/VC++| C#| ASP| 其他|
购买积分 购买会员 激活码充值

您现在的位置是:虫虫源码 > 其他 > 增强学习算法

增强学习算法

  • 资源大小:1.45 kB
  • 上传时间:2021-06-30
  • 下载次数:0次
  • 浏览次数:0次
  • 资源积分:1积分
  • 标      签: c

资 源 简 介

马尔卡夫决策过程理论定义了一个数学模型,可用于随机动态系统的最优决策过程。强化学习利用这个数学模型将一个现实中的问题变成一个数学问题。强化学习的故事1:找到最优价值强化学习就是:追求最大回报G追求最大回报G就是:找到最优的策略π∗。策略π∗告诉在状态s,应该执行什么行动a。最优策略可以由最优价值方法v∗(s)或者q∗(s,a)决定

文 件 列 表

ReinforcementLearning.m
VIP VIP
0.183651s