深度学习

Source

Edit

History

强化学习-基础

value-base

期望的计算

如果agent的策略\(\pi\)是确定的(即在给定状态下，agent只会执行一个策略)，那么方程是:

如果agent的策略\(\pi\)是概率的(即，给定状态s，agent选择动作a的概率是\(\pi(a|s)\))，那么方程是:

最优策略的定义

两种value计算

区别