强化学习-基础

value-base

期望的计算

如果agent的策略\(\pi\)是确定的(即在给定状态下,agent只会执行一个策略),那么方程是:

如果agent的策略\(\pi\)是概率的(即,给定状态s,agent选择动作a的概率是\(\pi(a|s)\)),那么方程是:

最优策略的定义

两种value计算

区别