value-base
期望的计算
如果agent的策略\(\pi\)是确定的(即在给定状态下,agent只会执行一个策略),那么方程是:
如果agent的策略\(\pi\)是概率的(即,给定状态s,agent选择动作a的概率是\(\pi(a|s)\)),那么方程是:
如果agent的策略\(\pi\)是确定的(即在给定状态下,agent只会执行一个策略),那么方程是:
如果agent的策略\(\pi\)是概率的(即,给定状态s,agent选择动作a的概率是\(\pi(a|s)\)),那么方程是: