强化学习 Vanilla Policy Gradient

令 $\pi _ { \theta }$ 表示参数为 $\theta$ 的策略,$J \left( \pi _ { \theta } \right)$ 表示策略 $\pi _ { \theta }$ 的返回值,则优化函数梯度为

$$\nabla _ { \theta } J \left( \pi _ { \theta } \right) = \underset { \tau \sim \pi _ { \theta } } { E } \left[ \sum _ { t = 0 } ^ { T } \nabla _ { \theta } \log \pi _ { \theta } \left( a _ { t } | s _ { t } \right) A ^ { \pi _ { \theta } } \left( s _ { t } , a _ { t } \right) \right]$$

梯度上升

$$\theta _ { k + 1 } = \theta _ { k } + \alpha \nabla _ { \theta } J \left( \pi _ { \theta _ { k } } \right)$$

算法伪代码