强化学习 Vanilla Policy Gradient

\(\pi _ { \theta }\) 表示参数为 \(\theta\) 的策略,\(J \left( \pi _ { \theta } \right)\) 表示策略 \(\pi _ { \theta }\) 的返回值,则优化函数梯度为

\[\nabla _ { \theta } J \left( \pi _ { \theta } \right) = \underset { \tau \sim \pi _ { \theta } } { E } \left[ \sum _ { t = 0 } ^ { T } \nabla _ { \theta } \log \pi _ { \theta } \left( a _ { t } | s _ { t } \right) A ^ { \pi _ { \theta } } \left( s _ { t } , a _ { t } \right) \right]\]

梯度上升

\[\theta _ { k + 1 } = \theta _ { k } + \alpha \nabla _ { \theta } J \left( \pi _ { \theta _ { k } } \right)\]

算法伪代码