Convergence Proof

Convergence proof for actor-critic methods applied to ppo and rudder

We prove under commonly used assumptions the convergence of actor-critic reinforcement learning algorithms. Published at Transactions on Large-Scale Data-and Knowledge-Centered Systems XLVIII.