Regret Analysis of Average-Reward Unichain MDPs via an Actor-Critic Approach

Devs

Regret Analysis of Average-Reward Unichain MDPs via an Actor-Critic Approach | Read Paper on Bytez