Near-optimal Regret Using Policy Optimization in Online MDPs with Aggregate Bandit Feedback

Devs

Near-optimal Regret Using Policy Optimization in Online MDPs with Aggregate Bandit Feedback | Read Paper on Bytez