How to Learn a Useful Critic? Model-based Action-Gradient-Estimator Policy Optimization

Devs

How to Learn a Useful Critic? Model-based Action-Gradient-Estimator Policy Optimization | Read Paper on Bytez