RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning

Devs

RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning | Read Paper on Bytez