SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Devs

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training | Read Paper on Bytez