Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment

Devs

Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment | Read Paper on Bytez