Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Devs

Direct Preference Optimization: Your Language Model is Secretly a Reward Model | Read Paper on Bytez