TGDPO: Harnessing Token-Level Reward Guidance for Enhancing Direct Preference Optimization

Devs

TGDPO: Harnessing Token-Level Reward Guidance for Enhancing Direct Preference Optimization | Read Paper on Bytez