AMPO: Active Multi Preference Optimization for Self-play Preference Selection

Devs

AMPO: Active Multi Preference Optimization for Self-play Preference Selection | Read Paper on Bytez