ConfPO: Exploiting Policy Model Confidence for Critical Token Selection in Preference Optimization

Devs

ConfPO: Exploiting Policy Model Confidence for Critical Token Selection in Preference Optimization | Read Paper on Bytez