Robust LLM Alignment via Distributionally Robust Direct Preference Optimization

Devs

Robust LLM Alignment via Distributionally Robust Direct Preference Optimization | Read Paper on Bytez