PoisonBench: Assessing Language Model Vulnerability to Poisoned Preference Data

Devs

PoisonBench: Assessing Language Model Vulnerability to Poisoned Preference Data | Read Paper on Bytez