Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing

Devs

Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing | Read Paper on Bytez