Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs

Devs

Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs | Read Paper on Bytez