ReflectRM: Boosting Generative Reward Models via Self-Reflection within a Unified Judgment Framework

Devs

ReflectRM: Boosting Generative Reward Models via Self-Reflection within a Unified Judgment Framework | Read Paper on Bytez