Generalizing Trust: Weak-to-Strong Trustworthiness in Language Models

Devs

Generalizing Trust: Weak-to-Strong Trustworthiness in Language Models | Read Paper on Bytez