Uncovering Safety Risks of Large Language Models through Concept Activation Vector

Devs

Uncovering Safety Risks of Large Language Models through Concept Activation Vector | Read Paper on Bytez