SAIF: A Sparse Autoencoder Framework for Interpreting and Steering Instruction Following of Language Models

Devs

SAIF: A Sparse Autoencoder Framework for Interpreting and Steering Instruction Following of Language Models | Read Paper on Bytez