FOCUS: Internal MLLM Representations for Efficient Fine-Grained Visual Question Answering

Devs

FOCUS: Internal MLLM Representations for Efficient Fine-Grained Visual Question Answering | Read Paper on Bytez