Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation

Devs

Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation | Read Paper on Bytez