Multimodal Large Language Models Make Text-to-Image Generative Models Align Better

Devs

Multimodal Large Language Models Make Text-to-Image Generative Models Align Better | Read Paper on Bytez