CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation

Devs

CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation | Read Paper on Bytez