COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training

Devs

COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training | Read Paper on Bytez