VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information Retrieval

Devs

VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information Retrieval | Read Paper on Bytez