Multimodal Unified Attention Networks for Vision-and-Language Interactions

Devs

Multimodal Unified Attention Networks for Vision-and-Language Interactions | Read Paper on Bytez