Augmenting Vision Language Pretraining by Learning Codebook with Visual Semantics

Devs

Augmenting Vision Language Pretraining by Learning Codebook with Visual Semantics | Read Paper on Bytez