VLMimic: Vision Language Models are Visual Imitation Learner for Fine-grained Actions

Devs

VLMimic: Vision Language Models are Visual Imitation Learner for Fine-grained Actions | Read Paper on Bytez