BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding

Devs

BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding | Read Paper on Bytez