Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation

Devs

Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation | Read Paper on Bytez