From Thousands to Billions: 3D Visual Language Grounding via Render-Supervised Distillation from 2D VLMs

Devs

From Thousands to Billions: 3D Visual Language Grounding via Render-Supervised Distillation from 2D VLMs | Read Paper on Bytez