See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model

Devs

See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model | Read Paper on Bytez