RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

Devs

RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval | Read Paper on Bytez