Las búsquedas basadas en embeddings superan a los métodos tradicionales que usan palabras clave al captar la similitud semántica mediante representaciones vectoriales densas y búsquedas aproximadas de vecinos más cercanos (ANN). Sin embargo, estas estructuras ANN implican un gran gasto en almacenamiento, llegando a ser entre 1.5 y 7 veces más voluminosas que los datos originales. Esto puede manejarse en aplicaciones web a gran escala, pero resulta poco práctico para dispositivos personales o datasets muy grandes. Para implementaciones en el borde (edge computing), es clave reducir el almacenamiento a menos del 5% del tamaño original, un objetivo que las soluciones actuales no alcanzan plenamente. Aunque técnicas como la cuantización por producto (PQ) reducen el tamaño, suelen comprometer la precisión o aumentan la latencia en la búsqueda.
Los métodos de búsqueda vectorial se basan en estructuras como índices invertidos (IVF) y grafos de proximidad. Los grafos, como HNSW, NSG o Vamana, son considerados de última generación por su buen equilibrio entre precisión y eficiencia. Intentos de reducir su tamaño, por ejemplo con selección de vecinos mediante aprendizaje, enfrentan costos altos y dependencia de datos etiquetados. En entornos con recursos limitados, soluciones como DiskANN y Starling alojan datos en disco, mientras FusionANNS optimiza el uso del hardware. Otros métodos, como AiSAQ o EdgeRAG, buscan minimizar la memoria, pero aún cargan con un almacenamiento elevado o pérdida de rendimiento al escalar. Técnicas de compresión de embeddings como PQ y RabitQ ofrecen cuantización con límites teóricos de error, pero luchan por mantener la precisión cuando el espacio disponible es muy reducido.
Ante este panorama, un equipo de investigadores de UC Berkeley, CUHK, Amazon Web Services y UC Davis ha desarrollado LEANN, un índice ANN eficiente en almacenamiento, pensado para dispositivos personales con recursos limitados. LEANN combina una estructura compacta basada en grafos con una estrategia de recomputación bajo demanda, que permite búsquedas rápidas y precisas mientras minimiza el espacio requerido. Así, logra un almacenamiento hasta 50 veces menor que los índices convencionales, reduciendo el tamaño a menos del 5% de los datos originales. Además, mantiene un 90% de recall en los tres resultados principales en menos de dos segundos en pruebas reales de preguntas y respuestas. Para acelerar la latencia, emplea un algoritmo de recorrido de dos niveles junto con agrupamiento dinámico, que consolida los cálculos de embeddings durante las búsquedas para optimizar el uso de GPU.
La arquitectura de LEANN se basa en el marco HNSW y observa que cada consulta solo necesita los embeddings de un subconjunto limitado de nodos, lo que permite calcularlos bajo demanda en lugar de almacenarlos todos previamente. Para superar limitaciones anteriores, incorpora dos innovaciones: (a) un recorrido en dos niveles combinado con agrupamiento dinámico para reducir la latencia de recomputación, y (b) un método agresivo de poda del grafo que disminuye el almacenamiento de metadatos. Su flujo de trabajo inicia generando embeddings para todo el conjunto y luego crea un índice vectorial con técnicas existentes de grafos.
En términos de almacenamiento y velocidad, LEANN supera a EdgeRAG —un método basado en IVF con recomputación— logrando reducciones en latencia que van de 21 a más de 200 veces según distintos datasets y hardware. Esto se debe a que su complejidad de recomputación crece de forma poli-logarítmica, mucho más eficiente que el crecimiento según la raíz cuadrada del tamaño que presenta EdgeRAG. En precisión, LEANN rinde mejor en la mayoría de tareas downstream relacionadas con generación de respuestas (RAG), salvo en GPQA, donde la diferencia en la distribución de datos limita su eficacia, y en HotpotQA, donde el requerimiento de razonamiento en múltiples pasos limita las mejoras en búsquedas de un solo salto. Aun así, sus resultados son sólidos en diversos benchmarks.
En resumen, LEANN representa un sistema de recuperación neuronal que combina recomputación basada en grafos con innovaciones como el recorrido de dos niveles y agrupamiento dinámico. Al evitar almacenar embeddings completos, reduce sustancialmente el espacio necesario sin perder precisión. Entre sus retos está la alta demanda de almacenamiento temporal durante la construcción del índice, cuestión que podría mejorarse mediante técnicas como pre-clustering. Futuros desarrollos podrían enfocarse en reducir aún más la latencia y mejorar la capacidad de respuesta, facilitando su adopción en dispositivos con recursos limitados y escenarios en el borde.



