Los modelos de lenguaje grandes (LLMs) han mostrado un desempeño sobresaliente en diversas tareas gracias al aprendizaje con pocos ejemplos, también conocido como aprendizaje en contexto (in-context learning, ICL). Sin embargo, uno de los principales retos es elegir las demostraciones más representativas dentro de grandes conjuntos de datos de entrenamiento. Las primeras técnicas seleccionaban ejemplos basándose en la similitud con la pregunta de entrada, pero los métodos actuales usan reglas adicionales junto a estas medidas de similitud para mejorar la selección. Esto, sin embargo, incrementa considerablemente la carga computacional cuando aumenta el número de ejemplos usados. Además, la eficacia de las demostraciones seleccionadas debe ajustarse al modelo específico, pues cada LLM tiene diferentes capacidades y áreas de conocimiento.
Un equipo de investigadores de varias instituciones como la Universidad Jiao Tong de Shanghái, Xiaohongshu Inc., Carnegie Mellon, Universidad de Pekín, University College London y Universidad de Bristol, ha desarrollado FEEDER (FEw yet Essential Demonstration prE-selectoR). Este método busca identificar un subconjunto clave de demostraciones que contengan los ejemplos más representativos, adaptándose a cada LLM. Para ello, FEEDER introduce métricas de “suficiencia” y “necesidad” en una etapa previa de selección, además de utilizar un algoritmo basado en árboles. Así, logra reducir el tamaño del conjunto de entrenamiento en un 20% sin perder rendimiento y se integra fácilmente con distintos métodos de selección de demostraciones en ICL, funcionando con modelos que van desde 300 millones hasta 8 mil millones de parámetros.
Para evaluar FEEDER, probaron el método en seis conjuntos de datos de clasificación de texto (SST-2, SST-5, COLA, TREC, SUBJ y FPB), que abarcan desde clasificación de sentimientos hasta análisis lingüístico y reconocimiento de inferencias textuales. También se usaron conjuntos para razonamiento (GSM8K), análisis semántico (SMCALFlow) y preguntas científicas (GPQA), respetando las divisiones oficiales de datos para entrenamiento y prueba. Además, se evaluó con varias versiones de LLMs, incluyendo variantes de GPT-2, GPT-neo con 1.3B parámetros, GPT-3 con 6B, Gemma-2 con 2B, Llama-2 con 7B, Llama-3 con 8B y Qwen-2.5 con 32B parámetros.
Los resultados muestran que FEEDER permite conservar casi la mitad de las muestras de entrenamiento mientras mantiene o incluso mejora el rendimiento. En tareas complejas y con LLMs como Gemma-2, FEEDER mejora el desempeño incluso cuando el modelo tiene dificultades. Además, funciona muy bien con un gran número de ejemplos (shots), evitando la caída de rendimiento que suele ocurrir cuando se incrementan de 5 a 10 debido a ejemplos ruidosos o repetidos. FEEDER evalúa la suficiencia y necesidad de cada demostración, minimizando el impacto negativo y estabilizando el rendimiento del modelo.
En cuanto a la optimización bi-nivel, FEEDER logra mejores resultados usando un conjunto pequeño pero de alta calidad para afinar los modelos, reduciendo a la vez los costos computacionales, alineándose con el principio de selección de núcleos representativos (core-set). Los análisis indican que afinar los modelos aporta mayores mejoras que simplemente añadir contexto, y FEEDER potencia aún más estas ganancias en configuraciones de fine-tuning. También se observó que la efectividad del método aumenta en las primeras etapas pero puede disminuir si se limita demasiado la variedad de ejemplos, lo que evidencia que encontrar un subconjunto representativo es clave para mejorar el desempeño, pero sin restringirlo en exceso.
En resumen, FEEDER es un pre-selector de demostraciones que aprovecha las capacidades y el conocimiento de los LLM para encontrar ejemplos de alta calidad de manera eficiente. Esto reduce la cantidad de datos de entrenamiento necesarios sin afectar el rendimiento, ofreciendo una solución práctica para desplegar modelos de lenguaje grandes de forma más eficiente. Entre las futuras líneas de investigación están la aplicación a modelos aún mayores y la extensión de FEEDER a áreas como la seguridad y gestión de datos. En definitiva, FEEDER aporta una herramienta valiosa para investigadores y profesionales que buscan optimizar el rendimiento de los LLM mientras reducen la carga computacional.



