Google Research ha desarrollado un método revolucionario para afinar grandes modelos de lenguaje (LLMs) que reduce la cantidad de datos necesarios para el entrenamiento hasta 10,000 veces, sin perder calidad e incluso mejorándola. La clave está en el aprendizaje activo, centrando el trabajo de los expertos en etiquetado solo en los ejemplos más relevantes: esos casos límite donde el modelo tiene mayor incertidumbre.

El problema tradicional Afinar LLMs en tareas que requieren un entendimiento profundo del contexto y la cultura, como la seguridad de contenido publicitario o la moderación, suele necesitar grandes conjuntos de datos etiquetados de alta calidad. Sin embargo, la mayoría de esos datos son irrelevantes, pues solo una pequeña fracción realmente ayuda a detectar violaciones de políticas, lo que encarece y complica el proceso. Además, cuando cambian las políticas o aparecen nuevos patrones problemáticos, se requiere costosos reentrenamientos.

La innovación de Google con aprendizaje activo ¿Cómo funciona? Primero, el modelo actúa como explorador, escaneando enormes bases de datos para identificar los ejemplos sobre los que tiene menos certeza. Luego, los expertos humanos solo etiquetan esos casos difíciles o ambiguos en lugar de miles de ejemplos al azar. Este proceso se repite iterativamente, enfocándose siempre en los puntos donde el modelo muestra dudas. El entrenamiento continúa por rondas hasta que el modelo consigue un nivel de acuerdo cercano al de los expertos, medido con el coeficiente de Cohen Kappa, que evalúa la coincidencia más allá del azar.

Resultados concretos En pruebas con los modelos Gemini Nano-1 y Nano-2, se logró que el modelo igualara o superara la precisión de los expertos humanos usando apenas entre 250 y 450 ejemplos seleccionados cuidadosamente, en lugar de cerca de 100,000 etiquetas aleatorias — una reducción de tres a cuatro órdenes de magnitud. Además, para tareas más complejas y modelos más grandes, la mejora de desempeño fue del 55-65% respecto al método tradicional, mostrando una mejor alineación con los expertos en políticas. Para obtener estos avances con conjuntos de datos tan pequeños, resultó fundamental mantener alta la calidad de las etiquetas (un Cohen Kappa superior a 0.8).

¿Por qué es importante? Este enfoque cambia la forma tradicional de entrenar modelos. En lugar de alimentar a las IA con montones de datos ruidosos y repetitivos, combina la capacidad del modelo para detectar casos problemáticos con la experiencia humana justo donde más se necesita. Las ventajas son claras: menos costos, porque se requieren muchas menos etiquetas; actualizaciones más rápidas, gracias a que reentrenar con poco dato es más sencillo; y un impacto positivo en la sociedad, al mejorar la seguridad y fiabilidad de sistemas automáticos que manejan contenido sensible.

En resumen, la nueva técnica de Google permite ajustar grandes modelos de lenguaje en tareas complejas y dinámicas usando solo unos cientos de etiquetas de alta calidad, en vez de cientos de miles. Esto lleva a un desarrollo de modelos mucho más eficiente, ágil y económico.

↗

fuente original

https://www.marktechpost.com/2025/08/10/from-100000-to-under-500-labels-how-google-ai-cuts-llm-training-data-by-orders-of-magnitude/

ver →

etiquetas:google research modelos de lenguaje aprendizaje activo etiquetado de datos inteligencia artificial seguridad de contenido afinamiento de modelos