MLE-STAR (Machine Learning Engineering via Search and Targeted Refinement) es un avanzado sistema desarrollado por investigadores de Google Cloud que busca automatizar el diseño y la optimización de complejos pipelines de machine learning. Gracias a la combinación de búsquedas a escala web, refinamiento dirigido del código y módulos de verificación robustos, MLE-STAR supera ampliamente a agentes autónomos anteriores y también a enfoques manuales.
El reto principal que enfrenta es automatizar la ingeniería de machine learning, algo en lo que muchos agentes basados en grandes modelos de lenguaje (LLMs) aún tienen dificultades. Estos tienden a depender demasiado de su memoria interna, repitiendo modelos conocidos como scikit-learn para datos tabulares y pasando por alto métodos modernos y específicos para cada tarea. Además, suelen realizar cambios globales sobre los scripts, sin explorar a fondo componentes clave como la ingeniería de características o la preparación de datos, lo que limita la optimización. Otro problema frecuente es el manejo inadecuado de errores y fugas de información, lo que puede generar fallos o sesgos en los modelos.
MLE-STAR introduce varias innovaciones fundamentales para superar estas limitaciones. Primero, en lugar de apoyarse únicamente en su conocimiento previo, utiliza búsquedas externas en la web para obtener modelos y fragmentos de código de vanguardia que se adapten a la tarea y los datos ofrecidos. Esto garantiza que las soluciones iniciales reflejen las mejores prácticas actuales. Luego, emplea un refinamiento en dos etapas: un ciclo externo que realiza estudios de ablación para identificar qué parte del pipeline tiene mayor impacto en el rendimiento, y un ciclo interno que prueba variaciones específicas de ese componente con retroalimentación estructurada. Así puede afinar detalles como la codificación de variables categóricas sin alterar innecesariamente todo el código.
Además, su estrategia de ensamblaje de modelos es poco convencional, ya que no se limita a votar o promediar soluciones, sino que explora combinaciones complejas mediante técnicas como stacking con meta-modelos personalizados o búsqueda de pesos optimizados, buscando siempre mejorar los resultados. Para garantizar la robustez, cuenta con agentes especializados que corrigen automáticamente errores en Python y detectan fugas de datos o uso incompleto de archivos proporcionados, evitando así problemas comunes que derivan en malos rendimientos.
Los resultados obtenidos en el benchmark MLE-Bench-Lite, que incluye 22 competiciones desafiantes en distintos tipos de datos (tabulares, imagen, audio y texto), son impresionantes: MLE-STAR duplica con creces la tasa de soluciones premiadas (medallas) frente a los mejores agentes previos, alcanzando un 63.6% de medallas de cualquier tipo frente al 25.8% del segundo mejor. En tareas de imagen, prefiere arquitecturas modernas como EfficientNet o ViT, dejando atrás modelos tradicionales como ResNet, lo que se traduce en mayores posiciones en el podio. Su método de ensamblaje aporta una mejora adicional al combinar eficazmente diferentes propuestas ganadoras.
La clave de su éxito radica en apoyarse en búsquedas web para estar siempre actualizado, evaluar rigurosamente la contribución de cada fragmento del código para hacer ajustes precisos y utilizar una metodología de ensamblaje adaptativa y sofisticada. Además, incorpora chequeos de seguridad para corregir errores y prevenir fugas o mal uso de datos, aspectos que suelen ser débiles en otros agentes automáticos.
MLE-STAR es también un sistema extensible, que permite a expertos humanos incorporar descripciones de modelos de última generación para acelerar su adopción. Construido sobre el Agent Development Kit (ADK) de Google, facilita la integración en ecosistemas de agentes más amplios y su desarrollo bajo un enfoque abierto.
En resumen, MLE-STAR representa un avance significativo en la automatización de la ingeniería de machine learning, combinando búsqueda, refinamiento dirigido, ensamblajes inteligentes y validaciones rigurosas para superar tanto a métodos autónomos previos como a expertos humanos. Su código abierto invita a investigadores y practicantes a aprovechar estas capacidades para impulsar la productividad y la innovación en sus propios proyectos.



