Amazon ha presentado Mitra, un modelo base innovador diseñado especialmente para trabajar con datos tabulares. A diferencia de los enfoques tradicionales que requieren crear un modelo específico para cada conjunto de datos, Mitra aprovecha el aprendizaje en contexto (in-context learning) y un preentrenamiento con datos sintéticos, logrando un rendimiento sobresaliente en varias pruebas estándar de aprendizaje automático sobre datos tabulares. Integrado en AutoGluon 1.4, este modelo busca ofrecer una generalización robusta, lo que representa un avance importante para profesionales que manejan datos estructurados en áreas como salud, finanzas, comercio electrónico y ciencias.

Lo novedoso de Mitra radica en que fue preentrenado únicamente con datos sintéticos. En lugar de depender de datasets reales, que suelen ser limitados y variados, los investigadores de Amazon desarrollaron una estrategia para generar y combinar una amplia variedad de datos sintéticos, inspirados en el entrenamiento de grandes modelos de lenguaje con grandes y diversos corpus de texto.

Para el preentrenamiento, Mitra utiliza una mezcla de distribuciones previas sintéticas, incluyendo modelos causales estructurales y algoritmos basados en árboles como random forests y gradient boosting. Esta diversidad permite que Mitra capte patrones que se aplican a muchos datasets reales diferentes. Cada tarea sintética incluye un conjunto de apoyo (support set) y un conjunto de consulta (query set), lo que habilita al modelo a adaptarse a nuevas tareas mediante aprendizaje en contexto sin necesidad de actualizar sus parámetros constantemente.

Mientras que otros métodos de aprendizaje automático para datos tabulares, como XGBoost o random forests, requieren construir un modelo nuevo para cada tarea o cambio en la distribución de datos, Mitra puede ajustarse con solo unas pocas muestras etiquetadas y hacer predicciones precisas en datos desconocidos sin necesidad de reentrenar. Si se desea, también se admite un ajuste fino para adaptar más el modelo a tareas específicas.

En cuanto a arquitectura, Mitra incorpora un mecanismo de atención en dos dimensiones que abarca tanto las filas como las columnas de la tabla. Esta innovación mejora la capacidad del modelo para manejar tablas de distintos tamaños y tipos de características, capturar interacciones complejas entre columnas y registros, y tratar datos heterogéneos de forma nativa, un desafío importante en machine learning tabular.

Los resultados confirman que Mitra bate récords en diversos benchmarks importantes, como TabRepo, TabZilla, AutoML Benchmark (AMLB) y TabArena. Su desempeño es especialmente destacado en conjuntos de datos pequeños a medianos (menos de 5,000 muestras y 100 características), superando modelos reconocidos como TabPFNv2, TabICL, CatBoost y versiones anteriores de AutoGluon, tanto en problemas de clasificación como regresión.

Mitra ya está disponible en AutoGluon 1.4, un proyecto de código abierto, con modelos listos para integrarse fácilmente en pipelines existentes. Funciona tanto en GPU como en CPU, lo que facilita su implementación en distintos entornos. Además, sus pesos están compartidos en Hugging Face para usos en clasificación y regresión.

Este enfoque, basado en una cuidadosa combinación de datos sintéticos para el preentrenamiento, abre la puerta a una mayor generalización en modelos fundacionales aplicados a tablas, lo que podría acelerar tanto la investigación como la práctica de la ciencia de datos. Entre sus beneficios destacan la reducción del tiempo necesario para obtener soluciones, la transferencia entre dominios y la posibilidad de seguir innovando en modelos tabulares más flexibles y potentes.

Pronto Mitra estará listo para usar en AutoGluon 1.4, con pesos y documentación disponibles para tareas de clasificación y regresión. Se anima a investigadores y profesionales a experimentar y desarrollar nuevas aplicaciones a partir de esta base para el aprendizaje automático con datos tabulares.

↗

fuente original

https://www.marktechpost.com/2025/07/23/amazon-researchers-reveal-mitra-advancing-tabular-machine-learning-with-synthetic-priors/

ver →

etiquetas:aprendizaje en contexto datos sintéticos modelos tabulares automl amazon autogluon modelos fundacionales