NVIDIA ha presentado un avance importante en el aprendizaje automático escalable: XGBoost 3.0, que ahora permite entrenar modelos de árboles de decisión potenciados por gradiente (GBDT) con conjuntos de datos que van desde gigabytes hasta 1 terabyte (TB) utilizando un solo GH200 Grace Hopper Superchip. Esta innovación facilita a las empresas manejar grandes volúmenes de datos para aplicaciones como la detección de fraudes, el análisis de riesgos crediticios y el trading algorítmico, simplificando procesos que antes eran complejos de escalar.
El núcleo de este progreso es el nuevo External-Memory Quantile DMatrix que incorpora XGBoost 3.0. Hasta ahora, el entrenamiento en GPU estaba limitado por la memoria disponible en la tarjeta, lo que restringía el tamaño de los conjuntos de datos o obligaba a usar infraestructuras multi-nodo complicadas. Esta versión aprovecha la arquitectura coherente de memoria del Grace Hopper Superchip y su ultrarrápido ancho de banda NVLink-C2C de 900GB/s, lo que permite transmitir directamente datos preprocesados y comprimidos desde la memoria RAM del host a la GPU. Así, se supera el cuello de botella y las limitaciones de memoria que antes requerían servidores con enorme RAM o grandes clústeres de GPUs.
Instituciones como el Royal Bank of Canada (RBC) han reportado mejoras de velocidad hasta 16 veces mayores y una reducción del 94% en el costo total de propiedad para entrenar modelos, al migrar sus procesos analíticos predictivos a XGBoost potenciado por GPU. Esta eficiencia es esencial en entornos con ajustes constantes de modelos y volúmenes de datos que cambian rápido, permitiendo a bancos y empresas optimizar características de manera más ágil y escalar conforme crece la información.
¿Cómo funciona? La nueva estrategia con memoria externa incluye varias innovaciones: el External-Memory Quantile DMatrix preclasifica cada característica en intervalos cuantiles, mantiene los datos comprimidos en la RAM del host y los transmite según demanda, conservando la precisión y reduciendo la carga sobre la memoria GPU. Así, un solo GH200 Superchip, con 80GB de memoria HBM3 en la GPU y 480GB de RAM LPDDR5X en el sistema, puede manejar conjuntos de datos de hasta un terabyte, algo que antes requería múltiples GPUs trabajando en clúster. Además, para los equipos de ciencia de datos que ya usan RAPIDS, activar esta función es sencillo y requiere pocos cambios en el código.
Algunos consejos técnicos para sacar el máximo provecho son usar grow_policy='depthwise' para la construcción de árboles con memoria externa, correr con CUDA 12.8 o superior y un controlador habilitado para HMM para compatibilidad total con Grace Hopper. También es importante considerar que el número de filas (etiquetas) es el principal factor limitante para la escalabilidad, mientras que la estructura o ancho de la tabla tiene un impacto menor en el rendimiento de la GPU.
Entre otras mejoras de XGBoost 3.0 están el soporte experimental para memoria externa distribuida en clústeres de GPU, reducción en requisitos de memoria y tiempos de inicialización, especialmente para datos mayormente densos, y soporte para características categóricas, regresión cuantílica y explicabilidad SHAP en modo de memoria externa.
Al acercar el entrenamiento de GBDT a escala terabyte en un solo chip, NVIDIA facilita que tanto el sector financiero como otras industrias accedan a modelos de machine learning de gran escala, acelerando el ritmo de innovación, reduciendo costos y simplificando la infraestructura tecnológica. XGBoost 3.0 junto con el Grace Hopper Superchip representan un salto significativo en aprendizaje automático escalable y acelerado.


