La inteligencia artificial acaba de lograr triplicar la potencia de las GPUs sin necesidad de intervención humana. El equipo DeepReinforce presentó CUDA-L1, un nuevo marco que consigue una aceleración promedio de 3.12 veces y picos de hasta 120 veces en más de 250 tareas reales usando GPUs. Y no se trata solo de teoría: todos los resultados son reproducibles con código abierto en hardware NVIDIA común.
El motor principal de CUDA-L1 es una innovación en el aprendizaje por refuerzo llamada Contrastive Reinforcement Learning (Contrastive-RL). A diferencia del aprendizaje por refuerzo tradicional, donde el sistema genera soluciones y recibe recompensas numéricas para ajustar sus parámetros, aquí se retroalimenta directamente con las puntuaciones de rendimiento y las variantes previas del código. En cada ronda, el modelo analiza en lenguaje natural qué código fue más rápido, por qué y qué estrategias impulsaron esa mejora. Este proceso obliga a un pensamiento complejo que guía a la IA a construir modelos mentales generales y basados en datos sobre qué hace que el código CUDA sea eficiente.
Gracias a esto, la IA no solo confirma optimizaciones conocidas, sino que además descubre trucos poco obvios que incluso expertos humanos pasan por alto, como atajos matemáticos que evitan cálculos completos o técnicas de memoria diseñadas para aprovechar detalles específicos del hardware.
El entrenamiento se desarrolla en tres etapas: primero el modelo se ajusta con código CUDA validado generado por otros grandes modelos; luego entra en un ciclo de autoaprendizaje donde produce y selecciona código funcional para mejorar; finalmente, en la fase Contrastive-RL, analiza distintas variantes de código con sus respectivas velocidades para debatir y superar generaciones anteriores, generando así optimizaciones continuas de gran impacto.
Respecto al rendimiento, CUDA-L1 fue evaluado con KernelBench, un estándar para evaluar generación de código en GPUs, en 250 cargas reales de PyTorch. El resultado fue un aumento promedio de velocidad de 3.12 veces, con un máximo de hasta 120 veces en algunos casos. Estas mejoras se mantuvieron al trasladar el código optimizado a distintas arquitecturas NVIDIA como L40, H100 o RTX 3090, con ganancias significativas en todas ellas.
Un ejemplo ilustrativo es la multiplicación de matrices con diagonales: el código original creaba una matriz diagonal completa con complejidad cuadrática, mientras que CUDA-L1 utilizó una operación de broadcasting para reducir la complejidad a lineal, alcanzando una aceleración de 64 veces. Otro caso impresionante fue una convolución transpuesta en 3D, donde el código original realizaba cálculos completos innecesarios; la IA detectó que el resultado era matemáticamente cero y evitó toda la computación, logrando 120 veces más velocidad.
Estas mejoras tienen un impacto directo en negocios, pues cada 1% de optimización reduce costos en tiempo de GPU en la nube, energía y permite mayor rendimiento con el mismo hardware. Además, el proceso automatizado minimiza la necesidad de expertos en CUDA, acelerando los ciclos de desarrollo y permitiendo que los equipos se enfoquen en investigación y funcionalidades, no en ajustes bajos a nivel de código.
Para los profesionales del área, todo el código CUDA optimizado está disponible como código abierto y puede ser probado en distintos modelos de GPU. No se requiere conocimiento experto ni herramientas propietarias, ya que el proceso elimina la llamada “magia negra” y no depende de afinaciones manuales.
Desde la perspectiva de la investigación, Contrastive-RL presenta un nuevo enfoque para entrenar IA en dominios donde la precisión y rendimiento son críticos, y también aborda problemas como el “trampear” recompensas con métodos indeseados, estableciendo metodologías para detectar y prevenir estas trampas.
Técnicamente, esta metodología logra que la IA aprenda mediante crítica y análisis, en lugar de solo ensayo y error, creando un ciclo de auto-mejora robusto y superando tanto métodos evolutivos como el aprendizaje por refuerzo tradicional. Además, el modelo generaliza principios fundamentales de optimización como la organización eficiente de memoria, configuración de bloques de hilos, fusión de operaciones, uso inteligente de memoria compartida y atajos matemáticos.
Entre las técnicas más destacadas descubiertas, se encuentran la optimización del layout de memoria para mejorar la caché, el acceso a memoria para evitar conflictos y maximizar ancho de banda, la fusión de operaciones para reducir accesos, la identificación de cálculos que pueden omitirse totalmente, ajustes en configuración de hilos, reducción de ramas en niveles de warp, y ejecución asíncrona para solapar entrada/salida y cálculos.
En resumen, con CUDA-L1 la IA se ha convertido en su propio ingeniero de optimización, impulsando la productividad en investigación y el rendimiento del hardware sin depender de expertos humanos. Esto no solo eleva los estándares de desempeño, sino que sienta las bases para sistemas que se autoenseñan a aprovechar al máximo los recursos disponibles, beneficiando la ciencia, la industria y más allá.



