En los últimos años, la atención principal en inteligencia artificial estaba en entrenar modelos cada vez mejores. Pero ahora, como el entrenamiento ha dejado de escalar con tanta rapidez, lo que realmente importa es la inferencia: que los chatbots de IA funcionen de manera rápida y eficiente cuando los usamos. Google ha captado este cambio y ha desarrollado chips diseñados justamente para ese propósito.
Estos nuevos chips, llamados Ironwood, forman parte de la reconocida serie de Tensor Processing Units (TPUs) de Google. Aunque la empresa comenzó a desarrollarlos en 2015 y lanzó las primeras versiones en 2018, ahora está viendo resultados muy prometedores. Estos nuevos chips no están pensados solo para entrenar modelos de IA, sino para que la utilización de esos modelos sea mucho más rápida y eficiente.
Las TPUv7, que estarán disponibles en las próximas semanas, pueden usarse tanto para entrenar modelos como para ejecutar inferencias, aunque su fortaleza principal está en esta última función. Mientras entrenar modelos es importante, el uso real que hacen los usuarios de esos modelos es clave, y aquí es donde estos chips destacan.
Google destaca que el rendimiento de Ironwood es cuatro veces superior al de la generación anterior, tanto en entrenamiento como en inferencia, y que es el silicio personalizado más potente y eficiente energéticamente hasta ahora. Además, la compañía ya ha cerrado un acuerdo con Anthropic para que esta pueda acceder hasta a un millón de TPUs para ejecutar y ofrecer su modelo Claude a los usuarios.
Estos chips forman el corazón del llamado AI Hypercomputer, un sistema de supercomputación que, según Google, puede reducir en un 28% los costes en Tecnología de la Información y ofrece un retorno de inversión del 353% en tres años, es decir, multiplicar por más de cuatro la inversión inicial en ese periodo.
Ironwood también puede trabajar en conjunto en grandes cantidades: se pueden conectar hasta 9,216 chips en un solo nodo o “pod”, eliminando casi todos los cuellos de botella en los modelos más complejos. Este cluster masivo ofrece hasta 1,77 petabytes de memoria HBM compartida y una comunicación interna a una velocidad impresionante de 9,6 terabits por segundo gracias a su Inter-Chip Interconnect (ICI).
Google también asegura que un pod Ironwood logra 118 veces más ExaFLOPS en precisión FP8 que su mejor competidor. Los FLOPS miden la cantidad de operaciones matemáticas en coma flotante que un chip puede hacer por segundo, lo que significa que estos chips pueden ejecutar cualquier tarea de IA a una velocidad récord.
Aunque hoy en día NVIDIA domina el mercado de chips para IA, la llegada de estas TPUv7 muestra que hay competencia real, algo positivo para la industria que busca evitar depender demasiado de un solo fabricante. Google tiene todos los recursos para seguir desarrollando esta tecnología y sus nuevos chips son la prueba de ello. Otras empresas también están intentando fabricar sus propios procesadores para IA, conscientes de esta nueva realidad.
Cabe destacar que, una vez que el modelo de IA está entrenado, la inferencia se rige por reglas diferentes a las del entrenamiento. Aunque CUDA, la plataforma de NVIDIA, sigue siendo importante, su peso disminuye en la fase de inferencia, donde lo esencial es obtener respuestas lo más rápido posible. Los modelos se "compilan" para funcionar de manera óptima en el hardware que se utilice, lo que podría ir restando protagonismo a NVIDIA frente a alternativas como las de Google.
En resumen, mientras la industria se centraba en perfeccionar el entrenamiento de IA, Google estaba preparando una jugada estratégica: crear chips que hagan que el uso diario de los modelos sea más rápido, eficiente y accesible para todos.


