Los modelos de lenguaje grande (LLM) han experimentado un avance acelerado, con un aumento masivo en la cantidad de parámetros, el uso generalizado de arquitecturas de expertos mixtos (MoE) y contextos de longitud enorme. Modelos como DeepSeek-R1, LLaMA-4 y Qwen-3 ya alcanzan billones de parámetros, lo que exige una gran capacidad de cómputo, ancho de banda de memoria y comunicación rápida entre chips. Aunque el enfoque MoE mejora la eficiencia al activar solo un subconjunto de expertos por token, plantea desafíos en la gestión del enrutamiento de expertos. Además, las ventanas de contexto que superan el millón de tokens ponen mucha presión sobre la atención y el almacenamiento en caché de claves y valores, que además escala con el número de usuarios concurrentes. En escenarios reales, la variedad y la imprevisibilidad de las entradas, las activaciones desiguales de los expertos y las consultas en ráfaga complican aún más el servicio. Para enfrentar estas dificultades es necesario replantear la infraestructura de IA desde cero, combinando diseño conjunto de hardware y software, orquestación adaptable y gestión elástica de recursos.
El progreso reciente en los LLM se sostiene en tres tendencias principales: el incremento continuo de parámetros, arquitecturas MoE que solo activan partes del modelo y ventanas de contexto extendidas. Modelos como LLaMA 4, DeepSeek-V3 y PaLM de Google ya tienen escalas en billones de parámetros, mientras que las arquitecturas MoE solo activan determinados expertos por token, equilibrando capacidad y eficiencia. Al mismo tiempo, las ventanas de contexto abarcan hoy hasta millones de tokens, lo que permite razonamientos a largo plazo pero incrementa el costo en cómputo y memoria por las grandes cachés de claves y valores. Esto genera una enorme presión sobre los centros de datos, que requieren más potencia de cómputo, memoria y ancho de banda, y deben afrontar retos en paralelismo, heterogeneidad de cargas, convergencia de datos y rendimiento de almacenamiento.
Para hacer frente a estas necesidades, investigadores de Huawei presentaron CloudMatrix, una nueva arquitectura para centros de datos de IA diseñada para manejar las crecientes demandas de los LLM a gran escala. Su primera implementación, CloudMatrix384, integra 384 NPUs Ascend 910C y 192 CPUs Kunpeng, todos conectados mediante un bus unificado de alta velocidad y baja latencia que permite comunicación peer-to-peer completa. Esta solución facilita la agrupación flexible de recursos de cómputo, memoria y red, ideal para el paralelismo MoE y el acceso distribuido a cachés KV. Sobre esta base, CloudMatrix-Infer ofrece un marco de servicio optimizado que incluye agrupaciones de recursos peer-to-peer, paralelismo a gran escala de expertos y optimizaciones específicas de hardware como pipelining y cuantización INT8. Las pruebas con el modelo DeepSeek-R1 demuestran un rendimiento, eficiencia y escalabilidad de vanguardia.
CloudMatrix es una arquitectura basada en interconexiones peer-to-peer de alta velocidad y en la desagregación fina de recursos. Su implementación inicial en CloudMatrix384 une 384 NPUs Ascend 910C y 192 CPUs Kunpeng en un solo supernodo, conectado por una red bus unificado que permite comunicación directa entre todos los componentes. Este diseño comparte recursos de cómputo, memoria y red de manera fluida y escalable, funcionando como un sistema cohesivo. Al evitar los cuellos de botella de los esquemas jerárquicos tradicionales, CloudMatrix384 es especialmente eficiente en tareas que requieren mucha comunicación, como el paralelismo MoE a gran escala y el manejo distribuido de cachés KV, siendo ideal para el servicio escalable de LLM.
En las evaluaciones realizadas con CloudMatrix-Infer sobre el modelo DeepSeek-R1 usando el supernodo CloudMatrix384, se alcanzó una tasa de prellenado de 6,688 tokens por segundo por NPU y una tasa de decodificación de 1,943 tokens por segundo, manteniendo la latencia por debajo de los 50 ms. Estos resultados superan sistemas comparables como SGLang en NVIDIA H100 y DeepSeek en H800. Incluso bajo estrictos requerimientos de latencia de menos de 15 ms, el sistema sostiene 538 tokens por segundo en decodificación. Además, la cuantización INT8 en Ascend 910C mantiene la precisión a través de 16 benchmarks, demostrando que las mejoras en eficiencia no sacrifican la calidad del modelo.
En resumen, Huawei CloudMatrix es una arquitectura de próxima generación para centros de datos de IA, creada para superar las limitaciones de escalabilidad de los clústeres convencionales. Su primer sistema en producción, CloudMatrix384, combina 384 NPUs Ascend 910C y 192 CPUs Kunpeng en un supernodo completamente peer-to-peer conectado por un bus unificado de alta velocidad y baja latencia. Para aprovechar esta arquitectura, se propone CloudMatrix-Infer, que separa las fases de prellenado, decodificación y almacenamiento en caché en grupos independientes, soporta paralelismo a gran escala de expertos y aplica optimizaciones adaptadas al hardware como pipelining y cuantización INT8. Probado con DeepSeek-R1, mostró un rendimiento y latencia superiores a sistemas basados en NVIDIA, conservando la precisión y demostrando su potencial para implementaciones de IA a gran escala.



