El panorama de los modelos fundamentales de inteligencia artificial está cambiando rápidamente, y uno de los lanzamientos más destacados en 2025 es la serie GLM-4.5 de Z.ai, que incluye los modelos GLM-4.5 y su versión más ligera GLM-4.5-Air. Presentados por Zhipu AI, estos modelos establecen nuevos estándares en capacidades unificadas de agentes inteligentes y acceso abierto, buscando integrar razonamiento, programación y agentes inteligentes, tanto a gran escala como en formatos más accesibles.
GLM-4.5 cuenta con una arquitectura Mixture of Experts (MoE) y tiene un total de 355 mil millones de parámetros, aunque solo 32 mil millones se activan en cada momento. Está diseñado para un rendimiento superior en tareas complejas que requieren razonamiento avanzado y capacidades de agente. Por otro lado, GLM-4.5-Air, con 106 mil millones de parámetros totales y 12 mil millones activos, ofrece funciones similares pero con una demanda mucho más baja de hardware y recursos computacionales.
Un aspecto innovador de ambos modelos es su enfoque de razonamiento híbrido, que incluye dos modos en un solo marco: - Modo Pensante: permite realizar razonamientos complejos paso a paso, usar herramientas, planificar en múltiples etapas y ejecutar tareas autónomas de agente. - Modo No Pensante: optimizado para respuestas rápidas y sin estado, ideal para conversaciones fluidas y casos que requieren reacciones inmediatas.
Esta doble modalidad permite cubrir desde procesos cognitivos sofisticados hasta necesidades interactivas de baja latencia en un único modelo, potenciando así la próxima generación de agentes inteligentes.
En pruebas de referencia con 12 evaluaciones estándar de la industria (como MMLU, GSM8K y HumanEval), GLM-4.5 obtuvo un puntaje promedio de 63.2, colocándose en tercer lugar general y siendo el mejor entre los modelos de código abierto. Su versión ligera, GLM-4.5-Air, logró un competitivo 59.8, destacándose como líder en modelos de alrededor de 100 mil millones de parámetros. También sobrepasa a competidores en áreas como la tasa de éxito en llamadas a herramientas, con un 90.6%, superando a modelos como Claude 3.5 Sonnet y Kimi K2. Además, muestra resultados especialmente sólidos en tareas en chino y programación, manteniendo un desempeño de vanguardia en varios benchmarks abiertos.
Un avance clave es su diseño “agent-native”, que integra directamente en la arquitectura funciones esenciales para agentes inteligentes como descomposición y planificación de tareas en múltiples pasos, uso de herramientas y conexión con APIs externas, manejo avanzado de visualización de datos y flujos de trabajo, además de soporte nativo para ciclos de razonamiento y percepción-acción. Estas capacidades habilitan aplicaciones de agente de punta a punta que antes solo se lograban con frameworks más pequeños, específicos o con APIs cerradas.
En cuanto a eficiencia y velocidad, GLM-4.5 incorpora técnicas como Decodificación Especulativa y Predicción Multi-Token (MTP), que permiten una inferencia entre 2.5 y 8 veces más rápida que modelos anteriores, alcanzando velocidades superiores a 100 tokens por segundo en la API rápida, e incluso hasta 200 tokens por segundo en la práctica. La versión ligera, GLM-4.5-Air, puede funcionar en GPUs de consumo con entre 32 y 64 GB de VRAM y admite cuantización para adaptarse a un rango aún más amplio de hardware, lo que facilita que usuarios avanzados ejecuten grandes modelos localmente. Los precios para llamadas a la API comienzan desde 0.11 dólares por millón de tokens de entrada y 0.28 dólares por millón de tokens de salida, posicionándose como una opción de gran calidad y economía.
Otro punto destacado es su licencia abierta MIT, que permite el uso comercial sin restricciones y la evolución del código base. Los modelos, junto con sus herramientas, analizadores y motores de razonamiento, están integrados en principales frameworks de modelos de lenguaje como transformers, vLLM y SGLang, con documentación y repositorios disponibles públicamente. También es posible acceder a estos modelos mediante motores de inferencia populares, con soporte completo para afinamiento y despliegues locales, lo que contrasta con la tendencia cada vez más cerrada de competidores occidentales.
Entre sus innovaciones técnicas más relevantes están: - La capa de Predicción Multi-Token para decodificación especulativa, que acelera notablemente la inferencia en diversas plataformas. - Arquitectura unificada que combina razonamiento, programación y flujos multimodales de percepción y acción. - Entrenamiento sobre 15 billones de tokens y soporte para contextos de hasta 128,000 tokens de entrada y 96,000 de salida. - Compatibilidad inmediata con herramientas de investigación y producción, con instrucciones para ajustar y adaptar los modelos según distintas necesidades.
En resumen, GLM-4.5 y GLM-4.5-Air representan un salto significativo en modelos fundacionales abiertos, orientados a agentes inteligentes y razonamiento avanzado. Estas propuestas marcan un nuevo estándar en accesibilidad, rendimiento y capacidades cognitivas integradas, sentando las bases para la próxima generación de agentes inteligentes y aplicaciones para desarrolladores.



