Recientemente se lanzaron dos modelos transformer con arquitectura Mixture-of-Experts (MoE) que representan enfoques distintos en cuanto a diseño y eficiencia: el Qwen3 30B-A3B de Alibaba (abril 2025) y el GPT-OSS 20B de OpenAI (agosto 2025). A continuación, presentamos una comparación técnica para entender mejor sus características y aplicaciones.
El Qwen3 30B-A3B cuenta con 30,5 mil millones de parámetros totales, de los cuales 3,3 mil millones están activos en cada token. Su arquitectura se compone de 48 capas, y cada capa incluye 128 expertos MoE, con 8 expertos activos por token durante la inferencia. El modelo usa Grouped Query Attention (GQA) con 32 cabezas de consulta y 4 de clave-valor, lo que optimiza el uso de memoria sin perder calidad en la atención, especialmente útil para manejar contextos muy largos. De hecho, puede procesar contextos nativos de hasta 32,768 tokens y extenderse hasta 262,144 tokens en variantes avanzadas. Además, soporta 119 idiomas y dialectos, y su vocabulario tiene 151,936 tokens basados en tokenización BPE.
Una característica distintiva del Qwen3 es su sistema híbrido de razonamiento, que permite alternar entre modos “pensantes” y “no pensantes”, dando a los usuarios la posibilidad de ajustar el consumo computacional según la complejidad de la tarea.
Por otro lado, el GPT-OSS 20B tiene 21 mil millones de parámetros en total, con 3,6 mil millones activos por token. Este modelo presenta 24 capas y 32 expertos MoE por capa, activando 4 expertos por token; apuesta por una menor profundidad pero con expertos más potentes individualmente. Emplea Grouped Multi-Query Attention con 64 cabezas de consulta y 8 de clave-valor organizadas en grupos, lo que favorece una inferencia eficaz y mantiene la calidad de atención. Su ventana de contexto nativa es de 128,000 tokens y utiliza una quantización nativa MXFP4 (4.25 bits) para optimizar memoria, permitiendo ejecutarse en 16 GB de RAM. Su tokenizador, llamado o200k_harmony, amplía el conjunto usado en modelos como GPT-4o.
En cuanto a diseño, el Qwen3 apuesta por profundidad y diversidad de expertos para tareas complejas y con múltiples etapas de razonamiento, mientras que GPT-OSS opta por mayor ancho y densidad computacional para un procesamiento eficiente en una sola pasada. En la ruta de enrutamiento MoE, Qwen3 usa 8 expertos de 128 por token, fomentando una toma de decisiones modular y sensible al contexto, y GPT-OSS cuadruplica el poder computacional por experto con solo 4 expertos activos de 32.
Respecto a la memoria y despliegue, Qwen3 necesita recursos variables dependiendo de la precisión y la longitud del contexto, pero está optimizado para implementaciones en la nube y en el edge, con soporte para distintas quantizaciones tras el entrenamiento. GPT-OSS está diseñado para hardware consumidor con memoria limitada (16 GB con quantización nativa), facilitando desplegar modelos complejos en dispositivos con restricciones.
En desempeño, Qwen3 destaca en razonamiento matemático, programación y tareas lógicas complejas, manteniendo además un rendimiento multilingüe sólido. Su modo “pensante” mejora la resolución de problemas complicados. Por su parte, GPT-OSS ofrece resultados comparables a modelos como OpenAI o3-mini en benchmarks estándar, con optimizaciones enfocadas en el uso de herramientas, navegación web y llamadas a funciones, además de soportar razonamiento en cadena ajustable.
En resumen, si buscas un modelo para tareas complejas que requieran procesamiento profundo, flexibilidad para contextos extendidos y capacidades multilingües, Qwen3 30B-A3B es una opción destacada. En cambio, para despliegues con recursos limitados, uso eficiente de herramientas, inferencia rápida y aplicaciones en dispositivos con memoria restringida, GPT-OSS 20B se presenta como la alternativa ideal.
Ambos modelos representan avances importantes en arquitecturas MoE, mostrando que no se trata solo de aumentar parámetros, sino de diseñar estratégicamente según los casos de uso y condiciones de implementación.



