Alibaba ha dado un gran salto en la eficiencia para entrenar modelos de inteligencia artificial. Su nueva familia de modelos, llamada Qwen3-Next, promete ser mucho más rápida y económica que versiones anteriores, superando incluso a otros modelos destacados como DeepSeek R1.

La división en la nube de Alibaba presentó estos modelos asegurando que son 13 veces más pequeños que su modelo más grande, lanzado apenas una semana antes. Entre ellos, Qwen3-Next-80B-A3B destaca por ser hasta 10 veces más veloz que el Qwen3-32B presentado en abril, y lo más llamativo es que reduce los costes de entrenamiento en un 90%.

Para poner esto en perspectiva, según un informe de la Universidad de Stanford, OpenAI gastó alrededor de 78 millones de dólares en computación para entrenar GPT-4, y Google invirtió cerca de 191 millones para Gemini Ultra. En cambio, Alibaba solo necesitó unos 500 mil dólares para entrenar Qwen3-Next en esta fase.

En pruebas comparativas, este modelo de Alibaba superó a DeepSeek R1 y a Kimi-K2. Aunque no es el más potente a nivel global, ya que modelos como GPT-5, Grok 4 o Claude 4.1 están por delante, su rendimiento es sobresaliente considerando el bajo costo de su desarrollo.

¿Cómo lo lograron? La clave está en la arquitectura Mixture of Experts (MoE), que divide el modelo en varias "subredes especializadas" llamadas expertos. Mientras que otros modelos activan gran parte de sus expertos, Alibaba usa 512 expertos, pero solo pone en funcionamiento 10 simultáneamente, optimizando recursos.

Además, emplean una técnica llamada atención híbrida, que mejora la eficiencia cuando el modelo procesa entradas muy largas, evitando un gasto excesivo de cómputo. En concreto, usan Gated DeltaNet, un método desarrollado por MIT y NVIDIA que selecciona qué información es relevante y cuál se puede dejar de lado, creando así un mecanismo de atención muy preciso y eficiente.

Este avance llega en un momento en el que los costos para entrenar nuevos modelos de IA se vuelven cada vez más elevados, lo que impulsa la búsqueda de modelos más pequeños, especializados y baratos. Por ejemplo, Tencent ha lanzado recientemente modelos con menos de 7.000 millones de parámetros y la startup Z.ai presentó GLM-4.5 Air con apenas 12.000 millones de parámetros activos, a diferencia de gigantes como GPT-5 o Claude que requieren muchos más recursos para funcionar.

En definitiva, Alibaba está demostrando que es posible lograr resultados similares a los de grandes modelos de IA con una fracción del presupuesto, marcando un camino interesante para el futuro de la inteligencia artificial eficiente.

↗

fuente original

https://www.xataka.com/robotica-e-ia/alibaba-acaba-demostrar-que-openai-se-gasta-78-millones-hacer-ellos-500-000-dolares

ver →

etiquetas:alibaba inteligencia artificial modelos de lenguaje eficiencia en entrenamiento mixture of experts costos de ia tecnologías desarrolladas