Mistral impulsa modelos abiertos en chino, eclipsando avances de EEUU

Devstral 2, con 123B parámetros y contexto de 256K tokens, alcanza 72.2% en SWE-Bench Verified, posicionando a Europa en la élite de modelos abiertos para programación asistida. Soporta integración CLI y despliegue en GPUs H100 o CPU. https://tinyurl.com/2pb2skn4

M
MIIA
editorial
9 de diciembre de 2025·4 min de lectura
Mistral impulsa modelos abiertos en chino, eclipsando avances de EEUU

Durante el último año, los modelos abiertos más destacados en programación asistida, especialmente en pruebas como SWE-Bench Verified, han estado dominados por desarrollos chinos. Proyectos como DeepSeek, Kimi o Qwen lideraban con claridad, dejando a Europa en una posición secundaria. Sin embargo, la llegada de Devstral 2 ha cambiado ese panorama. Aunque no desplaza a los líderes establecidos, coloca a Mistral –la compañía europea detrás de este modelo– en un nivel competitivo, mostrando que Europa puede aspirar a ocupar un lugar destacado en un área hasta ahora dominada por otros.

Este avance representa un salto técnico que venía desarrollándose desde hace tiempo. Algunos modelos abiertos de Europa y Estados Unidos habían mostrado mejoras continuas, pero aún no habían alcanzado el rendimiento para competir al más alto nivel. Devstral 2 es el proyecto que consolida ese progreso y evidencia que es posible equipararse a los grandes referentes del sector.

En cuanto a sus características, Devstral 2 cuenta con 123 mil millones de parámetros en una arquitectura densa, ofrece un contexto muy amplio de 256.000 tokens y se distribuye bajo una licencia MIT modificada que facilita su uso en entornos abiertos. También existe una versión más pequeña, Devstral Small 2, con 24 mil millones de parámetros y licencia Apache 2.0. Según los resultados que ha dado la compañía, en SWE-Bench Verified Devstral 2 alcanza un 72,2%, una puntuación que lo sitúa entre los modelos abiertos de mayor rendimiento.

Para ponerlo en contexto, el listado de modelos abiertos en la parte alta del benchmark está encabezado por DeepSeek V3.2 con un 73,1%, seguido por Kimi K2 Thinking con 71,3%, y luego Qwen 3 Coder Plus y Minimax M2, que rondan los 69 puntos. Otros modelos como GLM 4.6, GPT-OSS-120B y DeepSWE obtienen resultados más modestos. Por otro lado, los modelos comerciales propietarios muestran números más altos: Gemini 3 Pro llega al 76,2%, GPT 5.1 Codex Max a un 77,9%, y Claude Sonnet 4.5 a un 77,2%, superando a los abiertos.

SWE-Bench Verified es un test que mide la capacidad de un modelo para resolver tareas reales de programación. En lugar de ejercicios ficticios, se basa en encontrar errores dentro de repositorios de código abierto y proponer parches que hagan que las pruebas vuelvan a pasar. De esta manera, evalúa si el modelo comprende la estructura del proyecto, identifica la fuente del problema y sugiere soluciones coherentes. Aunque es una métrica exigente, se limita a repositorios en Python y a casos concretos, sin cubrir todo el espectro posible del desarrollo de software.

La llegada de Devstral 2 coincide también con una evolución en cómo se usan estas herramientas. Ya no se trata solo de recibir sugerencias en el editor de código, sino de contar con agentes inteligentes que pueden explorar proyectos completos, entender su arquitectura y proponer cambios adecuados. En este contexto nació Vibe CLI, una herramienta que permite a Devstral interactuar directamente con el código desde la terminal, facilitando así su integración en el flujo diario de los programadores.

En cuanto a costos y despliegue, Devstral estará disponible gratis durante un tiempo inicial. Luego su uso costará 0,40 dólares por millón de tokens de entrada y 2,00 dólares por millón en salida, siendo la versión Small 2 más económica. En infraestructura, Devstral 2 exige al menos cuatro GPUs de gama alta H100, destinadas a centros de datos, mientras que Devstral Small 2 está diseñado para funcionar en una sola GPU, e incluso en configuraciones solo con CPU, lo que permite su uso tanto en empresas como por desarrolladores individuales.

En resumen, Devstral 2 rompe con un escenario dominado por compañías chinas y ocupa un espacio que ni siquiera Estados Unidos, a pesar de su liderazgo en IA, había logrado en modelos abiertos de alto rendimiento para programación asistida. Sin desplazar a los líderes actuales, amplía las posibilidades y demuestra que Europa puede competir a ese nivel, abriendo nuevas perspectivas para el desarrollo de estas herramientas.

fuente original
https://www.xataka.com/robotica-e-ia/elite-modelos-abiertos-hablaba-chino-mistral-acaba-situar-a-europa-nivel-que-eeuu-logro-alcanzar
Prueba MIIA

Agentes de IA para WhatsApp, Instagram y Messenger. Configurados en 10 minutos.

Seguir leyendo

relacionado con #programación asistida · #modelos de ia · #benchmark swe-bench verified
Prueba MIIA gratis →
WhatsApp